Skip to content
Published on

오픈소스 AI 학습 데이터셋 2026 — Common Crawl / FineWeb (HF) / RedPajama-V2 / Dolma / SlimPajama / The Stack v2 / LAION / COYO-700M (Kakao) 심층 가이드

Authors

프롤로그 — 모델은 데이터의 함수다

2026년 LLM 경쟁에서 우리는 종종 모델 크기와 아키텍처를 이야기한다. 하지만 진실은 더 단순하다: 모델은 데이터의 함수다(Model = f(Data)). Llama 3가 Llama 2를 압도한 가장 큰 이유는 트랜스포머 변경이 아니라 학습 데이터의 양과 질이었다. 15조 토큰. FineWeb-Edu가 등장한 후 7B 모델이 이전 30B 모델을 따라잡기 시작한 것도 같은 이유다.

"Garbage in, garbage out"은 머신러닝의 오래된 격언이지만, LLM 시대에 그 격언은 새로운 무게를 갖는다. 토큰 1조 개 중에 5%의 쓰레기가 섞이면, 그 모델은 5% 분량의 환각을 학습한다.

이 글은 2026년 오픈소스 AI 학습 데이터셋의 전체 지도를 그린다. 모든 LLM의 토대인 Common Crawl부터, 그것을 어떻게 정제하느냐로 갈라진 RefinedWeb, RedPajama, FineWeb, Dolma, SlimPajama 가문, 코드 전용 The Stack v2, 멀티모달 LAION/DataComp, 한국 COYO-700M과 AI Hub, 일본 NII/NTT/ABEJA 데이터까지. 그리고 마지막으로 라이선스와 윤리, GDPR Right to be Forgotten의 새 시대를 본다.


1장 · 2026년 AI 학습 데이터셋 지도 — 4 분류

오픈소스 데이터셋은 크게 네 갈래로 나뉜다.

                 ┌─ 웹 텍스트 (Web Text) ─┐
                 │   Common Crawl          │
                 │   ├ RefinedWeb          │
                 │   ├ RedPajama-V2        │
                 │   ├ FineWeb / FW-Edu    │
                 │   ├ Dolma / SlimPajama  │
                 │   └ C4 / mC4 / OSCAR    │
                 │                         │
                 ├─ 학술/책 (Books/Papers)─┤
오픈소스 데이터셋 │   ├ The Pile            │
                 │   ├ arXiv / S2ORC       │
                 │   ├ Wikipedia / ROOTS   │
                 │   └ CommonPile          │
                 │                         │
                 ├─ 코드 (Code) ───────────┤
                 │   ├ The Stack v2        │
                 │   └ StarCoder Data      │
                 │                         │
                 └─ 멀티모달 (Multimodal) ─┘
                     ├ LAION-5B / Aesth.
                     ├ DataComp
                     ├ ImageNet / COCO
                     ├ CC12M / Open Images
                     ├ COYO-700M (Kakao)
                     └ Open X-Embodiment (로봇)

핵심 통찰 4가지:

  1. 모든 길은 Common Crawl로 통한다 — RefinedWeb, RedPajama, FineWeb, Dolma는 모두 Common Crawl을 다르게 정제한 결과물이다.
  2. 정제 파이프라인이 곧 차별점 — 같은 원료(Common Crawl)에서 어떤 휴리스틱, 어떤 디둡(deduplication), 어떤 LLM 분류기를 거치느냐가 토큰 품질을 결정한다.
  3. 2024~2026이 정제의 황금기 — FineWeb-Edu(2024.5)는 모델 기반 품질 분류기를 도입했고, 이후 모든 새 데이터셋이 이 접근을 따른다.
  4. 멀티모달은 별도 우주 — LAION이 저작권 소송에 휘말리며 흔들렸지만, DataComp가 그 자리를 메우고 있다.

2장 · Common Crawl — 모든 LLM의 기반

Common Crawl은 2007년부터 매월 웹을 크롤링해 무료로 공개하는 비영리 단체다. 누적 페치 PB 단위, 도메인 수십억 개. 현존하는 모든 오픈 LLM의 사실상 첫 번째 원료다.

2.1 형식

  • WARC (Web ARChive): 원본 HTTP 응답을 그대로 저장. 헤더, HTML, 바이너리 포함.
  • WAT: 메타데이터만 추출한 JSON.
  • WET: 텍스트만 추출한 평문 파일.

대부분의 LLM 정제 파이프라인은 WET에서 시작한다 — HTML 파싱은 이미 끝나 있고, 그저 보일러플레이트와 정크를 걸러내면 된다.

2.2 크롤 단위

매월 새 크롤이 공개된다. 예: CC-MAIN-2026-21 (2026년 21주차 크롤). 한 번의 크롤이 보통 3~4 PB. 누적 100 PB 이상.

2.3 한계

  • 중복 거대: 같은 페이지가 여러 도메인에 미러링됨. 디둡 필수.
  • 품질 편차 극단: 위키피디아 같은 양질 텍스트 옆에 자동 생성 SEO 스팸이 섞임.
  • 언어 분포 편향: 영어가 ~45%, 그 다음 러시아어/독일어/중국어/일본어/한국어 순.
  • robots.txt 준수: 크롤러가 robots.txt를 존중하므로, opt-out 도메인의 데이터는 자동으로 빠진다.

2.4 다운로드

# 특정 크롤의 WET 인덱스
aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2026-21/

# Python으로 한 segment 받기
import boto3
s3 = boto3.client("s3", region_name="us-east-1")
s3.download_file(
    "commoncrawl",
    "crawl-data/CC-MAIN-2026-21/segments/.../wet/...wet.gz",
    "sample.wet.gz",
)

Common Crawl은 그 자체로는 학습에 부적합하다 — 항상 정제된 파생 데이터셋을 거친다.


3장 · RefinedWeb (Falcon team, 2023)

RefinedWeb은 UAE의 Technology Innovation Institute (TII)가 Falcon 모델을 위해 만든 Common Crawl 정제본이다. **"웹 데이터만으로 책+논문 혼합 데이터셋(The Pile 등)을 능가할 수 있다"**를 증명한 첫 사례.

3.1 핵심 기여

  • 5조 토큰 규모의 웹 전용 데이터셋 공개 (전체는 비공개, 600B 토큰 샘플만 공개)
  • MacroData Refinement (MDR) 파이프라인: URL 필터, 텍스트 추출(trafilatura), 언어 식별, 휴리스틱, MinHash 디둡
  • 모델 기반 필터를 쓰지 않음 — 휴리스틱과 디둡만으로 품질을 끌어올림. 단순함의 미학.

3.2 파이프라인 요약

Common Crawl WARC
URL 필터 (블랙리스트, 성인/유해 도메인 제거)
Trafilatura (HTML → 본문 텍스트 추출)
언어 식별 (fastText, 영어만 유지)
휴리스틱 (반복 라인 비율, 평균 단어 길이, ...)
정확 일치 디둡 + MinHash 디둡 (도큐먼트 간)
600B 토큰 (공개분)

3.3 영향

RefinedWeb은 Falcon-7B/40B의 학습에 쓰였고, 당시 LLaMA-1을 능가했다. 이후 모든 LLM 정제 데이터셋이 RefinedWeb의 디둡 전략(MinHash + 라인 레벨 정확 일치)을 표준으로 채택했다.


4장 · RedPajama-V2 (Together AI, 2023)

RedPajama는 LLaMA-1의 데이터 구성을 재현하려는 오픈 프로젝트로 시작했다. V1은 1.2조 토큰의 "LLaMA 레시피 재현". V2는 그 야망을 더 키웠다.

4.1 RedPajama-V2 규모

  • 30조 토큰 (raw), 84개 Common Crawl 스냅샷 (2014~2023)
  • 5개 언어: 영어, 독일어, 프랑스어, 스페인어, 이탈리아어
  • 도큐먼트마다 품질 신호(quality signals)를 사전 계산해 제공 — 사용자가 자기 임계값으로 필터링할 수 있게.

4.2 품질 신호의 혁신

RedPajama-V2는 단순히 정제된 텍스트만 주지 않는다. 40가지 이상의 품질 메트릭(perplexity 점수, 자연어 비율, 코드 비율, ...)을 도큐먼트마다 붙여서 공개했다. 사용자는 자기 모델 목적에 맞게 임계값을 정할 수 있다.

# RedPajama-V2 로딩 예
from datasets import load_dataset

ds = load_dataset(
    "togethercomputer/RedPajama-Data-V2",
    name="default",
    partition="head_middle",  # 또는 "tail"
    snapshots=["2023-14"],
    languages=["en", "de"],
)

# 품질 신호로 필터링
def filter_quality(doc):
    return (
        doc["quality_signals"]["rps_doc_lorem_ipsum"] == 0 and
        doc["quality_signals"]["rps_doc_word_count"] >= 50 and
        doc["quality_signals"]["rps_lines_javascript_counts"] < 0.1
    )

filtered = ds.filter(filter_quality)

4.3 의의

품질 필터를 데이터셋 자체에 내장한 첫 사례. 이후 FineWeb 등은 이 접근을 표준화한다.


5장 · FineWeb (Hugging Face, 2024.2)

FineWeb은 2024년 2월 Hugging Face가 공개한 15조 토큰 규모의 영어 웹 데이터셋이다. 2026년 현재 가장 널리 쓰이는 LLM 학습 베이스라인.

5.1 왜 FineWeb이 중요한가

FineWeb 공개 직후 같은 양의 데이터로 FineWeb이 RefinedWeb, C4, RedPajama-V2를 모두 능가한다는 것이 벤치마크에서 입증됐다. 이유는:

  • 96개 Common Crawl 덤프를 모두 사용 (RefinedWeb은 일부만)
  • trafilatura 대신 더 최신의 HTML→텍스트 변환기
  • 개선된 휴리스틱: C4의 휴리스틱 + RefinedWeb의 휴리스틱을 합쳐서 다듬음
  • MinHash 디둡을 덤프 단위로: 덤프 내 디둡 후 덤프 간 디둡 (계산량 vs 효과의 균형)

5.2 파이프라인 (datatrove 라이브러리)

Hugging Face는 FineWeb을 만드는 데 자체 라이브러리 datatrove를 만들었고, 그 전체 파이프라인을 공개했다.

# datatrove 설치
pip install datatrove

# 실행 예 (개념적)
python -m datatrove.executor.local pipeline.py

pipeline.py는 보통 이렇게 생겼다:

from datatrove.executor import LocalPipelineExecutor
from datatrove.pipeline.readers import WarcReader
from datatrove.pipeline.extractors import Trafilatura
from datatrove.pipeline.filters import LanguageFilter, GopherQualityFilter, C4QualityFilter
from datatrove.pipeline.dedup import MinhashDedupSignature
from datatrove.pipeline.writers import JsonlWriter

pipeline = [
    WarcReader("s3://commoncrawl/crawl-data/CC-MAIN-2026-21/"),
    Trafilatura(),
    LanguageFilter(languages=["en"]),
    GopherQualityFilter(),
    C4QualityFilter(),
    MinhashDedupSignature(output_folder="dedup_sigs/"),
    JsonlWriter("output/"),
]

executor = LocalPipelineExecutor(pipeline=pipeline, tasks=64, workers=16)
executor.run()

5.3 사용

from datasets import load_dataset

# 15T 전체는 너무 크니, 샘플 사용
ds = load_dataset(
    "HuggingFaceFW/fineweb",
    name="sample-10BT",  # 10B 토큰 샘플
    split="train",
    streaming=True,
)

for doc in ds:
    print(doc["text"][:200])
    break

6장 · FineWeb-Edu (HF, 2024.5) — 교육 필터의 혁명

FineWeb-Edu는 FineWeb 공개 3개월 후 등장한 1.3조 토큰 서브셋이다. 한 가지 추가 단계: LLM 분류기로 "교육적 가치"가 높은 도큐먼트만 추출.

6.1 어떻게 만들었나

  1. Llama-3-70B-Instruct로 500K 도큐먼트의 "교육성"을 0~5점 채점 (프롬프트 엔지니어링)
  2. 그 데이터를 학습 데이터로 작은 분류기(snowflake-arctic-embed-m 등) 파인튜닝
  3. 분류기를 FineWeb 15T 전체에 적용 → 점수 3 이상만 남김 → 1.3T 토큰

6.2 결과

작은 모델(1B, 3B, 7B)이 FineWeb-Edu로만 학습했을 때, 두 배 큰 모델을 일반 FineWeb으로 학습한 것보다 MMLU/HellaSwag에서 좋다는 결과. 토큰 효율의 큰 도약.

6.3 의미

"양보다 질"이 단순한 슬로건이 아니라 측정 가능한 사실임을 입증. 2026년 모든 새 데이터셋은 "LLM-as-classifier" 필터를 표준 단계로 포함한다.

ds = load_dataset(
    "HuggingFaceFW/fineweb-edu",
    name="sample-100BT",
    split="train",
    streaming=True,
)

7장 · The Pile (EleutherAI) / Dolma (Allen AI) / SlimPajama (Cerebras)

7.1 The Pile (2020, EleutherAI)

The Pile은 GPT-3 시대에 GPT-Neo / GPT-J / Pythia 학습용으로 만들어진 825 GB 데이터셋. 22개 서브세트의 혼합:

  • Common Crawl (Pile-CC)
  • PubMed Central, ArXiv, FreeLaw, USPTO Backgrounds
  • StackExchange, GitHub, Books3 (저작권 문제로 삭제됨)
  • OpenWebText2, Wikipedia, OpenSubtitles
  • 등등

Books3 사건: 2023년 Books3가 저작권 침해 데이터셋이라는 것이 밝혀져 The Pile에서 제거됐다. 그 이후 모든 오픈 데이터셋은 책을 신중히 다룬다.

7.2 Dolma (Allen AI, 2024)

Dolma는 OLMo 모델용으로 Allen AI가 공개한 3조 토큰 데이터셋. 특징은:

  • 완전 투명한 라이선스: 모든 데이터의 출처와 라이선스 메타데이터 포함
  • 재현 가능한 파이프라인: dolma 툴킷 공개
  • 구성: Common Crawl 정제본 + Wikipedia + The Stack v1 + Reddit + arXiv + 학술 출판 + 책
pip install dolma
dolma tag --tag c4_v1 --documents path/to/jsonl

7.3 SlimPajama (Cerebras, 2023)

SlimPajama는 RedPajama-V1을 추가 디둡한 627B 토큰 버전. 핵심 통찰:

  • RedPajama-V1에는 같은 도큐먼트가 약 50%까지 중복으로 들어 있었다.
  • 디둡으로 토큰 수는 절반이 됐지만, 같은 토큰 수로 학습했을 때 SlimPajama가 RedPajama-V1보다 일관되게 좋다.
  • 디둡 = 자유 점심 (free lunch).

이 결과는 이후 모든 데이터셋이 공격적인 디둡을 기본으로 채택하게 만들었다.


8장 · OSCAR (Inria multilingual) / C4 + mC4 (Google)

8.1 OSCAR (Inria, 2019~)

**OSCAR (Open Super-large Crawled Aggregated coRpus)**는 프랑스 INRIA 주도의 다국어 데이터셋. Common Crawl에서 언어 식별로 분류해, 151개 언어의 텍스트를 제공한다.

  • 2024년 기준 OSCAR 2301: 한국어 35GB, 일본어 270GB 정도
  • 한국어/일본어 LLM 초기 학습에서 가장 널리 쓰임

8.2 C4 (Google, 2019)

**C4 (Colossal Clean Crawled Corpus)**는 T5 논문에서 공개한 정제본. 156GB. 단순한 휴리스틱:

  • 문장이 마침표/물음표/느낌표/따옴표로 끝나야 함
  • 5문장 이상
  • "lorem ipsum" 등 자동 생성물 패턴 제외
  • 영어 외 제외 (langdetect로)

8.3 mC4 (Google, 2021)

**mC4 (multilingual C4)**는 C4의 다국어 버전. 101개 언어, 27TB. mT5 학습에 사용. 한국어 90GB, 일본어 200GB 수준.

from datasets import load_dataset
ds = load_dataset("mc4", "ko", split="train", streaming=True)

C4/mC4는 오래된 정제 기법 대표이고, 2026년에는 FineWeb이 영어에서 그것을 대체하는 중이다. 다국어는 여전히 mC4와 OSCAR이 강하다.


9장 · CommonPile (a16z) / ROOTS (BigScience BLOOM)

9.1 CommonPile (2024~, a16z 후원)

CommonPile은 EleutherAI 인력 + a16z 자금으로 만들어지는 차세대 The Pile. 목표:

  • 라이선스가 명확한 데이터만 (CC0, PD, CC-BY 등)
  • 책 데이터를 퍼블릭 도메인 책(주로 Project Gutenberg)만으로 구성
  • 정부 문서, 학술 오픈 액세스 논문 비중을 늘림

2024~2026년에 부분 공개 중이고, 완전 공개 시 The Pile의 후계자가 될 전망이다.

9.2 ROOTS (BigScience BLOOM, 2022)

ROOTS는 다국어 BLOOM 모델용 1.6TB 데이터셋. 46개 자연어 + 13개 프로그래밍 언어. 특징:

  • 각 언어 커뮤니티가 직접 큐레이션에 참여 (참여형 데이터 거버넌스)
  • 라이선스/출처 메타데이터를 모든 도큐먼트에 부착
  • 한국어, 일본어는 포함되지 않음 (영어 위주, 그 외 중남미·아프리카·아시아 언어 일부)

ROOTS의 거버넌스 모델 — "데이터 주체가 데이터 큐레이션에 참여한다" — 는 이후 모든 윤리적 데이터셋의 기준점이 됐다.


10장 · arXiv / Wikipedia / S2ORC — 학술 데이터

10.1 Wikipedia 덤프

Wikipedia는 매월 전체 덤프를 공개한다. 가장 깨끗하고 가장 사실 밀도가 높은 텍스트. 단점: 너무 작다 (영어 ~20GB).

# 영어 위키 덤프 받기
wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

처리는 wikiextractor 또는 wikipedia2vec 등으로.

10.2 arXiv 코퍼스

arXiv는 1991년부터 누적된 220만+ 논문을 공개한다. LaTeX 소스 + PDF + 메타데이터 다 받을 수 있음.

  • 학습용 처리: LaTeX → 평문 변환 (수식은 토큰화 어려움)
  • 분야: 수학, 물리, CS, 통계, 정량 생물/금융

S3 버킷 s3://arxiv/ (requester pays)에서 전체 다운로드.

10.3 S2ORC (Allen AI, 2020~)

**S2ORC (Semantic Scholar Open Research Corpus)**는 학술 논문 8천만+편의 메타데이터/초록/일부 본문을 제공. Allen AI가 운영하는 Semantic Scholar의 백본.

  • Open Access 논문은 본문 전체 (~1천만 편)
  • 클로즈드 액세스는 초록만
  • 인용 그래프 포함 (논문 간 인용 관계 노드/엣지)
# S2ORC API 예
import requests
api_key = "YOUR_KEY"
r = requests.get(
    "https://api.semanticscholar.org/graph/v1/paper/search",
    params={"query": "large language models", "limit": 10},
    headers={"x-api-key": api_key},
)

학술 데이터는 LLM의 추론 능력과 사실성에 크게 기여한다. The Pile, Dolma, CommonPile 모두 arXiv와 S2ORC를 핵심 구성요소로 쓴다.


11장 · 코드 — The Stack v2 (BigCode 900GB) / StarCoder Data

11.1 The Stack (BigCode, 2022~)

The Stack은 Hugging Face 주도의 BigCode 프로젝트가 만든 코드 데이터셋. v1은 6TB, v2는 900GB+ (디둡 후, 67배 추가 디둡).

  • 600+ 프로그래밍 언어
  • GitHub 공개 저장소에서 허용적 라이선스만(MIT, BSD, Apache 2.0, ISC 등)
  • 저자 옵트아웃 시스템: https://huggingface.co/spaces/bigcode/in-the-stack에서 자기 GitHub 사용자명 검색해서 제거 신청 가능

11.2 The Stack v2 (2024)

  • Software Heritage(파리 소재 코드 아카이브) 협력으로 더 광범위한 코드 수집
  • 이슈 디스커션, PR 코멘트, 노트북, 깃 커밋 메시지까지 포함
  • 라이선스 메타데이터 도큐먼트마다 부착
from datasets import load_dataset
ds = load_dataset(
    "bigcode/the-stack-v2",
    "Python",
    split="train",
    streaming=True,
)

11.3 StarCoder Data

StarCoder는 BigCode가 The Stack에서 다시 정제해 만든 코드 LLM 학습 데이터. 80개 언어 중심, 약 1조 토큰. StarCoder/StarCoder2 모델의 학습에 사용.

코드 데이터는 LLM의 체계적 추론(systematic reasoning) 능력을 키운다 — Anthropic, OpenAI, Google 모두 "코드 데이터 비율을 늘리면 비코드 추론도 올라간다"를 보고했다.


12장 · 한국 — COYO-700M (Kakao Brain) / AI Hub / NIA / KAIST / Naver HyperCLOVA

12.1 COYO-700M (Kakao Brain, 2022)

COYO-700M은 카카오브레인이 공개한 7억 쌍 image-text 데이터셋. LAION-400M의 한국발 카운터파트.

  • Common Crawl HTML의 <img alt="..."> 페어 수집
  • CLIP 점수 필터 + 미적 점수 필터
  • LAION-400M보다 큰 규모, 카카오 자체 CLIP 학습에 사용
from datasets import load_dataset
ds = load_dataset("kakaobrain/coyo-700m", split="train")

12.2 AI Hub (NIA, 한국정보화진흥원)

AI Hub (aihub.or.kr)는 한국 정부가 운영하는 AI 학습 데이터 포털. 텍스트, 음성, 영상, 이미지 등 수백 종의 데이터셋. 한국어 LLM 학습의 표준 출처.

  • 한국어 회화, 한국어 번역, 한국어 STT/TTS
  • 의료, 법률, 금융 특화 한국어 데이터
  • 사용 시 NIA 약관 동의 필요 (상업적 사용 가능한 것과 그렇지 않은 것 혼재)

12.3 NIA 데이터셋

**NIA (한국지능정보사회진흥원)**가 주관하는 데이터 구축 사업. 매년 새 도메인을 추가하며 2026년 기준 1000+ 데이터셋.

12.4 KAIST 데이터셋

KAIST 김재철 AI 대학원 등에서 공개한 한국어 학술 데이터:

  • KLUE (Korean Language Understanding Evaluation, 8개 태스크)
  • KoBEST (Korean Balanced Evaluation of Significant Tasks)
  • KMMLU (한국어 MMLU)

12.5 Naver HyperCLOVA 데이터

Naver의 HyperCLOVA X는 자체 큐레이션한 한국어 데이터로 학습됐다. 일부는 비공개지만, KorQuAD, NSMC, Klue 등 공개분도 풍부하다.

한국어 LLM(LG EXAONE, Naver HyperCLOVA, Solar 등)의 데이터 레시피는 대개 AI Hub + COYO + 자체 크롤 + mC4(ko) + OSCAR(ko) 조합이다.


13장 · 일본 — 국립정보학연구소 / NTT / ABEJA

13.1 国立情報学研究所 (NII, National Institute of Informatics)

NII는 일본 학술용 데이터셋 허브. 대표적인 것:

  • NII Test Collection for IR Systems (NTCIR)
  • 일본어 위키피디아 라이선스 정리본
  • 학술 논문 코퍼스 (CiNii)

13.2 NTT 데이터

NTT는 일본 최대 통신사업자로 자체 LLM 연구. 공개 데이터는 제한적이지만:

  • 日本語タスクのベンチマーク (JGLUE 등)
  • ABCI 슈퍼컴퓨터로 학습한 LLM의 데이터 레시피 일부 공개

13.3 ABEJA / Stockmark / cyberagent

일본 AI 스타트업들이 공개한 일본어 LLM 데이터:

  • ABEJA: ABEJA-LLM 7B/13B의 학습 데이터 일부 공개
  • Stockmark: 비즈니스 도메인 일본어 코퍼스
  • CyberAgent: 광고/마케팅 일본어 코퍼스

13.4 일본어 데이터셋 표준 조합

일본어 LLM 학습에서 흔히 보는 레시피:

  • mC4(ja) + OSCAR(ja) — 웹 베이스
  • 일본 위키피디아 + 일본 청구권 종료 책 (Aozora Bunko 등)
  • NII / NTCIR — 학술
  • ABCI에서 풀린 일본어 코드 코퍼스

14장 · 이미지-텍스트 — LAION-5B / DataComp / ImageNet / CC12M / Open Images / COCO

14.1 LAION-5B (LAION, 2022)

LAION-5B는 58억 쌍 image-text 데이터셋. Common Crawl에서 <img alt="..."> 페어를 추출해 CLIP 점수로 필터링한 것. Stable Diffusion 학습의 베이스.

LAION 저작권 소송 (2023~): Getty Images와 아티스트들이 LAION 및 그것을 사용한 모델 제공자(Stability AI 등)를 상대로 소송 제기. 2024년 LAION이 일부 데이터셋을 삭제(특히 아동 보호 이슈로 일부 도큐먼트). 2026년 현재 LAION의 법적 지위는 회색 지대.

14.2 LAION-Aesthetics

LAION-Aesthetics는 LAION-5B 중 미적 점수가 높은 것만 추린 서브셋. Stable Diffusion의 고품질 생성 단계 학습에 사용. 약 1.2억 쌍.

14.3 DataComp (2023~)

DataComp는 LAION의 대안으로 떠오른 데이터셋. Common Crawl 12.8B 페어에서 시작해, 참가자가 자기 필터 전략으로 서브셋을 만들어 모델 학습 결과를 비교하는 벤치마크 + 데이터셋 프레임워크.

  • DataComp-1B: 1B 페어 (LAION-400M 대안)
  • 모든 데이터 출처가 명확
  • 학술 라이선스, 상업 사용 가능
from datasets import load_dataset
ds = load_dataset("mlfoundations/datacomp_1b", split="train")

14.4 ImageNet (2009~)

ImageNet은 컴퓨터 비전의 고전. 1400만 이미지, 2만+ 클래스. ImageNet-1K (1000 클래스, 130만 이미지)가 가장 널리 쓰임. 2026년에도 비전 모델 평가의 표준.

14.5 CC12M (Google, 2021)

**CC12M (Conceptual 12M)**은 1,200만 image-text 페어. Google이 공개. ALIGN, BASIC 등 비전-언어 모델 학습에 사용.

14.6 Open Images (Google, 2016~)

Open Images는 900만 이미지에 객체 검출/세그멘테이션 라벨이 붙은 데이터셋. 600 객체 클래스. COCO보다 큼.

14.7 COCO (Microsoft, 2014~)

**COCO (Common Objects in Context)**는 33만 이미지, 80 객체 클래스, 캡션 5개씩. 객체 검출/세그멘테이션/캡션 생성의 표준 벤치마크.

14.8 멀티모달 표준 레시피 2026

오픈 비전-언어 모델(LLaVA, Idefics 등)은 보통:

  • 사전학습: LAION 또는 DataComp의 수억 페어
  • 인스트럭션 튜닝: COCO 캡션 + ScienceQA + 자체 큐레이션
  • 평가: ImageNet, COCO, MMVet, MMMU

15장 · 로보틱스 — Open X-Embodiment

**Open X-Embodiment (RT-X, 2023~)**는 Google DeepMind 주도의 로봇 학습 데이터셋. 22개 로봇 플랫폼에서 모은 100만+ 에피소드.

15.1 핵심 아이디어

이전까지 로봇 학습 데이터는 로봇 모델마다 분리돼 있었다. UR5의 데이터로 학습한 모델은 Franka에 안 됐다. Open X-Embodiment는 다른 로봇 데이터를 통일된 포맷(RLDS, Reinforcement Learning Datasets)으로 합쳤다.

  • 21개 연구 기관 협력 (Stanford, CMU, Berkeley, Google, ...)
  • 액션 공간 통일(엔드 이펙터 6DOF + 그리퍼)
  • 시각 관측 통일(RGB 카메라 + 일부 depth)

15.2 RT-1, RT-2, RT-X

Open X-Embodiment로 학습한 RT-2-X는 한 로봇에서 학습한 스킬을 다른 로봇으로 옮길 수 있음을 처음 보여줬다. 로봇 학습의 "ImageNet 모먼트".

import tensorflow_datasets as tfds
ds = tfds.load("bridge", split="train")

15.3 2026년 상황

Open X-Embodiment v2 (2025)는 60+ 로봇 플랫폼, 200만 에피소드. Tesla Optimus, Figure 02 같은 휴머노이드 데이터도 일부 합류.


16장 · 라이선스 + 윤리 — 저작권, 옵트아웃, Right to be Forgotten

16.1 라이선스 매트릭스

데이터셋라이선스상업 사용
Common CrawlPublic가능 (각 페이지의 원 저작권 별도)
RefinedWebODC-By 1.0가능
RedPajama-V2Apache 2.0 (코드), 데이터는 출처별부분적
FineWeb / FineWeb-EduODC-By 1.0가능
The PileMIT (코드), 데이터 일부 문제 (Books3 제거)부분적
DolmaODC-By 1.0가능
SlimPajamaApache 2.0가능
The Stack v2도큐먼트별 원 라이선스가능 (옵트아웃 존중 시)
LAION-5BCC-BY 4.0 (메타데이터)논쟁 중
DataCompCC-BY 4.0가능
COYO-700MCC-BY 4.0가능
Open X-EmbodimentApache 2.0가능

16.2 옵트아웃 메커니즘

2026년에 표준화된 옵트아웃 시스템:

  1. robots.txt: 크롤러가 존중해야 하는 표준. Disallow: / 시 Common Crawl에서 빠짐.
  2. The Stack의 "Am I in The Stack?": 자기 GitHub 사용자명 검색 → 제거 요청.
  3. HF "Have I been trained?" (haveibeentrained.com 협력): 이미지-텍스트 옵트아웃.
  4. ai.txt: 일부 도메인이 채택한 새 표준. AI 학습 허용 여부를 명시.

16.3 GDPR Right to be Forgotten

EU GDPR 17조 "삭제 요청권"이 LLM에 적용될 수 있느냐는 미해결 문제다.

  • 사전학습 데이터에서는 삭제 가능 (도큐먼트 단위)
  • 이미 학습된 모델 가중치에서는? — 머신 언러닝(machine unlearning) 연구 분야 부상
  • 2025~2026년 EU AI Act가 부분 발효되며, 일부 데이터셋(LAION 등)에 영향

16.4 윤리적 사용 체크리스트

새 LLM을 학습할 때 데이터 윤리 체크리스트:

  • 라이선스가 명시된 데이터만 쓰는가?
  • 옵트아웃을 존중하는가?
  • 개인정보(PII) 필터링을 했는가?
  • 유해 콘텐츠 필터링을 했는가?
  • 데이터 카드(Datasheet for Datasets)를 공개했는가?
  • 데이터 거버넌스(누가 큐레이션에 참여했는가)를 문서화했는가?

에필로그 — 데이터의 시대

2026년 LLM 경쟁의 진짜 무게중심은 모델 가중치가 아니라 데이터셋에 있다. 누가 더 깨끗한 토큰을 더 많이 가지고 있는가, 누가 더 다양한 도메인을 커버하는가, 누가 라이선스 리스크를 더 작게 안고 있는가 — 이것이 다음 세대 모델의 결과를 결정한다.

오픈소스 데이터셋은 이 경쟁의 평등화 도구다. 작은 연구실과 스타트업이 거대 기업의 비공개 데이터에 맞설 수 있는 거의 유일한 길. FineWeb-Edu의 등장으로 양질의 1조 토큰이 누구에게나 열려 있다. 다음에는 누가 그 토큰을 어떻게 쓰느냐의 게임이다.

Garbage in, garbage out — Gold in, gold out.

데이터를 진지하게 다루는 팀이 다음 세대를 이끈다.


참고 / References