💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 모델은 데이터의 함수다

2026년 LLM 경쟁에서 우리는 종종 모델 크기와 아키텍처를 이야기한다. 하지만 진실은 더 단순하다: **모델은 데이터의 함수다(Model = f(Data))**. Llama 3가 Llama 2를 압도한 가장 큰 이유는 트랜스포머 변경이 아니라 학습 데이터의 양과 질이었다. 15조 토큰. FineWeb-Edu가 등장한 후 7B 모델이 이전 30B 모델을 따라잡기 시작한 것도 같은 이유다.

> "Garbage in, garbage out"은 머신러닝의 오래된 격언이지만, LLM 시대에 그 격언은 새로운 무게를 갖는다. 토큰 1조 개 중에 5%의 쓰레기가 섞이면, 그 모델은 5% 분량의 환각을 학습한다.

이 글은 2026년 오픈소스 AI 학습 데이터셋의 전체 지도를 그린다. **모든 LLM의 토대인 Common Crawl**부터, 그것을 어떻게 정제하느냐로 갈라진 RefinedWeb, RedPajama, FineWeb, Dolma, SlimPajama 가문, 코드 전용 The Stack v2, 멀티모달 LAION/DataComp, 한국 COYO-700M과 AI Hub, 일본 NII/NTT/ABEJA 데이터까지. 그리고 마지막으로 라이선스와 윤리, GDPR Right to be Forgotten의 새 시대를 본다.

1장 · 2026년 AI 학습 데이터셋 지도 — 4 분류

오픈소스 데이터셋은 크게 네 갈래로 나뉜다.

┌─ 웹 텍스트 (Web Text) ─┐

│ Common Crawl │

│ ├ RefinedWeb │

│ ├ RedPajama-V2 │

│ ├ FineWeb / FW-Edu │

│ ├ Dolma / SlimPajama │

│ └ C4 / mC4 / OSCAR │

│ │

├─ 학술/책 (Books/Papers)─┤

오픈소스 데이터셋 │ ├ The Pile │

│ ├ arXiv / S2ORC │

│ ├ Wikipedia / ROOTS │

│ └ CommonPile │

│ │

├─ 코드 (Code) ───────────┤

│ ├ The Stack v2 │

│ └ StarCoder Data │

│ │

└─ 멀티모달 (Multimodal) ─┘

├ LAION-5B / Aesth.

├ DataComp

├ ImageNet / COCO

├ CC12M / Open Images

├ COYO-700M (Kakao)

└ Open X-Embodiment (로봇)

**핵심 통찰 4가지**:

1. **모든 길은 Common Crawl로 통한다** — RefinedWeb, RedPajama, FineWeb, Dolma는 모두 Common Crawl을 다르게 정제한 결과물이다.

2. **정제 파이프라인이 곧 차별점** — 같은 원료(Common Crawl)에서 어떤 휴리스틱, 어떤 디둡(deduplication), 어떤 LLM 분류기를 거치느냐가 토큰 품질을 결정한다.

3. **2024~2026이 정제의 황금기** — FineWeb-Edu(2024.5)는 모델 기반 품질 분류기를 도입했고, 이후 모든 새 데이터셋이 이 접근을 따른다.

4. **멀티모달은 별도 우주** — LAION이 저작권 소송에 휘말리며 흔들렸지만, DataComp가 그 자리를 메우고 있다.

2장 · Common Crawl — 모든 LLM의 기반

**Common Crawl**은 2007년부터 매월 웹을 크롤링해 무료로 공개하는 비영리 단체다. 누적 페치 PB 단위, 도메인 수십억 개. **현존하는 모든 오픈 LLM의 사실상 첫 번째 원료**다.

2.1 형식

- **WARC** (Web ARChive): 원본 HTTP 응답을 그대로 저장. 헤더, HTML, 바이너리 포함.

- **WAT**: 메타데이터만 추출한 JSON.

- **WET**: 텍스트만 추출한 평문 파일.

대부분의 LLM 정제 파이프라인은 **WET**에서 시작한다 — HTML 파싱은 이미 끝나 있고, 그저 보일러플레이트와 정크를 걸러내면 된다.

2.2 크롤 단위

매월 새 크롤이 공개된다. 예: `CC-MAIN-2026-21` (2026년 21주차 크롤). 한 번의 크롤이 보통 3~4 PB. 누적 100 PB 이상.

2.3 한계

- **중복 거대**: 같은 페이지가 여러 도메인에 미러링됨. 디둡 필수.

- **품질 편차 극단**: 위키피디아 같은 양질 텍스트 옆에 자동 생성 SEO 스팸이 섞임.

- **언어 분포 편향**: 영어가 ~45%, 그 다음 러시아어/독일어/중국어/일본어/한국어 순.

- **robots.txt 준수**: 크롤러가 robots.txt를 존중하므로, opt-out 도메인의 데이터는 자동으로 빠진다.

2.4 다운로드

특정 크롤의 WET 인덱스

aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2026-21/

Python으로 한 segment 받기

s3 = boto3.client("s3", region_name="us-east-1")

s3.download_file(

"commoncrawl",

"crawl-data/CC-MAIN-2026-21/segments/.../wet/...wet.gz",

"sample.wet.gz",

)

Common Crawl은 그 자체로는 학습에 부적합하다 — 항상 정제된 파생 데이터셋을 거친다.

3장 · RefinedWeb (Falcon team, 2023)

**RefinedWeb**은 UAE의 Technology Innovation Institute (TII)가 Falcon 모델을 위해 만든 Common Crawl 정제본이다. **"웹 데이터만으로 책+논문 혼합 데이터셋(The Pile 등)을 능가할 수 있다"**를 증명한 첫 사례.

3.1 핵심 기여

- **5조 토큰 규모**의 웹 전용 데이터셋 공개 (전체는 비공개, 600B 토큰 샘플만 공개)

- **MacroData Refinement (MDR)** 파이프라인: URL 필터, 텍스트 추출(trafilatura), 언어 식별, 휴리스틱, MinHash 디둡

- **모델 기반 필터를 쓰지 않음** — 휴리스틱과 디둡만으로 품질을 끌어올림. 단순함의 미학.

3.2 파이프라인 요약

Common Crawl WARC

│

▼

URL 필터 (블랙리스트, 성인/유해 도메인 제거)

│

▼

Trafilatura (HTML → 본문 텍스트 추출)

│

▼

언어 식별 (fastText, 영어만 유지)

│

▼

휴리스틱 (반복 라인 비율, 평균 단어 길이, ...)

│

▼

정확 일치 디둡 + MinHash 디둡 (도큐먼트 간)

│

▼

600B 토큰 (공개분)

3.3 영향

RefinedWeb은 **Falcon-7B/40B**의 학습에 쓰였고, 당시 LLaMA-1을 능가했다. 이후 모든 LLM 정제 데이터셋이 RefinedWeb의 디둡 전략(MinHash + 라인 레벨 정확 일치)을 표준으로 채택했다.

4장 · RedPajama-V2 (Together AI, 2023)

**RedPajama**는 LLaMA-1의 데이터 구성을 재현하려는 오픈 프로젝트로 시작했다. V1은 1.2조 토큰의 "LLaMA 레시피 재현". V2는 그 야망을 더 키웠다.

4.1 RedPajama-V2 규모

- **30조 토큰 (raw)**, 84개 Common Crawl 스냅샷 (2014~2023)

- 5개 언어: 영어, 독일어, 프랑스어, 스페인어, 이탈리아어

- 도큐먼트마다 **품질 신호(quality signals)를 사전 계산해 제공** — 사용자가 자기 임계값으로 필터링할 수 있게.

4.2 품질 신호의 혁신

RedPajama-V2는 단순히 정제된 텍스트만 주지 않는다. **40가지 이상의 품질 메트릭**(perplexity 점수, 자연어 비율, 코드 비율, ...)을 도큐먼트마다 붙여서 공개했다. 사용자는 자기 모델 목적에 맞게 임계값을 정할 수 있다.

RedPajama-V2 로딩 예

from datasets import load_dataset

ds = load_dataset(

"togethercomputer/RedPajama-Data-V2",

name="default",

partition="head_middle", # 또는 "tail"

snapshots=["2023-14"],

languages=["en", "de"],

)

품질 신호로 필터링

def filter_quality(doc):

return (

doc["quality_signals"]["rps_doc_lorem_ipsum"] == 0 and

doc["quality_signals"]["rps_doc_word_count"] >= 50 and

doc["quality_signals"]["rps_lines_javascript_counts"] < 0.1

)

filtered = ds.filter(filter_quality)

4.3 의의

품질 필터를 데이터셋 자체에 내장한 첫 사례. 이후 FineWeb 등은 이 접근을 표준화한다.

5장 · FineWeb (Hugging Face, 2024.2)

**FineWeb**은 2024년 2월 Hugging Face가 공개한 15조 토큰 규모의 영어 웹 데이터셋이다. **2026년 현재 가장 널리 쓰이는 LLM 학습 베이스라인**.

5.1 왜 FineWeb이 중요한가

FineWeb 공개 직후 같은 양의 데이터로 FineWeb이 RefinedWeb, C4, RedPajama-V2를 모두 능가한다는 것이 벤치마크에서 입증됐다. 이유는:

- **96개 Common Crawl 덤프**를 모두 사용 (RefinedWeb은 일부만)

- **trafilatura** 대신 더 최신의 HTML→텍스트 변환기

- **개선된 휴리스틱**: C4의 휴리스틱 + RefinedWeb의 휴리스틱을 합쳐서 다듬음

- **MinHash 디둡을 덤프 단위로**: 덤프 내 디둡 후 덤프 간 디둡 (계산량 vs 효과의 균형)

5.2 파이프라인 (datatrove 라이브러리)

Hugging Face는 FineWeb을 만드는 데 자체 라이브러리 `datatrove`를 만들었고, 그 전체 파이프라인을 공개했다.

datatrove 설치

pip install datatrove

실행 예 (개념적)

python -m datatrove.executor.local pipeline.py

`pipeline.py`는 보통 이렇게 생겼다:

from datatrove.executor import LocalPipelineExecutor

from datatrove.pipeline.readers import WarcReader

from datatrove.pipeline.extractors import Trafilatura

from datatrove.pipeline.filters import LanguageFilter, GopherQualityFilter, C4QualityFilter

from datatrove.pipeline.dedup import MinhashDedupSignature

from datatrove.pipeline.writers import JsonlWriter

pipeline = [

WarcReader("s3://commoncrawl/crawl-data/CC-MAIN-2026-21/"),

Trafilatura(),

LanguageFilter(languages=["en"]),

GopherQualityFilter(),

C4QualityFilter(),

MinhashDedupSignature(output_folder="dedup_sigs/"),

JsonlWriter("output/"),

]

executor = LocalPipelineExecutor(pipeline=pipeline, tasks=64, workers=16)

executor.run()

5.3 사용

from datasets import load_dataset

15T 전체는 너무 크니, 샘플 사용

ds = load_dataset(

"HuggingFaceFW/fineweb",

name="sample-10BT", # 10B 토큰 샘플

split="train",

streaming=True,

)

for doc in ds:

print(doc["text"][:200])

break

6장 · FineWeb-Edu (HF, 2024.5) — 교육 필터의 혁명

**FineWeb-Edu**는 FineWeb 공개 3개월 후 등장한 1.3조 토큰 서브셋이다. 한 가지 추가 단계: **LLM 분류기로 "교육적 가치"가 높은 도큐먼트만 추출**.

6.1 어떻게 만들었나

1. Llama-3-70B-Instruct로 500K 도큐먼트의 "교육성"을 0~5점 채점 (프롬프트 엔지니어링)

2. 그 데이터를 학습 데이터로 작은 분류기(snowflake-arctic-embed-m 등) 파인튜닝

3. 분류기를 FineWeb 15T 전체에 적용 → 점수 3 이상만 남김 → 1.3T 토큰

6.2 결과

작은 모델(1B, 3B, 7B)이 FineWeb-Edu로만 학습했을 때, **두 배 큰 모델을 일반 FineWeb으로 학습한 것보다 MMLU/HellaSwag에서 좋다**는 결과. 토큰 효율의 큰 도약.

6.3 의미

"양보다 질"이 단순한 슬로건이 아니라 측정 가능한 사실임을 입증. 2026년 모든 새 데이터셋은 "LLM-as-classifier" 필터를 표준 단계로 포함한다.

ds = load_dataset(

"HuggingFaceFW/fineweb-edu",

name="sample-100BT",

split="train",

streaming=True,

)

7장 · The Pile (EleutherAI) / Dolma (Allen AI) / SlimPajama (Cerebras)

7.1 The Pile (2020, EleutherAI)

**The Pile**은 GPT-3 시대에 GPT-Neo / GPT-J / Pythia 학습용으로 만들어진 825 GB 데이터셋. 22개 서브세트의 혼합:

- Common Crawl (Pile-CC)

- PubMed Central, ArXiv, FreeLaw, USPTO Backgrounds

- StackExchange, GitHub, Books3 (저작권 문제로 삭제됨)

- OpenWebText2, Wikipedia, OpenSubtitles

- 등등

**Books3 사건**: 2023년 Books3가 저작권 침해 데이터셋이라는 것이 밝혀져 The Pile에서 제거됐다. 그 이후 모든 오픈 데이터셋은 책을 신중히 다룬다.

7.2 Dolma (Allen AI, 2024)

**Dolma**는 OLMo 모델용으로 Allen AI가 공개한 3조 토큰 데이터셋. 특징은:

- **완전 투명한 라이선스**: 모든 데이터의 출처와 라이선스 메타데이터 포함

- **재현 가능한 파이프라인**: `dolma` 툴킷 공개

- 구성: Common Crawl 정제본 + Wikipedia + The Stack v1 + Reddit + arXiv + 학술 출판 + 책

pip install dolma

dolma tag --tag c4_v1 --documents path/to/jsonl

7.3 SlimPajama (Cerebras, 2023)

**SlimPajama**는 RedPajama-V1을 **추가 디둡**한 627B 토큰 버전. 핵심 통찰:

- RedPajama-V1에는 같은 도큐먼트가 약 50%까지 중복으로 들어 있었다.

- 디둡으로 토큰 수는 절반이 됐지만, **같은 토큰 수로 학습했을 때 SlimPajama가 RedPajama-V1보다 일관되게 좋다**.

- 디둡 = 자유 점심 (free lunch).

이 결과는 이후 모든 데이터셋이 **공격적인 디둡**을 기본으로 채택하게 만들었다.

8장 · OSCAR (Inria multilingual) / C4 + mC4 (Google)

8.1 OSCAR (Inria, 2019~)

**OSCAR (Open Super-large Crawled Aggregated coRpus)**는 프랑스 INRIA 주도의 다국어 데이터셋. Common Crawl에서 언어 식별로 분류해, **151개 언어의 텍스트**를 제공한다.

- 2024년 기준 OSCAR 2301: 한국어 35GB, 일본어 270GB 정도

- 한국어/일본어 LLM 초기 학습에서 가장 널리 쓰임

8.2 C4 (Google, 2019)

**C4 (Colossal Clean Crawled Corpus)**는 T5 논문에서 공개한 정제본. 156GB. 단순한 휴리스틱:

- 문장이 마침표/물음표/느낌표/따옴표로 끝나야 함

- 5문장 이상

- "lorem ipsum" 등 자동 생성물 패턴 제외

- 영어 외 제외 (langdetect로)

8.3 mC4 (Google, 2021)

**mC4 (multilingual C4)**는 C4의 다국어 버전. 101개 언어, 27TB. mT5 학습에 사용. 한국어 90GB, 일본어 200GB 수준.

from datasets import load_dataset

ds = load_dataset("mc4", "ko", split="train", streaming=True)

C4/mC4는 오래된 정제 기법 대표이고, 2026년에는 FineWeb이 영어에서 그것을 대체하는 중이다. 다국어는 여전히 mC4와 OSCAR이 강하다.

9장 · CommonPile (a16z) / ROOTS (BigScience BLOOM)

9.1 CommonPile (2024~, a16z 후원)

**CommonPile**은 EleutherAI 인력 + a16z 자금으로 만들어지는 차세대 The Pile. 목표:

- 라이선스가 명확한 데이터만 (CC0, PD, CC-BY 등)

- 책 데이터를 **퍼블릭 도메인** 책(주로 Project Gutenberg)만으로 구성

- 정부 문서, 학술 오픈 액세스 논문 비중을 늘림

2024~2026년에 부분 공개 중이고, 완전 공개 시 The Pile의 후계자가 될 전망이다.

9.2 ROOTS (BigScience BLOOM, 2022)

**ROOTS**는 다국어 BLOOM 모델용 1.6TB 데이터셋. 46개 자연어 + 13개 프로그래밍 언어. 특징:

- 각 언어 커뮤니티가 직접 큐레이션에 참여 (참여형 데이터 거버넌스)

- 라이선스/출처 메타데이터를 모든 도큐먼트에 부착

- 한국어, 일본어는 포함되지 않음 (영어 위주, 그 외 중남미·아프리카·아시아 언어 일부)

ROOTS의 거버넌스 모델 — "데이터 주체가 데이터 큐레이션에 참여한다" — 는 이후 모든 윤리적 데이터셋의 기준점이 됐다.

10장 · arXiv / Wikipedia / S2ORC — 학술 데이터

10.1 Wikipedia 덤프

Wikipedia는 매월 전체 덤프를 공개한다. 가장 깨끗하고 가장 사실 밀도가 높은 텍스트. 단점: 너무 작다 (영어 ~20GB).

영어 위키 덤프 받기

wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

처리는 `wikiextractor` 또는 `wikipedia2vec` 등으로.

10.2 arXiv 코퍼스

arXiv는 1991년부터 누적된 220만+ 논문을 공개한다. LaTeX 소스 + PDF + 메타데이터 다 받을 수 있음.

- 학습용 처리: LaTeX → 평문 변환 (수식은 토큰화 어려움)

- 분야: 수학, 물리, CS, 통계, 정량 생물/금융

S3 버킷 `s3://arxiv/` (requester pays)에서 전체 다운로드.

10.3 S2ORC (Allen AI, 2020~)

**S2ORC (Semantic Scholar Open Research Corpus)**는 학술 논문 8천만+편의 메타데이터/초록/일부 본문을 제공. Allen AI가 운영하는 Semantic Scholar의 백본.

- Open Access 논문은 본문 전체 (~1천만 편)

- 클로즈드 액세스는 초록만

- 인용 그래프 포함 (논문 간 인용 관계 노드/엣지)

S2ORC API 예

api_key = "YOUR_KEY"

r = requests.get(

"https://api.semanticscholar.org/graph/v1/paper/search",

params={"query": "large language models", "limit": 10},

headers={"x-api-key": api_key},

)

학술 데이터는 LLM의 **추론 능력과 사실성**에 크게 기여한다. The Pile, Dolma, CommonPile 모두 arXiv와 S2ORC를 핵심 구성요소로 쓴다.

11장 · 코드 — The Stack v2 (BigCode 900GB) / StarCoder Data

11.1 The Stack (BigCode, 2022~)

**The Stack**은 Hugging Face 주도의 BigCode 프로젝트가 만든 코드 데이터셋. v1은 6TB, **v2는 900GB+ (디둡 후, 67배 추가 디둡)**.

- 600+ 프로그래밍 언어

- GitHub 공개 저장소에서 허용적 라이선스만(MIT, BSD, Apache 2.0, ISC 등)

- **저자 옵트아웃 시스템**: `https://huggingface.co/spaces/bigcode/in-the-stack`에서 자기 GitHub 사용자명 검색해서 제거 신청 가능

11.2 The Stack v2 (2024)

- Software Heritage(파리 소재 코드 아카이브) 협력으로 더 광범위한 코드 수집

- **이슈 디스커션, PR 코멘트, 노트북, 깃 커밋 메시지**까지 포함

- 라이선스 메타데이터 도큐먼트마다 부착

from datasets import load_dataset

ds = load_dataset(

"bigcode/the-stack-v2",

"Python",

split="train",

streaming=True,

)

11.3 StarCoder Data

**StarCoder**는 BigCode가 The Stack에서 다시 정제해 만든 코드 LLM 학습 데이터. 80개 언어 중심, 약 1조 토큰. StarCoder/StarCoder2 모델의 학습에 사용.

코드 데이터는 LLM의 **체계적 추론(systematic reasoning)** 능력을 키운다 — Anthropic, OpenAI, Google 모두 "코드 데이터 비율을 늘리면 비코드 추론도 올라간다"를 보고했다.

12장 · 한국 — COYO-700M (Kakao Brain) / AI Hub / NIA / KAIST / Naver HyperCLOVA

12.1 COYO-700M (Kakao Brain, 2022)

**COYO-700M**은 카카오브레인이 공개한 7억 쌍 image-text 데이터셋. LAION-400M의 한국발 카운터파트.

- Common Crawl HTML의 `<img alt="...">` 페어 수집

- CLIP 점수 필터 + 미적 점수 필터

- LAION-400M보다 큰 규모, 카카오 자체 CLIP 학습에 사용

from datasets import load_dataset

ds = load_dataset("kakaobrain/coyo-700m", split="train")

12.2 AI Hub (NIA, 한국정보화진흥원)

**AI Hub** (aihub.or.kr)는 한국 정부가 운영하는 AI 학습 데이터 포털. 텍스트, 음성, 영상, 이미지 등 수백 종의 데이터셋. 한국어 LLM 학습의 표준 출처.

- 한국어 회화, 한국어 번역, 한국어 STT/TTS

- 의료, 법률, 금융 특화 한국어 데이터

- 사용 시 NIA 약관 동의 필요 (상업적 사용 가능한 것과 그렇지 않은 것 혼재)

12.3 NIA 데이터셋

**NIA (한국지능정보사회진흥원)**가 주관하는 데이터 구축 사업. 매년 새 도메인을 추가하며 2026년 기준 1000+ 데이터셋.

12.4 KAIST 데이터셋

KAIST 김재철 AI 대학원 등에서 공개한 한국어 학술 데이터:

- KLUE (Korean Language Understanding Evaluation, 8개 태스크)

- KoBEST (Korean Balanced Evaluation of Significant Tasks)

- KMMLU (한국어 MMLU)

12.5 Naver HyperCLOVA 데이터

Naver의 HyperCLOVA X는 자체 큐레이션한 한국어 데이터로 학습됐다. 일부는 비공개지만, KorQuAD, NSMC, Klue 등 공개분도 풍부하다.

한국어 LLM(LG EXAONE, Naver HyperCLOVA, Solar 등)의 데이터 레시피는 대개 **AI Hub + COYO + 자체 크롤 + mC4(ko) + OSCAR(ko)** 조합이다.

13장 · 일본 — 국립정보학연구소 / NTT / ABEJA

13.1 国立情報学研究所 (NII, National Institute of Informatics)

**NII**는 일본 학술용 데이터셋 허브. 대표적인 것:

- NII Test Collection for IR Systems (NTCIR)

- 일본어 위키피디아 라이선스 정리본

- 학술 논문 코퍼스 (CiNii)

13.2 NTT 데이터

NTT는 일본 최대 통신사업자로 자체 LLM 연구. 공개 데이터는 제한적이지만:

- 日本語タスクのベンチマーク (JGLUE 등)

- ABCI 슈퍼컴퓨터로 학습한 LLM의 데이터 레시피 일부 공개

13.3 ABEJA / Stockmark / cyberagent

일본 AI 스타트업들이 공개한 일본어 LLM 데이터:

- **ABEJA**: ABEJA-LLM 7B/13B의 학습 데이터 일부 공개

- **Stockmark**: 비즈니스 도메인 일본어 코퍼스

- **CyberAgent**: 광고/마케팅 일본어 코퍼스

13.4 일본어 데이터셋 표준 조합

일본어 LLM 학습에서 흔히 보는 레시피:

- mC4(ja) + OSCAR(ja) — 웹 베이스

- 일본 위키피디아 + 일본 청구권 종료 책 (Aozora Bunko 등)

- NII / NTCIR — 학술

- ABCI에서 풀린 일본어 코드 코퍼스

14장 · 이미지-텍스트 — LAION-5B / DataComp / ImageNet / CC12M / Open Images / COCO

14.1 LAION-5B (LAION, 2022)

**LAION-5B**는 58억 쌍 image-text 데이터셋. Common Crawl에서 `<img alt="...">` 페어를 추출해 CLIP 점수로 필터링한 것. Stable Diffusion 학습의 베이스.

14.2 LAION-Aesthetics

**LAION-Aesthetics**는 LAION-5B 중 미적 점수가 높은 것만 추린 서브셋. Stable Diffusion의 **고품질 생성** 단계 학습에 사용. 약 1.2억 쌍.

14.3 DataComp (2023~)

**DataComp**는 LAION의 대안으로 떠오른 데이터셋. Common Crawl 12.8B 페어에서 시작해, 참가자가 자기 필터 전략으로 서브셋을 만들어 모델 학습 결과를 비교하는 벤치마크 + 데이터셋 프레임워크.

- DataComp-1B: 1B 페어 (LAION-400M 대안)

- 모든 데이터 출처가 명확

- 학술 라이선스, 상업 사용 가능

from datasets import load_dataset

ds = load_dataset("mlfoundations/datacomp_1b", split="train")

14.4 ImageNet (2009~)

**ImageNet**은 컴퓨터 비전의 고전. 1400만 이미지, 2만+ 클래스. ImageNet-1K (1000 클래스, 130만 이미지)가 가장 널리 쓰임. 2026년에도 비전 모델 평가의 표준.

14.5 CC12M (Google, 2021)

**CC12M (Conceptual 12M)**은 1,200만 image-text 페어. Google이 공개. ALIGN, BASIC 등 비전-언어 모델 학습에 사용.

14.6 Open Images (Google, 2016~)

**Open Images**는 900만 이미지에 객체 검출/세그멘테이션 라벨이 붙은 데이터셋. 600 객체 클래스. COCO보다 큼.

14.7 COCO (Microsoft, 2014~)

**COCO (Common Objects in Context)**는 33만 이미지, 80 객체 클래스, 캡션 5개씩. 객체 검출/세그멘테이션/캡션 생성의 표준 벤치마크.

14.8 멀티모달 표준 레시피 2026

오픈 비전-언어 모델(LLaVA, Idefics 등)은 보통:

- 사전학습: LAION 또는 DataComp의 수억 페어

- 인스트럭션 튜닝: COCO 캡션 + ScienceQA + 자체 큐레이션

- 평가: ImageNet, COCO, MMVet, MMMU

15장 · 로보틱스 — Open X-Embodiment

**Open X-Embodiment (RT-X, 2023~)**는 Google DeepMind 주도의 로봇 학습 데이터셋. **22개 로봇 플랫폼**에서 모은 100만+ 에피소드.

15.1 핵심 아이디어

이전까지 로봇 학습 데이터는 **로봇 모델마다 분리**돼 있었다. UR5의 데이터로 학습한 모델은 Franka에 안 됐다. Open X-Embodiment는 다른 로봇 데이터를 **통일된 포맷**(RLDS, Reinforcement Learning Datasets)으로 합쳤다.

- 21개 연구 기관 협력 (Stanford, CMU, Berkeley, Google, ...)

- 액션 공간 통일(엔드 이펙터 6DOF + 그리퍼)

- 시각 관측 통일(RGB 카메라 + 일부 depth)

15.2 RT-1, RT-2, RT-X

Open X-Embodiment로 학습한 **RT-2-X**는 한 로봇에서 학습한 스킬을 다른 로봇으로 옮길 수 있음을 처음 보여줬다. 로봇 학습의 "ImageNet 모먼트".

ds = tfds.load("bridge", split="train")

15.3 2026년 상황

Open X-Embodiment v2 (2025)는 60+ 로봇 플랫폼, 200만 에피소드. Tesla Optimus, Figure 02 같은 휴머노이드 데이터도 일부 합류.

16.1 라이선스 매트릭스

| 데이터셋 | 라이선스 | 상업 사용 |

|----------|----------|-----------|

| RefinedWeb | ODC-By 1.0 | 가능 |

| RedPajama-V2 | Apache 2.0 (코드), 데이터는 출처별 | 부분적 |

| FineWeb / FineWeb-Edu | ODC-By 1.0 | 가능 |

| The Pile | MIT (코드), 데이터 일부 문제 (Books3 제거) | 부분적 |

| Dolma | ODC-By 1.0 | 가능 |

| SlimPajama | Apache 2.0 | 가능 |

| The Stack v2 | 도큐먼트별 원 라이선스 | 가능 (옵트아웃 존중 시) |

| LAION-5B | CC-BY 4.0 (메타데이터) | **논쟁 중** |

| DataComp | CC-BY 4.0 | 가능 |

| COYO-700M | CC-BY 4.0 | 가능 |

| Open X-Embodiment | Apache 2.0 | 가능 |

16.2 옵트아웃 메커니즘

2026년에 표준화된 옵트아웃 시스템:

1. **robots.txt**: 크롤러가 존중해야 하는 표준. `Disallow: /` 시 Common Crawl에서 빠짐.

2. **The Stack의 "Am I in The Stack?"**: 자기 GitHub 사용자명 검색 → 제거 요청.

3. **HF "Have I been trained?"** (haveibeentrained.com 협력): 이미지-텍스트 옵트아웃.

4. **`ai.txt`**: 일부 도메인이 채택한 새 표준. AI 학습 허용 여부를 명시.

16.3 GDPR Right to be Forgotten

EU GDPR 17조 "삭제 요청권"이 LLM에 적용될 수 있느냐는 미해결 문제다.

- 사전학습 데이터에서는 삭제 가능 (도큐먼트 단위)

- 이미 학습된 모델 가중치에서는? — **머신 언러닝(machine unlearning)** 연구 분야 부상

- 2025~2026년 EU AI Act가 부분 발효되며, 일부 데이터셋(LAION 등)에 영향

16.4 윤리적 사용 체크리스트

새 LLM을 학습할 때 데이터 윤리 체크리스트:

- 라이선스가 명시된 데이터만 쓰는가?

- 옵트아웃을 존중하는가?

- 개인정보(PII) 필터링을 했는가?

- 유해 콘텐츠 필터링을 했는가?

- 데이터 카드(Datasheet for Datasets)를 공개했는가?

- 데이터 거버넌스(누가 큐레이션에 참여했는가)를 문서화했는가?

에필로그 — 데이터의 시대

2026년 LLM 경쟁의 진짜 무게중심은 모델 가중치가 아니라 **데이터셋**에 있다. 누가 더 깨끗한 토큰을 더 많이 가지고 있는가, 누가 더 다양한 도메인을 커버하는가, 누가 라이선스 리스크를 더 작게 안고 있는가 — 이것이 다음 세대 모델의 결과를 결정한다.

오픈소스 데이터셋은 이 경쟁의 평등화 도구다. 작은 연구실과 스타트업이 거대 기업의 비공개 데이터에 맞설 수 있는 거의 유일한 길. FineWeb-Edu의 등장으로 **양질의 1조 토큰**이 누구에게나 열려 있다. 다음에는 누가 그 토큰을 어떻게 쓰느냐의 게임이다.

> **Garbage in, garbage out — Gold in, gold out.**

데이터를 진지하게 다루는 팀이 다음 세대를 이끈다.

참고 / References

- Common Crawl — https://commoncrawl.org/

- RefinedWeb (Falcon) — https://huggingface.co/datasets/tiiuae/falcon-refinedweb

- RedPajama-V2 (Together AI) — https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2

- FineWeb (HF) — https://huggingface.co/datasets/HuggingFaceFW/fineweb

- FineWeb-Edu (HF) — https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu

- The Pile (EleutherAI) — https://pile.eleuther.ai/

- Dolma (Allen AI) — https://huggingface.co/datasets/allenai/dolma

- SlimPajama (Cerebras) — https://huggingface.co/datasets/cerebras/SlimPajama-627B

- OSCAR (Inria) — https://oscar-project.org/

- C4 (Google) — https://www.tensorflow.org/datasets/catalog/c4

- mC4 (Google) — https://huggingface.co/datasets/mc4

- ROOTS (BigScience) — https://huggingface.co/bigscience-data

- CommonPile (a16z) — https://github.com/r-three/common-pile

- arXiv Bulk Access — https://info.arxiv.org/help/bulk_data_s3.html

- S2ORC (Allen AI) — https://github.com/allenai/s2orc

- Wikipedia Dumps — https://dumps.wikimedia.org/

- The Stack v2 (BigCode) — https://huggingface.co/datasets/bigcode/the-stack-v2

- StarCoder — https://huggingface.co/bigcode/starcoder

- COYO-700M (Kakao Brain) — https://huggingface.co/datasets/kakaobrain/coyo-700m

- AI Hub (NIA) — https://www.aihub.or.kr/

- KLUE — https://klue-benchmark.com/

- LAION-5B — https://laion.ai/blog/laion-5b/

- LAION-Aesthetics — https://laion.ai/blog/laion-aesthetics/

- DataComp — https://www.datacomp.ai/

- ImageNet — https://www.image-net.org/

- CC12M (Google) — https://github.com/google-research-datasets/conceptual-12m

- Open Images — https://storage.googleapis.com/openimages/web/index.html

- COCO — https://cocodataset.org/

- Open X-Embodiment — https://robotics-transformer-x.github.io/

- BigScience ROOTS — https://huggingface.co/spaces/bigscience/SourcingCatalog

- datatrove (HF) — https://github.com/huggingface/datatrove

- dolma toolkit (Allen AI) — https://github.com/allenai/dolma

- Datasheets for Datasets — https://arxiv.org/abs/1803.09010

- Am I in The Stack? — https://huggingface.co/spaces/bigcode/in-the-stack

- Have I Been Trained? — https://haveibeentrained.com/

프롤로그 — 모델은 데이터의 함수다

1장 · 2026년 AI 학습 데이터셋 지도 — 4 분류

2장 · Common Crawl — 모든 LLM의 기반

2.1 형식

2.2 크롤 단위

2.3 한계

2.4 다운로드

특정 크롤의 WET 인덱스

Python으로 한 segment 받기

3장 · RefinedWeb (Falcon team, 2023)

3.1 핵심 기여

3.2 파이프라인 요약

3.3 영향

4장 · RedPajama-V2 (Together AI, 2023)

4.1 RedPajama-V2 규모

4.2 품질 신호의 혁신

RedPajama-V2 로딩 예

품질 신호로 필터링

4.3 의의

5장 · FineWeb (Hugging Face, 2024.2)

5.1 왜 FineWeb이 중요한가

5.2 파이프라인 (datatrove 라이브러리)

datatrove 설치

실행 예 (개념적)

5.3 사용

15T 전체는 너무 크니, 샘플 사용

6장 · FineWeb-Edu (HF, 2024.5) — 교육 필터의 혁명

6.1 어떻게 만들었나

6.2 결과

6.3 의미

7장 · The Pile (EleutherAI) / Dolma (Allen AI) / SlimPajama (Cerebras)

7.1 The Pile (2020, EleutherAI)

7.2 Dolma (Allen AI, 2024)

7.3 SlimPajama (Cerebras, 2023)

8장 · OSCAR (Inria multilingual) / C4 + mC4 (Google)

8.1 OSCAR (Inria, 2019~)

8.2 C4 (Google, 2019)

8.3 mC4 (Google, 2021)

9장 · CommonPile (a16z) / ROOTS (BigScience BLOOM)

9.1 CommonPile (2024~, a16z 후원)

9.2 ROOTS (BigScience BLOOM, 2022)

10장 · arXiv / Wikipedia / S2ORC — 학술 데이터

10.1 Wikipedia 덤프

영어 위키 덤프 받기

10.2 arXiv 코퍼스

10.3 S2ORC (Allen AI, 2020~)

S2ORC API 예

11장 · 코드 — The Stack v2 (BigCode 900GB) / StarCoder Data

11.1 The Stack (BigCode, 2022~)

11.2 The Stack v2 (2024)

11.3 StarCoder Data

12장 · 한국 — COYO-700M (Kakao Brain) / AI Hub / NIA / KAIST / Naver HyperCLOVA

12.1 COYO-700M (Kakao Brain, 2022)

12.2 AI Hub (NIA, 한국정보화진흥원)

12.3 NIA 데이터셋

12.4 KAIST 데이터셋

12.5 Naver HyperCLOVA 데이터

13장 · 일본 — 국립정보학연구소 / NTT / ABEJA

13.1 国立情報学研究所 (NII, National Institute of Informatics)

13.2 NTT 데이터

13.3 ABEJA / Stockmark / cyberagent

13.4 일본어 데이터셋 표준 조합

14장 · 이미지-텍스트 — LAION-5B / DataComp / ImageNet / CC12M / Open Images / COCO

14.1 LAION-5B (LAION, 2022)

14.2 LAION-Aesthetics

14.3 DataComp (2023~)

14.4 ImageNet (2009~)

14.5 CC12M (Google, 2021)

14.6 Open Images (Google, 2016~)

14.7 COCO (Microsoft, 2014~)

14.8 멀티모달 표준 레시피 2026

15장 · 로보틱스 — Open X-Embodiment

15.1 핵심 아이디어

15.2 RT-1, RT-2, RT-X

15.3 2026년 상황

16장 · 라이선스 + 윤리 — 저작권, 옵트아웃, Right to be Forgotten

16.1 라이선스 매트릭스

16.2 옵트아웃 메커니즘

16.3 GDPR Right to be Forgotten

16.4 윤리적 사용 체크리스트