오픈소스 AI 학습 데이터셋 2026 — Common Crawl / FineWeb (HF) / RedPajama-V2 / Dolma / SlimPajama / The Stack v2 / LAION / COYO-700M (Kakao) 심층 가이드

프롤로그 — 모델은 데이터의 함수다

2026년 LLM 경쟁에서 우리는 종종 모델 크기와 아키텍처를 이야기한다. 하지만 진실은 더 단순하다: 모델은 데이터의 함수다(Model = f(Data)). Llama 3가 Llama 2를 압도한 가장 큰 이유는 트랜스포머 변경이 아니라 학습 데이터의 양과 질이었다. 15조 토큰. FineWeb-Edu가 등장한 후 7B 모델이 이전 30B 모델을 따라잡기 시작한 것도 같은 이유다.

"Garbage in, garbage out"은 머신러닝의 오래된 격언이지만, LLM 시대에 그 격언은 새로운 무게를 갖는다. 토큰 1조 개 중에 5%의 쓰레기가 섞이면, 그 모델은 5% 분량의 환각을 학습한다.

이 글은 2026년 오픈소스 AI 학습 데이터셋의 전체 지도를 그린다. 모든 LLM의 토대인 Common Crawl부터, 그것을 어떻게 정제하느냐로 갈라진 RefinedWeb, RedPajama, FineWeb, Dolma, SlimPajama 가문, 코드 전용 The Stack v2, 멀티모달 LAION/DataComp, 한국 COYO-700M과 AI Hub, 일본 NII/NTT/ABEJA 데이터까지. 그리고 마지막으로 라이선스와 윤리, GDPR Right to be Forgotten의 새 시대를 본다.

1장 · 2026년 AI 학습 데이터셋 지도 — 4 분류

오픈소스 데이터셋은 크게 네 갈래로 나뉜다.

                 ┌─ 웹 텍스트 (Web Text) ─┐
                 │   Common Crawl          │
                 │   ├ RefinedWeb          │
                 │   ├ RedPajama-V2        │
                 │   ├ FineWeb / FW-Edu    │
                 │   ├ Dolma / SlimPajama  │
                 │   └ C4 / mC4 / OSCAR    │
                 │                         │
                 ├─ 학술/책 (Books/Papers)─┤
오픈소스 데이터셋 │   ├ The Pile            │
                 │   ├ arXiv / S2ORC       │
                 │   ├ Wikipedia / ROOTS   │
                 │   └ CommonPile          │
                 │                         │
                 ├─ 코드 (Code) ───────────┤
                 │   ├ The Stack v2        │
                 │   └ StarCoder Data      │
                 │                         │
                 └─ 멀티모달 (Multimodal) ─┘
                     ├ LAION-5B / Aesth.
                     ├ DataComp
                     ├ ImageNet / COCO
                     ├ CC12M / Open Images
                     ├ COYO-700M (Kakao)
                     └ Open X-Embodiment (로봇)

핵심 통찰 4가지:

모든 길은 Common Crawl로 통한다 — RefinedWeb, RedPajama, FineWeb, Dolma는 모두 Common Crawl을 다르게 정제한 결과물이다.
정제 파이프라인이 곧 차별점 — 같은 원료(Common Crawl)에서 어떤 휴리스틱, 어떤 디둡(deduplication), 어떤 LLM 분류기를 거치느냐가 토큰 품질을 결정한다.
2024~2026이 정제의 황금기 — FineWeb-Edu(2024.5)는 모델 기반 품질 분류기를 도입했고, 이후 모든 새 데이터셋이 이 접근을 따른다.
멀티모달은 별도 우주 — LAION이 저작권 소송에 휘말리며 흔들렸지만, DataComp가 그 자리를 메우고 있다.

2장 · Common Crawl — 모든 LLM의 기반

Common Crawl은 2007년부터 매월 웹을 크롤링해 무료로 공개하는 비영리 단체다. 누적 페치 PB 단위, 도메인 수십억 개. 현존하는 모든 오픈 LLM의 사실상 첫 번째 원료다.

2.1 형식

WARC (Web ARChive): 원본 HTTP 응답을 그대로 저장. 헤더, HTML, 바이너리 포함.
WAT: 메타데이터만 추출한 JSON.
WET: 텍스트만 추출한 평문 파일.

대부분의 LLM 정제 파이프라인은 WET에서 시작한다 — HTML 파싱은 이미 끝나 있고, 그저 보일러플레이트와 정크를 걸러내면 된다.

2.2 크롤 단위

매월 새 크롤이 공개된다. 예: CC-MAIN-2026-21 (2026년 21주차 크롤). 한 번의 크롤이 보통 3~4 PB. 누적 100 PB 이상.

2.3 한계

중복 거대: 같은 페이지가 여러 도메인에 미러링됨. 디둡 필수.
품질 편차 극단: 위키피디아 같은 양질 텍스트 옆에 자동 생성 SEO 스팸이 섞임.
언어 분포 편향: 영어가 ~45%, 그 다음 러시아어/독일어/중국어/일본어/한국어 순.
robots.txt 준수: 크롤러가 robots.txt를 존중하므로, opt-out 도메인의 데이터는 자동으로 빠진다.

2.4 다운로드

# 특정 크롤의 WET 인덱스
aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2026-21/

# Python으로 한 segment 받기
import boto3
s3 = boto3.client("s3", region_name="us-east-1")
s3.download_file(
    "commoncrawl",
    "crawl-data/CC-MAIN-2026-21/segments/.../wet/...wet.gz",
    "sample.wet.gz",
)

Common Crawl은 그 자체로는 학습에 부적합하다 — 항상 정제된 파생 데이터셋을 거친다.

3장 · RefinedWeb (Falcon team, 2023)

RefinedWeb은 UAE의 Technology Innovation Institute (TII)가 Falcon 모델을 위해 만든 Common Crawl 정제본이다. **"웹 데이터만으로 책+논문 혼합 데이터셋(The Pile 등)을 능가할 수 있다"**를 증명한 첫 사례.

3.1 핵심 기여

5조 토큰 규모의 웹 전용 데이터셋 공개 (전체는 비공개, 600B 토큰 샘플만 공개)
MacroData Refinement (MDR) 파이프라인: URL 필터, 텍스트 추출(trafilatura), 언어 식별, 휴리스틱, MinHash 디둡
모델 기반 필터를 쓰지 않음 — 휴리스틱과 디둡만으로 품질을 끌어올림. 단순함의 미학.

3.2 파이프라인 요약

Common Crawl WARC
   │
   ▼
URL 필터 (블랙리스트, 성인/유해 도메인 제거)
   │
   ▼
Trafilatura (HTML → 본문 텍스트 추출)
   │
   ▼
언어 식별 (fastText, 영어만 유지)
   │
   ▼
휴리스틱 (반복 라인 비율, 평균 단어 길이, ...)
   │
   ▼
정확 일치 디둡 + MinHash 디둡 (도큐먼트 간)
   │
   ▼
600B 토큰 (공개분)

3.3 영향

RefinedWeb은 Falcon-7B/40B의 학습에 쓰였고, 당시 LLaMA-1을 능가했다. 이후 모든 LLM 정제 데이터셋이 RefinedWeb의 디둡 전략(MinHash + 라인 레벨 정확 일치)을 표준으로 채택했다.

4장 · RedPajama-V2 (Together AI, 2023)

RedPajama는 LLaMA-1의 데이터 구성을 재현하려는 오픈 프로젝트로 시작했다. V1은 1.2조 토큰의 "LLaMA 레시피 재현". V2는 그 야망을 더 키웠다.

4.1 RedPajama-V2 규모

30조 토큰 (raw), 84개 Common Crawl 스냅샷 (2014~2023)
5개 언어: 영어, 독일어, 프랑스어, 스페인어, 이탈리아어
도큐먼트마다 품질 신호(quality signals)를 사전 계산해 제공 — 사용자가 자기 임계값으로 필터링할 수 있게.

4.2 품질 신호의 혁신

RedPajama-V2는 단순히 정제된 텍스트만 주지 않는다. 40가지 이상의 품질 메트릭(perplexity 점수, 자연어 비율, 코드 비율, ...)을 도큐먼트마다 붙여서 공개했다. 사용자는 자기 모델 목적에 맞게 임계값을 정할 수 있다.

# RedPajama-V2 로딩 예
from datasets import load_dataset

ds = load_dataset(
    "togethercomputer/RedPajama-Data-V2",
    name="default",
    partition="head_middle",  # 또는 "tail"
    snapshots=["2023-14"],
    languages=["en", "de"],
)

# 품질 신호로 필터링
def filter_quality(doc):
    return (
        doc["quality_signals"]["rps_doc_lorem_ipsum"] == 0 and
        doc["quality_signals"]["rps_doc_word_count"] >= 50 and
        doc["quality_signals"]["rps_lines_javascript_counts"] < 0.1
    )

filtered = ds.filter(filter_quality)

4.3 의의

품질 필터를 데이터셋 자체에 내장한 첫 사례. 이후 FineWeb 등은 이 접근을 표준화한다.

5장 · FineWeb (Hugging Face, 2024.2)

FineWeb은 2024년 2월 Hugging Face가 공개한 15조 토큰 규모의 영어 웹 데이터셋이다. 2026년 현재 가장 널리 쓰이는 LLM 학습 베이스라인.

5.1 왜 FineWeb이 중요한가

FineWeb 공개 직후 같은 양의 데이터로 FineWeb이 RefinedWeb, C4, RedPajama-V2를 모두 능가한다는 것이 벤치마크에서 입증됐다. 이유는:

96개 Common Crawl 덤프를 모두 사용 (RefinedWeb은 일부만)
trafilatura 대신 더 최신의 HTML→텍스트 변환기
개선된 휴리스틱: C4의 휴리스틱 + RefinedWeb의 휴리스틱을 합쳐서 다듬음
MinHash 디둡을 덤프 단위로: 덤프 내 디둡 후 덤프 간 디둡 (계산량 vs 효과의 균형)

5.2 파이프라인 (datatrove 라이브러리)

Hugging Face는 FineWeb을 만드는 데 자체 라이브러리 datatrove를 만들었고, 그 전체 파이프라인을 공개했다.

# datatrove 설치
pip install datatrove

# 실행 예 (개념적)
python -m datatrove.executor.local pipeline.py

pipeline.py는 보통 이렇게 생겼다:

from datatrove.executor import LocalPipelineExecutor
from datatrove.pipeline.readers import WarcReader
from datatrove.pipeline.extractors import Trafilatura
from datatrove.pipeline.filters import LanguageFilter, GopherQualityFilter, C4QualityFilter
from datatrove.pipeline.dedup import MinhashDedupSignature
from datatrove.pipeline.writers import JsonlWriter

pipeline = [
    WarcReader("s3://commoncrawl/crawl-data/CC-MAIN-2026-21/"),
    Trafilatura(),
    LanguageFilter(languages=["en"]),
    GopherQualityFilter(),
    C4QualityFilter(),
    MinhashDedupSignature(output_folder="dedup_sigs/"),
    JsonlWriter("output/"),
]

executor = LocalPipelineExecutor(pipeline=pipeline, tasks=64, workers=16)
executor.run()

5.3 사용

from datasets import load_dataset

# 15T 전체는 너무 크니, 샘플 사용
ds = load_dataset(
    "HuggingFaceFW/fineweb",
    name="sample-10BT",  # 10B 토큰 샘플
    split="train",
    streaming=True,
)

for doc in ds:
    print(doc["text"][:200])
    break

6장 · FineWeb-Edu (HF, 2024.5) — 교육 필터의 혁명

FineWeb-Edu는 FineWeb 공개 3개월 후 등장한 1.3조 토큰 서브셋이다. 한 가지 추가 단계: LLM 분류기로 "교육적 가치"가 높은 도큐먼트만 추출.

6.1 어떻게 만들었나

Llama-3-70B-Instruct로 500K 도큐먼트의 "교육성"을 0~5점 채점 (프롬프트 엔지니어링)
그 데이터를 학습 데이터로 작은 분류기(snowflake-arctic-embed-m 등) 파인튜닝
분류기를 FineWeb 15T 전체에 적용 → 점수 3 이상만 남김 → 1.3T 토큰

6.2 결과

작은 모델(1B, 3B, 7B)이 FineWeb-Edu로만 학습했을 때, 두 배 큰 모델을 일반 FineWeb으로 학습한 것보다 MMLU/HellaSwag에서 좋다는 결과. 토큰 효율의 큰 도약.

6.3 의미

"양보다 질"이 단순한 슬로건이 아니라 측정 가능한 사실임을 입증. 2026년 모든 새 데이터셋은 "LLM-as-classifier" 필터를 표준 단계로 포함한다.

ds = load_dataset(
    "HuggingFaceFW/fineweb-edu",
    name="sample-100BT",
    split="train",
    streaming=True,
)

7장 · The Pile (EleutherAI) / Dolma (Allen AI) / SlimPajama (Cerebras)

7.1 The Pile (2020, EleutherAI)

The Pile은 GPT-3 시대에 GPT-Neo / GPT-J / Pythia 학습용으로 만들어진 825 GB 데이터셋. 22개 서브세트의 혼합:

Common Crawl (Pile-CC)
PubMed Central, ArXiv, FreeLaw, USPTO Backgrounds
StackExchange, GitHub, Books3 (저작권 문제로 삭제됨)
OpenWebText2, Wikipedia, OpenSubtitles
등등

Books3 사건: 2023년 Books3가 저작권 침해 데이터셋이라는 것이 밝혀져 The Pile에서 제거됐다. 그 이후 모든 오픈 데이터셋은 책을 신중히 다룬다.

7.2 Dolma (Allen AI, 2024)

Dolma는 OLMo 모델용으로 Allen AI가 공개한 3조 토큰 데이터셋. 특징은:

완전 투명한 라이선스: 모든 데이터의 출처와 라이선스 메타데이터 포함
재현 가능한 파이프라인: dolma 툴킷 공개
구성: Common Crawl 정제본 + Wikipedia + The Stack v1 + Reddit + arXiv + 학술 출판 + 책

pip install dolma
dolma tag --tag c4_v1 --documents path/to/jsonl

7.3 SlimPajama (Cerebras, 2023)

SlimPajama는 RedPajama-V1을 추가 디둡한 627B 토큰 버전. 핵심 통찰:

RedPajama-V1에는 같은 도큐먼트가 약 50%까지 중복으로 들어 있었다.
디둡으로 토큰 수는 절반이 됐지만, 같은 토큰 수로 학습했을 때 SlimPajama가 RedPajama-V1보다 일관되게 좋다.
디둡 = 자유 점심 (free lunch).

이 결과는 이후 모든 데이터셋이 공격적인 디둡을 기본으로 채택하게 만들었다.

8장 · OSCAR (Inria multilingual) / C4 + mC4 (Google)

8.1 OSCAR (Inria, 2019~)

**OSCAR (Open Super-large Crawled Aggregated coRpus)**는 프랑스 INRIA 주도의 다국어 데이터셋. Common Crawl에서 언어 식별로 분류해, 151개 언어의 텍스트를 제공한다.

2024년 기준 OSCAR 2301: 한국어 35GB, 일본어 270GB 정도
한국어/일본어 LLM 초기 학습에서 가장 널리 쓰임

8.2 C4 (Google, 2019)

**C4 (Colossal Clean Crawled Corpus)**는 T5 논문에서 공개한 정제본. 156GB. 단순한 휴리스틱:

문장이 마침표/물음표/느낌표/따옴표로 끝나야 함
5문장 이상
"lorem ipsum" 등 자동 생성물 패턴 제외
영어 외 제외 (langdetect로)

8.3 mC4 (Google, 2021)

**mC4 (multilingual C4)**는 C4의 다국어 버전. 101개 언어, 27TB. mT5 학습에 사용. 한국어 90GB, 일본어 200GB 수준.

from datasets import load_dataset
ds = load_dataset("mc4", "ko", split="train", streaming=True)

C4/mC4는 오래된 정제 기법 대표이고, 2026년에는 FineWeb이 영어에서 그것을 대체하는 중이다. 다국어는 여전히 mC4와 OSCAR이 강하다.

9장 · CommonPile (a16z) / ROOTS (BigScience BLOOM)

9.1 CommonPile (2024~, a16z 후원)

CommonPile은 EleutherAI 인력 + a16z 자금으로 만들어지는 차세대 The Pile. 목표:

라이선스가 명확한 데이터만 (CC0, PD, CC-BY 등)
책 데이터를 퍼블릭 도메인 책(주로 Project Gutenberg)만으로 구성
정부 문서, 학술 오픈 액세스 논문 비중을 늘림

2024~2026년에 부분 공개 중이고, 완전 공개 시 The Pile의 후계자가 될 전망이다.

9.2 ROOTS (BigScience BLOOM, 2022)

ROOTS는 다국어 BLOOM 모델용 1.6TB 데이터셋. 46개 자연어 + 13개 프로그래밍 언어. 특징:

각 언어 커뮤니티가 직접 큐레이션에 참여 (참여형 데이터 거버넌스)
라이선스/출처 메타데이터를 모든 도큐먼트에 부착
한국어, 일본어는 포함되지 않음 (영어 위주, 그 외 중남미·아프리카·아시아 언어 일부)

ROOTS의 거버넌스 모델 — "데이터 주체가 데이터 큐레이션에 참여한다" — 는 이후 모든 윤리적 데이터셋의 기준점이 됐다.

10장 · arXiv / Wikipedia / S2ORC — 학술 데이터

10.1 Wikipedia 덤프

Wikipedia는 매월 전체 덤프를 공개한다. 가장 깨끗하고 가장 사실 밀도가 높은 텍스트. 단점: 너무 작다 (영어 ~20GB).

# 영어 위키 덤프 받기
wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

처리는 wikiextractor 또는 wikipedia2vec 등으로.

10.2 arXiv 코퍼스

arXiv는 1991년부터 누적된 220만+ 논문을 공개한다. LaTeX 소스 + PDF + 메타데이터 다 받을 수 있음.

학습용 처리: LaTeX → 평문 변환 (수식은 토큰화 어려움)
분야: 수학, 물리, CS, 통계, 정량 생물/금융

S3 버킷 s3://arxiv/ (requester pays)에서 전체 다운로드.

10.3 S2ORC (Allen AI, 2020~)

**S2ORC (Semantic Scholar Open Research Corpus)**는 학술 논문 8천만+편의 메타데이터/초록/일부 본문을 제공. Allen AI가 운영하는 Semantic Scholar의 백본.

Open Access 논문은 본문 전체 (~1천만 편)
클로즈드 액세스는 초록만
인용 그래프 포함 (논문 간 인용 관계 노드/엣지)

# S2ORC API 예
import requests
api_key = "YOUR_KEY"
r = requests.get(
    "https://api.semanticscholar.org/graph/v1/paper/search",
    params={"query": "large language models", "limit": 10},
    headers={"x-api-key": api_key},
)

학술 데이터는 LLM의 추론 능력과 사실성에 크게 기여한다. The Pile, Dolma, CommonPile 모두 arXiv와 S2ORC를 핵심 구성요소로 쓴다.

11장 · 코드 — The Stack v2 (BigCode 900GB) / StarCoder Data

11.1 The Stack (BigCode, 2022~)

The Stack은 Hugging Face 주도의 BigCode 프로젝트가 만든 코드 데이터셋. v1은 6TB, v2는 900GB+ (디둡 후, 67배 추가 디둡).

600+ 프로그래밍 언어
GitHub 공개 저장소에서 허용적 라이선스만(MIT, BSD, Apache 2.0, ISC 등)
저자 옵트아웃 시스템: https://huggingface.co/spaces/bigcode/in-the-stack에서 자기 GitHub 사용자명 검색해서 제거 신청 가능

11.2 The Stack v2 (2024)

Software Heritage(파리 소재 코드 아카이브) 협력으로 더 광범위한 코드 수집
이슈 디스커션, PR 코멘트, 노트북, 깃 커밋 메시지까지 포함
라이선스 메타데이터 도큐먼트마다 부착

from datasets import load_dataset
ds = load_dataset(
    "bigcode/the-stack-v2",
    "Python",
    split="train",
    streaming=True,
)

11.3 StarCoder Data

StarCoder는 BigCode가 The Stack에서 다시 정제해 만든 코드 LLM 학습 데이터. 80개 언어 중심, 약 1조 토큰. StarCoder/StarCoder2 모델의 학습에 사용.

코드 데이터는 LLM의 체계적 추론(systematic reasoning) 능력을 키운다 — Anthropic, OpenAI, Google 모두 "코드 데이터 비율을 늘리면 비코드 추론도 올라간다"를 보고했다.

12장 · 한국 — COYO-700M (Kakao Brain) / AI Hub / NIA / KAIST / Naver HyperCLOVA

12.1 COYO-700M (Kakao Brain, 2022)

COYO-700M은 카카오브레인이 공개한 7억 쌍 image-text 데이터셋. LAION-400M의 한국발 카운터파트.

Common Crawl HTML의 <img alt="..."> 페어 수집
CLIP 점수 필터 + 미적 점수 필터
LAION-400M보다 큰 규모, 카카오 자체 CLIP 학습에 사용

from datasets import load_dataset
ds = load_dataset("kakaobrain/coyo-700m", split="train")

12.2 AI Hub (NIA, 한국정보화진흥원)

AI Hub (aihub.or.kr)는 한국 정부가 운영하는 AI 학습 데이터 포털. 텍스트, 음성, 영상, 이미지 등 수백 종의 데이터셋. 한국어 LLM 학습의 표준 출처.

한국어 회화, 한국어 번역, 한국어 STT/TTS
의료, 법률, 금융 특화 한국어 데이터
사용 시 NIA 약관 동의 필요 (상업적 사용 가능한 것과 그렇지 않은 것 혼재)

12.3 NIA 데이터셋

**NIA (한국지능정보사회진흥원)**가 주관하는 데이터 구축 사업. 매년 새 도메인을 추가하며 2026년 기준 1000+ 데이터셋.

12.4 KAIST 데이터셋

KAIST 김재철 AI 대학원 등에서 공개한 한국어 학술 데이터:

KLUE (Korean Language Understanding Evaluation, 8개 태스크)
KoBEST (Korean Balanced Evaluation of Significant Tasks)
KMMLU (한국어 MMLU)

12.5 Naver HyperCLOVA 데이터

Naver의 HyperCLOVA X는 자체 큐레이션한 한국어 데이터로 학습됐다. 일부는 비공개지만, KorQuAD, NSMC, Klue 등 공개분도 풍부하다.

한국어 LLM(LG EXAONE, Naver HyperCLOVA, Solar 등)의 데이터 레시피는 대개 AI Hub + COYO + 자체 크롤 + mC4(ko) + OSCAR(ko) 조합이다.

13장 · 일본 — 국립정보학연구소 / NTT / ABEJA

13.1 国立情報学研究所 (NII, National Institute of Informatics)

NII는 일본 학술용 데이터셋 허브. 대표적인 것:

NII Test Collection for IR Systems (NTCIR)
일본어 위키피디아 라이선스 정리본
학술 논문 코퍼스 (CiNii)

13.2 NTT 데이터

NTT는 일본 최대 통신사업자로 자체 LLM 연구. 공개 데이터는 제한적이지만:

日本語タスクのベンチマーク (JGLUE 등)
ABCI 슈퍼컴퓨터로 학습한 LLM의 데이터 레시피 일부 공개

13.3 ABEJA / Stockmark / cyberagent

일본 AI 스타트업들이 공개한 일본어 LLM 데이터:

ABEJA: ABEJA-LLM 7B/13B의 학습 데이터 일부 공개
Stockmark: 비즈니스 도메인 일본어 코퍼스
CyberAgent: 광고/마케팅 일본어 코퍼스

13.4 일본어 데이터셋 표준 조합

일본어 LLM 학습에서 흔히 보는 레시피:

mC4(ja) + OSCAR(ja) — 웹 베이스
일본 위키피디아 + 일본 청구권 종료 책 (Aozora Bunko 등)
NII / NTCIR — 학술
ABCI에서 풀린 일본어 코드 코퍼스

14장 · 이미지-텍스트 — LAION-5B / DataComp / ImageNet / CC12M / Open Images / COCO

14.1 LAION-5B (LAION, 2022)

LAION-5B는 58억 쌍 image-text 데이터셋. Common Crawl에서 <img alt="..."> 페어를 추출해 CLIP 점수로 필터링한 것. Stable Diffusion 학습의 베이스.

14.2 LAION-Aesthetics

LAION-Aesthetics는 LAION-5B 중 미적 점수가 높은 것만 추린 서브셋. Stable Diffusion의 고품질 생성 단계 학습에 사용. 약 1.2억 쌍.

14.3 DataComp (2023~)

DataComp는 LAION의 대안으로 떠오른 데이터셋. Common Crawl 12.8B 페어에서 시작해, 참가자가 자기 필터 전략으로 서브셋을 만들어 모델 학습 결과를 비교하는 벤치마크 + 데이터셋 프레임워크.

DataComp-1B: 1B 페어 (LAION-400M 대안)
모든 데이터 출처가 명확
학술 라이선스, 상업 사용 가능

from datasets import load_dataset
ds = load_dataset("mlfoundations/datacomp_1b", split="train")

14.4 ImageNet (2009~)

ImageNet은 컴퓨터 비전의 고전. 1400만 이미지, 2만+ 클래스. ImageNet-1K (1000 클래스, 130만 이미지)가 가장 널리 쓰임. 2026년에도 비전 모델 평가의 표준.

14.5 CC12M (Google, 2021)

**CC12M (Conceptual 12M)**은 1,200만 image-text 페어. Google이 공개. ALIGN, BASIC 등 비전-언어 모델 학습에 사용.

14.6 Open Images (Google, 2016~)

Open Images는 900만 이미지에 객체 검출/세그멘테이션 라벨이 붙은 데이터셋. 600 객체 클래스. COCO보다 큼.

14.7 COCO (Microsoft, 2014~)

**COCO (Common Objects in Context)**는 33만 이미지, 80 객체 클래스, 캡션 5개씩. 객체 검출/세그멘테이션/캡션 생성의 표준 벤치마크.

14.8 멀티모달 표준 레시피 2026

오픈 비전-언어 모델(LLaVA, Idefics 등)은 보통:

사전학습: LAION 또는 DataComp의 수억 페어
인스트럭션 튜닝: COCO 캡션 + ScienceQA + 자체 큐레이션
평가: ImageNet, COCO, MMVet, MMMU

15장 · 로보틱스 — Open X-Embodiment

**Open X-Embodiment (RT-X, 2023~)**는 Google DeepMind 주도의 로봇 학습 데이터셋. 22개 로봇 플랫폼에서 모은 100만+ 에피소드.

15.1 핵심 아이디어

이전까지 로봇 학습 데이터는 로봇 모델마다 분리돼 있었다. UR5의 데이터로 학습한 모델은 Franka에 안 됐다. Open X-Embodiment는 다른 로봇 데이터를 통일된 포맷(RLDS, Reinforcement Learning Datasets)으로 합쳤다.

21개 연구 기관 협력 (Stanford, CMU, Berkeley, Google, ...)
액션 공간 통일(엔드 이펙터 6DOF + 그리퍼)
시각 관측 통일(RGB 카메라 + 일부 depth)

15.2 RT-1, RT-2, RT-X

Open X-Embodiment로 학습한 RT-2-X는 한 로봇에서 학습한 스킬을 다른 로봇으로 옮길 수 있음을 처음 보여줬다. 로봇 학습의 "ImageNet 모먼트".

import tensorflow_datasets as tfds
ds = tfds.load("bridge", split="train")

15.3 2026년 상황

Open X-Embodiment v2 (2025)는 60+ 로봇 플랫폼, 200만 에피소드. Tesla Optimus, Figure 02 같은 휴머노이드 데이터도 일부 합류.

16.1 라이선스 매트릭스

데이터셋	라이선스	상업 사용
Common Crawl	Public	가능 (각 페이지의 원 저작권 별도)
RefinedWeb	ODC-By 1.0	가능
RedPajama-V2	Apache 2.0 (코드), 데이터는 출처별	부분적
FineWeb / FineWeb-Edu	ODC-By 1.0	가능
The Pile	MIT (코드), 데이터 일부 문제 (Books3 제거)	부분적
Dolma	ODC-By 1.0	가능
SlimPajama	Apache 2.0	가능
The Stack v2	도큐먼트별 원 라이선스	가능 (옵트아웃 존중 시)
LAION-5B	CC-BY 4.0 (메타데이터)	논쟁 중
DataComp	CC-BY 4.0	가능
COYO-700M	CC-BY 4.0	가능
Open X-Embodiment	Apache 2.0	가능

16.2 옵트아웃 메커니즘

2026년에 표준화된 옵트아웃 시스템:

robots.txt: 크롤러가 존중해야 하는 표준. Disallow: / 시 Common Crawl에서 빠짐.
The Stack의 "Am I in The Stack?": 자기 GitHub 사용자명 검색 → 제거 요청.
HF "Have I been trained?" (haveibeentrained.com 협력): 이미지-텍스트 옵트아웃.
ai.txt: 일부 도메인이 채택한 새 표준. AI 학습 허용 여부를 명시.

EU GDPR 17조 "삭제 요청권"이 LLM에 적용될 수 있느냐는 미해결 문제다.

사전학습 데이터에서는 삭제 가능 (도큐먼트 단위)
이미 학습된 모델 가중치에서는? — 머신 언러닝(machine unlearning) 연구 분야 부상
2025~2026년 EU AI Act가 부분 발효되며, 일부 데이터셋(LAION 등)에 영향

16.4 윤리적 사용 체크리스트

새 LLM을 학습할 때 데이터 윤리 체크리스트:

라이선스가 명시된 데이터만 쓰는가?
옵트아웃을 존중하는가?
개인정보(PII) 필터링을 했는가?
유해 콘텐츠 필터링을 했는가?
데이터 카드(Datasheet for Datasets)를 공개했는가?
데이터 거버넌스(누가 큐레이션에 참여했는가)를 문서화했는가?

에필로그 — 데이터의 시대

2026년 LLM 경쟁의 진짜 무게중심은 모델 가중치가 아니라 데이터셋에 있다. 누가 더 깨끗한 토큰을 더 많이 가지고 있는가, 누가 더 다양한 도메인을 커버하는가, 누가 라이선스 리스크를 더 작게 안고 있는가 — 이것이 다음 세대 모델의 결과를 결정한다.

오픈소스 데이터셋은 이 경쟁의 평등화 도구다. 작은 연구실과 스타트업이 거대 기업의 비공개 데이터에 맞설 수 있는 거의 유일한 길. FineWeb-Edu의 등장으로 양질의 1조 토큰이 누구에게나 열려 있다. 다음에는 누가 그 토큰을 어떻게 쓰느냐의 게임이다.

Garbage in, garbage out — Gold in, gold out.

데이터를 진지하게 다루는 팀이 다음 세대를 이끈다.

참고 / References

Common Crawl — https://commoncrawl.org/
RefinedWeb (Falcon) — https://huggingface.co/datasets/tiiuae/falcon-refinedweb
RedPajama-V2 (Together AI) — https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2
FineWeb (HF) — https://huggingface.co/datasets/HuggingFaceFW/fineweb
FineWeb-Edu (HF) — https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
The Pile (EleutherAI) — https://pile.eleuther.ai/
Dolma (Allen AI) — https://huggingface.co/datasets/allenai/dolma
SlimPajama (Cerebras) — https://huggingface.co/datasets/cerebras/SlimPajama-627B
OSCAR (Inria) — https://oscar-project.org/
C4 (Google) — https://www.tensorflow.org/datasets/catalog/c4
mC4 (Google) — https://huggingface.co/datasets/mc4
ROOTS (BigScience) — https://huggingface.co/bigscience-data
CommonPile (a16z) — https://github.com/r-three/common-pile
arXiv Bulk Access — https://info.arxiv.org/help/bulk_data_s3.html
S2ORC (Allen AI) — https://github.com/allenai/s2orc
Wikipedia Dumps — https://dumps.wikimedia.org/
The Stack v2 (BigCode) — https://huggingface.co/datasets/bigcode/the-stack-v2
StarCoder — https://huggingface.co/bigcode/starcoder
COYO-700M (Kakao Brain) — https://huggingface.co/datasets/kakaobrain/coyo-700m
AI Hub (NIA) — https://www.aihub.or.kr/
KLUE — https://klue-benchmark.com/
LAION-5B — https://laion.ai/blog/laion-5b/
LAION-Aesthetics — https://laion.ai/blog/laion-aesthetics/
DataComp — https://www.datacomp.ai/
ImageNet — https://www.image-net.org/
CC12M (Google) — https://github.com/google-research-datasets/conceptual-12m
Open Images — https://storage.googleapis.com/openimages/web/index.html
COCO — https://cocodataset.org/
Open X-Embodiment — https://robotics-transformer-x.github.io/
BigScience ROOTS — https://huggingface.co/spaces/bigscience/SourcingCatalog
datatrove (HF) — https://github.com/huggingface/datatrove
dolma toolkit (Allen AI) — https://github.com/allenai/dolma
Datasheets for Datasets — https://arxiv.org/abs/1803.09010
Am I in The Stack? — https://huggingface.co/spaces/bigcode/in-the-stack
Have I Been Trained? — https://haveibeentrained.com/