- Published on
오픈소스 AI 학습 데이터셋 2026 — Common Crawl / FineWeb (HF) / RedPajama-V2 / Dolma / SlimPajama / The Stack v2 / LAION / COYO-700M (Kakao) 심층 가이드
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 모델은 데이터의 함수다
2026년 LLM 경쟁에서 우리는 종종 모델 크기와 아키텍처를 이야기한다. 하지만 진실은 더 단순하다: 모델은 데이터의 함수다(Model = f(Data)). Llama 3가 Llama 2를 압도한 가장 큰 이유는 트랜스포머 변경이 아니라 학습 데이터의 양과 질이었다. 15조 토큰. FineWeb-Edu가 등장한 후 7B 모델이 이전 30B 모델을 따라잡기 시작한 것도 같은 이유다.
"Garbage in, garbage out"은 머신러닝의 오래된 격언이지만, LLM 시대에 그 격언은 새로운 무게를 갖는다. 토큰 1조 개 중에 5%의 쓰레기가 섞이면, 그 모델은 5% 분량의 환각을 학습한다.
이 글은 2026년 오픈소스 AI 학습 데이터셋의 전체 지도를 그린다. 모든 LLM의 토대인 Common Crawl부터, 그것을 어떻게 정제하느냐로 갈라진 RefinedWeb, RedPajama, FineWeb, Dolma, SlimPajama 가문, 코드 전용 The Stack v2, 멀티모달 LAION/DataComp, 한국 COYO-700M과 AI Hub, 일본 NII/NTT/ABEJA 데이터까지. 그리고 마지막으로 라이선스와 윤리, GDPR Right to be Forgotten의 새 시대를 본다.
1장 · 2026년 AI 학습 데이터셋 지도 — 4 분류
오픈소스 데이터셋은 크게 네 갈래로 나뉜다.
┌─ 웹 텍스트 (Web Text) ─┐
│ Common Crawl │
│ ├ RefinedWeb │
│ ├ RedPajama-V2 │
│ ├ FineWeb / FW-Edu │
│ ├ Dolma / SlimPajama │
│ └ C4 / mC4 / OSCAR │
│ │
├─ 학술/책 (Books/Papers)─┤
오픈소스 데이터셋 │ ├ The Pile │
│ ├ arXiv / S2ORC │
│ ├ Wikipedia / ROOTS │
│ └ CommonPile │
│ │
├─ 코드 (Code) ───────────┤
│ ├ The Stack v2 │
│ └ StarCoder Data │
│ │
└─ 멀티모달 (Multimodal) ─┘
├ LAION-5B / Aesth.
├ DataComp
├ ImageNet / COCO
├ CC12M / Open Images
├ COYO-700M (Kakao)
└ Open X-Embodiment (로봇)
핵심 통찰 4가지:
- 모든 길은 Common Crawl로 통한다 — RefinedWeb, RedPajama, FineWeb, Dolma는 모두 Common Crawl을 다르게 정제한 결과물이다.
- 정제 파이프라인이 곧 차별점 — 같은 원료(Common Crawl)에서 어떤 휴리스틱, 어떤 디둡(deduplication), 어떤 LLM 분류기를 거치느냐가 토큰 품질을 결정한다.
- 2024~2026이 정제의 황금기 — FineWeb-Edu(2024.5)는 모델 기반 품질 분류기를 도입했고, 이후 모든 새 데이터셋이 이 접근을 따른다.
- 멀티모달은 별도 우주 — LAION이 저작권 소송에 휘말리며 흔들렸지만, DataComp가 그 자리를 메우고 있다.
2장 · Common Crawl — 모든 LLM의 기반
Common Crawl은 2007년부터 매월 웹을 크롤링해 무료로 공개하는 비영리 단체다. 누적 페치 PB 단위, 도메인 수십억 개. 현존하는 모든 오픈 LLM의 사실상 첫 번째 원료다.
2.1 형식
- WARC (Web ARChive): 원본 HTTP 응답을 그대로 저장. 헤더, HTML, 바이너리 포함.
- WAT: 메타데이터만 추출한 JSON.
- WET: 텍스트만 추출한 평문 파일.
대부분의 LLM 정제 파이프라인은 WET에서 시작한다 — HTML 파싱은 이미 끝나 있고, 그저 보일러플레이트와 정크를 걸러내면 된다.
2.2 크롤 단위
매월 새 크롤이 공개된다. 예: CC-MAIN-2026-21 (2026년 21주차 크롤). 한 번의 크롤이 보통 3~4 PB. 누적 100 PB 이상.
2.3 한계
- 중복 거대: 같은 페이지가 여러 도메인에 미러링됨. 디둡 필수.
- 품질 편차 극단: 위키피디아 같은 양질 텍스트 옆에 자동 생성 SEO 스팸이 섞임.
- 언어 분포 편향: 영어가 ~45%, 그 다음 러시아어/독일어/중국어/일본어/한국어 순.
- robots.txt 준수: 크롤러가 robots.txt를 존중하므로, opt-out 도메인의 데이터는 자동으로 빠진다.
2.4 다운로드
# 특정 크롤의 WET 인덱스
aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2026-21/
# Python으로 한 segment 받기
import boto3
s3 = boto3.client("s3", region_name="us-east-1")
s3.download_file(
"commoncrawl",
"crawl-data/CC-MAIN-2026-21/segments/.../wet/...wet.gz",
"sample.wet.gz",
)
Common Crawl은 그 자체로는 학습에 부적합하다 — 항상 정제된 파생 데이터셋을 거친다.
3장 · RefinedWeb (Falcon team, 2023)
RefinedWeb은 UAE의 Technology Innovation Institute (TII)가 Falcon 모델을 위해 만든 Common Crawl 정제본이다. **"웹 데이터만으로 책+논문 혼합 데이터셋(The Pile 등)을 능가할 수 있다"**를 증명한 첫 사례.
3.1 핵심 기여
- 5조 토큰 규모의 웹 전용 데이터셋 공개 (전체는 비공개, 600B 토큰 샘플만 공개)
- MacroData Refinement (MDR) 파이프라인: URL 필터, 텍스트 추출(trafilatura), 언어 식별, 휴리스틱, MinHash 디둡
- 모델 기반 필터를 쓰지 않음 — 휴리스틱과 디둡만으로 품질을 끌어올림. 단순함의 미학.
3.2 파이프라인 요약
Common Crawl WARC
│
▼
URL 필터 (블랙리스트, 성인/유해 도메인 제거)
│
▼
Trafilatura (HTML → 본문 텍스트 추출)
│
▼
언어 식별 (fastText, 영어만 유지)
│
▼
휴리스틱 (반복 라인 비율, 평균 단어 길이, ...)
│
▼
정확 일치 디둡 + MinHash 디둡 (도큐먼트 간)
│
▼
600B 토큰 (공개분)
3.3 영향
RefinedWeb은 Falcon-7B/40B의 학습에 쓰였고, 당시 LLaMA-1을 능가했다. 이후 모든 LLM 정제 데이터셋이 RefinedWeb의 디둡 전략(MinHash + 라인 레벨 정확 일치)을 표준으로 채택했다.
4장 · RedPajama-V2 (Together AI, 2023)
RedPajama는 LLaMA-1의 데이터 구성을 재현하려는 오픈 프로젝트로 시작했다. V1은 1.2조 토큰의 "LLaMA 레시피 재현". V2는 그 야망을 더 키웠다.
4.1 RedPajama-V2 규모
- 30조 토큰 (raw), 84개 Common Crawl 스냅샷 (2014~2023)
- 5개 언어: 영어, 독일어, 프랑스어, 스페인어, 이탈리아어
- 도큐먼트마다 품질 신호(quality signals)를 사전 계산해 제공 — 사용자가 자기 임계값으로 필터링할 수 있게.
4.2 품질 신호의 혁신
RedPajama-V2는 단순히 정제된 텍스트만 주지 않는다. 40가지 이상의 품질 메트릭(perplexity 점수, 자연어 비율, 코드 비율, ...)을 도큐먼트마다 붙여서 공개했다. 사용자는 자기 모델 목적에 맞게 임계값을 정할 수 있다.
# RedPajama-V2 로딩 예
from datasets import load_dataset
ds = load_dataset(
"togethercomputer/RedPajama-Data-V2",
name="default",
partition="head_middle", # 또는 "tail"
snapshots=["2023-14"],
languages=["en", "de"],
)
# 품질 신호로 필터링
def filter_quality(doc):
return (
doc["quality_signals"]["rps_doc_lorem_ipsum"] == 0 and
doc["quality_signals"]["rps_doc_word_count"] >= 50 and
doc["quality_signals"]["rps_lines_javascript_counts"] < 0.1
)
filtered = ds.filter(filter_quality)
4.3 의의
품질 필터를 데이터셋 자체에 내장한 첫 사례. 이후 FineWeb 등은 이 접근을 표준화한다.
5장 · FineWeb (Hugging Face, 2024.2)
FineWeb은 2024년 2월 Hugging Face가 공개한 15조 토큰 규모의 영어 웹 데이터셋이다. 2026년 현재 가장 널리 쓰이는 LLM 학습 베이스라인.
5.1 왜 FineWeb이 중요한가
FineWeb 공개 직후 같은 양의 데이터로 FineWeb이 RefinedWeb, C4, RedPajama-V2를 모두 능가한다는 것이 벤치마크에서 입증됐다. 이유는:
- 96개 Common Crawl 덤프를 모두 사용 (RefinedWeb은 일부만)
- trafilatura 대신 더 최신의 HTML→텍스트 변환기
- 개선된 휴리스틱: C4의 휴리스틱 + RefinedWeb의 휴리스틱을 합쳐서 다듬음
- MinHash 디둡을 덤프 단위로: 덤프 내 디둡 후 덤프 간 디둡 (계산량 vs 효과의 균형)
5.2 파이프라인 (datatrove 라이브러리)
Hugging Face는 FineWeb을 만드는 데 자체 라이브러리 datatrove를 만들었고, 그 전체 파이프라인을 공개했다.
# datatrove 설치
pip install datatrove
# 실행 예 (개념적)
python -m datatrove.executor.local pipeline.py
pipeline.py는 보통 이렇게 생겼다:
from datatrove.executor import LocalPipelineExecutor
from datatrove.pipeline.readers import WarcReader
from datatrove.pipeline.extractors import Trafilatura
from datatrove.pipeline.filters import LanguageFilter, GopherQualityFilter, C4QualityFilter
from datatrove.pipeline.dedup import MinhashDedupSignature
from datatrove.pipeline.writers import JsonlWriter
pipeline = [
WarcReader("s3://commoncrawl/crawl-data/CC-MAIN-2026-21/"),
Trafilatura(),
LanguageFilter(languages=["en"]),
GopherQualityFilter(),
C4QualityFilter(),
MinhashDedupSignature(output_folder="dedup_sigs/"),
JsonlWriter("output/"),
]
executor = LocalPipelineExecutor(pipeline=pipeline, tasks=64, workers=16)
executor.run()
5.3 사용
from datasets import load_dataset
# 15T 전체는 너무 크니, 샘플 사용
ds = load_dataset(
"HuggingFaceFW/fineweb",
name="sample-10BT", # 10B 토큰 샘플
split="train",
streaming=True,
)
for doc in ds:
print(doc["text"][:200])
break
6장 · FineWeb-Edu (HF, 2024.5) — 교육 필터의 혁명
FineWeb-Edu는 FineWeb 공개 3개월 후 등장한 1.3조 토큰 서브셋이다. 한 가지 추가 단계: LLM 분류기로 "교육적 가치"가 높은 도큐먼트만 추출.
6.1 어떻게 만들었나
- Llama-3-70B-Instruct로 500K 도큐먼트의 "교육성"을 0~5점 채점 (프롬프트 엔지니어링)
- 그 데이터를 학습 데이터로 작은 분류기(snowflake-arctic-embed-m 등) 파인튜닝
- 분류기를 FineWeb 15T 전체에 적용 → 점수 3 이상만 남김 → 1.3T 토큰
6.2 결과
작은 모델(1B, 3B, 7B)이 FineWeb-Edu로만 학습했을 때, 두 배 큰 모델을 일반 FineWeb으로 학습한 것보다 MMLU/HellaSwag에서 좋다는 결과. 토큰 효율의 큰 도약.
6.3 의미
"양보다 질"이 단순한 슬로건이 아니라 측정 가능한 사실임을 입증. 2026년 모든 새 데이터셋은 "LLM-as-classifier" 필터를 표준 단계로 포함한다.
ds = load_dataset(
"HuggingFaceFW/fineweb-edu",
name="sample-100BT",
split="train",
streaming=True,
)
7장 · The Pile (EleutherAI) / Dolma (Allen AI) / SlimPajama (Cerebras)
7.1 The Pile (2020, EleutherAI)
The Pile은 GPT-3 시대에 GPT-Neo / GPT-J / Pythia 학습용으로 만들어진 825 GB 데이터셋. 22개 서브세트의 혼합:
- Common Crawl (Pile-CC)
- PubMed Central, ArXiv, FreeLaw, USPTO Backgrounds
- StackExchange, GitHub, Books3 (저작권 문제로 삭제됨)
- OpenWebText2, Wikipedia, OpenSubtitles
- 등등
Books3 사건: 2023년 Books3가 저작권 침해 데이터셋이라는 것이 밝혀져 The Pile에서 제거됐다. 그 이후 모든 오픈 데이터셋은 책을 신중히 다룬다.
7.2 Dolma (Allen AI, 2024)
Dolma는 OLMo 모델용으로 Allen AI가 공개한 3조 토큰 데이터셋. 특징은:
- 완전 투명한 라이선스: 모든 데이터의 출처와 라이선스 메타데이터 포함
- 재현 가능한 파이프라인:
dolma툴킷 공개 - 구성: Common Crawl 정제본 + Wikipedia + The Stack v1 + Reddit + arXiv + 학술 출판 + 책
pip install dolma
dolma tag --tag c4_v1 --documents path/to/jsonl
7.3 SlimPajama (Cerebras, 2023)
SlimPajama는 RedPajama-V1을 추가 디둡한 627B 토큰 버전. 핵심 통찰:
- RedPajama-V1에는 같은 도큐먼트가 약 50%까지 중복으로 들어 있었다.
- 디둡으로 토큰 수는 절반이 됐지만, 같은 토큰 수로 학습했을 때 SlimPajama가 RedPajama-V1보다 일관되게 좋다.
- 디둡 = 자유 점심 (free lunch).
이 결과는 이후 모든 데이터셋이 공격적인 디둡을 기본으로 채택하게 만들었다.
8장 · OSCAR (Inria multilingual) / C4 + mC4 (Google)
8.1 OSCAR (Inria, 2019~)
**OSCAR (Open Super-large Crawled Aggregated coRpus)**는 프랑스 INRIA 주도의 다국어 데이터셋. Common Crawl에서 언어 식별로 분류해, 151개 언어의 텍스트를 제공한다.
- 2024년 기준 OSCAR 2301: 한국어 35GB, 일본어 270GB 정도
- 한국어/일본어 LLM 초기 학습에서 가장 널리 쓰임
8.2 C4 (Google, 2019)
**C4 (Colossal Clean Crawled Corpus)**는 T5 논문에서 공개한 정제본. 156GB. 단순한 휴리스틱:
- 문장이 마침표/물음표/느낌표/따옴표로 끝나야 함
- 5문장 이상
- "lorem ipsum" 등 자동 생성물 패턴 제외
- 영어 외 제외 (langdetect로)
8.3 mC4 (Google, 2021)
**mC4 (multilingual C4)**는 C4의 다국어 버전. 101개 언어, 27TB. mT5 학습에 사용. 한국어 90GB, 일본어 200GB 수준.
from datasets import load_dataset
ds = load_dataset("mc4", "ko", split="train", streaming=True)
C4/mC4는 오래된 정제 기법 대표이고, 2026년에는 FineWeb이 영어에서 그것을 대체하는 중이다. 다국어는 여전히 mC4와 OSCAR이 강하다.
9장 · CommonPile (a16z) / ROOTS (BigScience BLOOM)
9.1 CommonPile (2024~, a16z 후원)
CommonPile은 EleutherAI 인력 + a16z 자금으로 만들어지는 차세대 The Pile. 목표:
- 라이선스가 명확한 데이터만 (CC0, PD, CC-BY 등)
- 책 데이터를 퍼블릭 도메인 책(주로 Project Gutenberg)만으로 구성
- 정부 문서, 학술 오픈 액세스 논문 비중을 늘림
2024~2026년에 부분 공개 중이고, 완전 공개 시 The Pile의 후계자가 될 전망이다.
9.2 ROOTS (BigScience BLOOM, 2022)
ROOTS는 다국어 BLOOM 모델용 1.6TB 데이터셋. 46개 자연어 + 13개 프로그래밍 언어. 특징:
- 각 언어 커뮤니티가 직접 큐레이션에 참여 (참여형 데이터 거버넌스)
- 라이선스/출처 메타데이터를 모든 도큐먼트에 부착
- 한국어, 일본어는 포함되지 않음 (영어 위주, 그 외 중남미·아프리카·아시아 언어 일부)
ROOTS의 거버넌스 모델 — "데이터 주체가 데이터 큐레이션에 참여한다" — 는 이후 모든 윤리적 데이터셋의 기준점이 됐다.
10장 · arXiv / Wikipedia / S2ORC — 학술 데이터
10.1 Wikipedia 덤프
Wikipedia는 매월 전체 덤프를 공개한다. 가장 깨끗하고 가장 사실 밀도가 높은 텍스트. 단점: 너무 작다 (영어 ~20GB).
# 영어 위키 덤프 받기
wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
처리는 wikiextractor 또는 wikipedia2vec 등으로.
10.2 arXiv 코퍼스
arXiv는 1991년부터 누적된 220만+ 논문을 공개한다. LaTeX 소스 + PDF + 메타데이터 다 받을 수 있음.
- 학습용 처리: LaTeX → 평문 변환 (수식은 토큰화 어려움)
- 분야: 수학, 물리, CS, 통계, 정량 생물/금융
S3 버킷 s3://arxiv/ (requester pays)에서 전체 다운로드.
10.3 S2ORC (Allen AI, 2020~)
**S2ORC (Semantic Scholar Open Research Corpus)**는 학술 논문 8천만+편의 메타데이터/초록/일부 본문을 제공. Allen AI가 운영하는 Semantic Scholar의 백본.
- Open Access 논문은 본문 전체 (~1천만 편)
- 클로즈드 액세스는 초록만
- 인용 그래프 포함 (논문 간 인용 관계 노드/엣지)
# S2ORC API 예
import requests
api_key = "YOUR_KEY"
r = requests.get(
"https://api.semanticscholar.org/graph/v1/paper/search",
params={"query": "large language models", "limit": 10},
headers={"x-api-key": api_key},
)
학술 데이터는 LLM의 추론 능력과 사실성에 크게 기여한다. The Pile, Dolma, CommonPile 모두 arXiv와 S2ORC를 핵심 구성요소로 쓴다.
11장 · 코드 — The Stack v2 (BigCode 900GB) / StarCoder Data
11.1 The Stack (BigCode, 2022~)
The Stack은 Hugging Face 주도의 BigCode 프로젝트가 만든 코드 데이터셋. v1은 6TB, v2는 900GB+ (디둡 후, 67배 추가 디둡).
- 600+ 프로그래밍 언어
- GitHub 공개 저장소에서 허용적 라이선스만(MIT, BSD, Apache 2.0, ISC 등)
- 저자 옵트아웃 시스템:
https://huggingface.co/spaces/bigcode/in-the-stack에서 자기 GitHub 사용자명 검색해서 제거 신청 가능
11.2 The Stack v2 (2024)
- Software Heritage(파리 소재 코드 아카이브) 협력으로 더 광범위한 코드 수집
- 이슈 디스커션, PR 코멘트, 노트북, 깃 커밋 메시지까지 포함
- 라이선스 메타데이터 도큐먼트마다 부착
from datasets import load_dataset
ds = load_dataset(
"bigcode/the-stack-v2",
"Python",
split="train",
streaming=True,
)
11.3 StarCoder Data
StarCoder는 BigCode가 The Stack에서 다시 정제해 만든 코드 LLM 학습 데이터. 80개 언어 중심, 약 1조 토큰. StarCoder/StarCoder2 모델의 학습에 사용.
코드 데이터는 LLM의 체계적 추론(systematic reasoning) 능력을 키운다 — Anthropic, OpenAI, Google 모두 "코드 데이터 비율을 늘리면 비코드 추론도 올라간다"를 보고했다.
12장 · 한국 — COYO-700M (Kakao Brain) / AI Hub / NIA / KAIST / Naver HyperCLOVA
12.1 COYO-700M (Kakao Brain, 2022)
COYO-700M은 카카오브레인이 공개한 7억 쌍 image-text 데이터셋. LAION-400M의 한국발 카운터파트.
- Common Crawl HTML의
<img alt="...">페어 수집 - CLIP 점수 필터 + 미적 점수 필터
- LAION-400M보다 큰 규모, 카카오 자체 CLIP 학습에 사용
from datasets import load_dataset
ds = load_dataset("kakaobrain/coyo-700m", split="train")
12.2 AI Hub (NIA, 한국정보화진흥원)
AI Hub (aihub.or.kr)는 한국 정부가 운영하는 AI 학습 데이터 포털. 텍스트, 음성, 영상, 이미지 등 수백 종의 데이터셋. 한국어 LLM 학습의 표준 출처.
- 한국어 회화, 한국어 번역, 한국어 STT/TTS
- 의료, 법률, 금융 특화 한국어 데이터
- 사용 시 NIA 약관 동의 필요 (상업적 사용 가능한 것과 그렇지 않은 것 혼재)
12.3 NIA 데이터셋
**NIA (한국지능정보사회진흥원)**가 주관하는 데이터 구축 사업. 매년 새 도메인을 추가하며 2026년 기준 1000+ 데이터셋.
12.4 KAIST 데이터셋
KAIST 김재철 AI 대학원 등에서 공개한 한국어 학술 데이터:
- KLUE (Korean Language Understanding Evaluation, 8개 태스크)
- KoBEST (Korean Balanced Evaluation of Significant Tasks)
- KMMLU (한국어 MMLU)
12.5 Naver HyperCLOVA 데이터
Naver의 HyperCLOVA X는 자체 큐레이션한 한국어 데이터로 학습됐다. 일부는 비공개지만, KorQuAD, NSMC, Klue 등 공개분도 풍부하다.
한국어 LLM(LG EXAONE, Naver HyperCLOVA, Solar 등)의 데이터 레시피는 대개 AI Hub + COYO + 자체 크롤 + mC4(ko) + OSCAR(ko) 조합이다.
13장 · 일본 — 국립정보학연구소 / NTT / ABEJA
13.1 国立情報学研究所 (NII, National Institute of Informatics)
NII는 일본 학술용 데이터셋 허브. 대표적인 것:
- NII Test Collection for IR Systems (NTCIR)
- 일본어 위키피디아 라이선스 정리본
- 학술 논문 코퍼스 (CiNii)
13.2 NTT 데이터
NTT는 일본 최대 통신사업자로 자체 LLM 연구. 공개 데이터는 제한적이지만:
- 日本語タスクのベンチマーク (JGLUE 등)
- ABCI 슈퍼컴퓨터로 학습한 LLM의 데이터 레시피 일부 공개
13.3 ABEJA / Stockmark / cyberagent
일본 AI 스타트업들이 공개한 일본어 LLM 데이터:
- ABEJA: ABEJA-LLM 7B/13B의 학습 데이터 일부 공개
- Stockmark: 비즈니스 도메인 일본어 코퍼스
- CyberAgent: 광고/마케팅 일본어 코퍼스
13.4 일본어 데이터셋 표준 조합
일본어 LLM 학습에서 흔히 보는 레시피:
- mC4(ja) + OSCAR(ja) — 웹 베이스
- 일본 위키피디아 + 일본 청구권 종료 책 (Aozora Bunko 등)
- NII / NTCIR — 학술
- ABCI에서 풀린 일본어 코드 코퍼스
14장 · 이미지-텍스트 — LAION-5B / DataComp / ImageNet / CC12M / Open Images / COCO
14.1 LAION-5B (LAION, 2022)
LAION-5B는 58억 쌍 image-text 데이터셋. Common Crawl에서 <img alt="..."> 페어를 추출해 CLIP 점수로 필터링한 것. Stable Diffusion 학습의 베이스.
LAION 저작권 소송 (2023~): Getty Images와 아티스트들이 LAION 및 그것을 사용한 모델 제공자(Stability AI 등)를 상대로 소송 제기. 2024년 LAION이 일부 데이터셋을 삭제(특히 아동 보호 이슈로 일부 도큐먼트). 2026년 현재 LAION의 법적 지위는 회색 지대.
14.2 LAION-Aesthetics
LAION-Aesthetics는 LAION-5B 중 미적 점수가 높은 것만 추린 서브셋. Stable Diffusion의 고품질 생성 단계 학습에 사용. 약 1.2억 쌍.
14.3 DataComp (2023~)
DataComp는 LAION의 대안으로 떠오른 데이터셋. Common Crawl 12.8B 페어에서 시작해, 참가자가 자기 필터 전략으로 서브셋을 만들어 모델 학습 결과를 비교하는 벤치마크 + 데이터셋 프레임워크.
- DataComp-1B: 1B 페어 (LAION-400M 대안)
- 모든 데이터 출처가 명확
- 학술 라이선스, 상업 사용 가능
from datasets import load_dataset
ds = load_dataset("mlfoundations/datacomp_1b", split="train")
14.4 ImageNet (2009~)
ImageNet은 컴퓨터 비전의 고전. 1400만 이미지, 2만+ 클래스. ImageNet-1K (1000 클래스, 130만 이미지)가 가장 널리 쓰임. 2026년에도 비전 모델 평가의 표준.
14.5 CC12M (Google, 2021)
**CC12M (Conceptual 12M)**은 1,200만 image-text 페어. Google이 공개. ALIGN, BASIC 등 비전-언어 모델 학습에 사용.
14.6 Open Images (Google, 2016~)
Open Images는 900만 이미지에 객체 검출/세그멘테이션 라벨이 붙은 데이터셋. 600 객체 클래스. COCO보다 큼.
14.7 COCO (Microsoft, 2014~)
**COCO (Common Objects in Context)**는 33만 이미지, 80 객체 클래스, 캡션 5개씩. 객체 검출/세그멘테이션/캡션 생성의 표준 벤치마크.
14.8 멀티모달 표준 레시피 2026
오픈 비전-언어 모델(LLaVA, Idefics 등)은 보통:
- 사전학습: LAION 또는 DataComp의 수억 페어
- 인스트럭션 튜닝: COCO 캡션 + ScienceQA + 자체 큐레이션
- 평가: ImageNet, COCO, MMVet, MMMU
15장 · 로보틱스 — Open X-Embodiment
**Open X-Embodiment (RT-X, 2023~)**는 Google DeepMind 주도의 로봇 학습 데이터셋. 22개 로봇 플랫폼에서 모은 100만+ 에피소드.
15.1 핵심 아이디어
이전까지 로봇 학습 데이터는 로봇 모델마다 분리돼 있었다. UR5의 데이터로 학습한 모델은 Franka에 안 됐다. Open X-Embodiment는 다른 로봇 데이터를 통일된 포맷(RLDS, Reinforcement Learning Datasets)으로 합쳤다.
- 21개 연구 기관 협력 (Stanford, CMU, Berkeley, Google, ...)
- 액션 공간 통일(엔드 이펙터 6DOF + 그리퍼)
- 시각 관측 통일(RGB 카메라 + 일부 depth)
15.2 RT-1, RT-2, RT-X
Open X-Embodiment로 학습한 RT-2-X는 한 로봇에서 학습한 스킬을 다른 로봇으로 옮길 수 있음을 처음 보여줬다. 로봇 학습의 "ImageNet 모먼트".
import tensorflow_datasets as tfds
ds = tfds.load("bridge", split="train")
15.3 2026년 상황
Open X-Embodiment v2 (2025)는 60+ 로봇 플랫폼, 200만 에피소드. Tesla Optimus, Figure 02 같은 휴머노이드 데이터도 일부 합류.
16장 · 라이선스 + 윤리 — 저작권, 옵트아웃, Right to be Forgotten
16.1 라이선스 매트릭스
| 데이터셋 | 라이선스 | 상업 사용 |
|---|---|---|
| Common Crawl | Public | 가능 (각 페이지의 원 저작권 별도) |
| RefinedWeb | ODC-By 1.0 | 가능 |
| RedPajama-V2 | Apache 2.0 (코드), 데이터는 출처별 | 부분적 |
| FineWeb / FineWeb-Edu | ODC-By 1.0 | 가능 |
| The Pile | MIT (코드), 데이터 일부 문제 (Books3 제거) | 부분적 |
| Dolma | ODC-By 1.0 | 가능 |
| SlimPajama | Apache 2.0 | 가능 |
| The Stack v2 | 도큐먼트별 원 라이선스 | 가능 (옵트아웃 존중 시) |
| LAION-5B | CC-BY 4.0 (메타데이터) | 논쟁 중 |
| DataComp | CC-BY 4.0 | 가능 |
| COYO-700M | CC-BY 4.0 | 가능 |
| Open X-Embodiment | Apache 2.0 | 가능 |
16.2 옵트아웃 메커니즘
2026년에 표준화된 옵트아웃 시스템:
- robots.txt: 크롤러가 존중해야 하는 표준.
Disallow: /시 Common Crawl에서 빠짐. - The Stack의 "Am I in The Stack?": 자기 GitHub 사용자명 검색 → 제거 요청.
- HF "Have I been trained?" (haveibeentrained.com 협력): 이미지-텍스트 옵트아웃.
ai.txt: 일부 도메인이 채택한 새 표준. AI 학습 허용 여부를 명시.
16.3 GDPR Right to be Forgotten
EU GDPR 17조 "삭제 요청권"이 LLM에 적용될 수 있느냐는 미해결 문제다.
- 사전학습 데이터에서는 삭제 가능 (도큐먼트 단위)
- 이미 학습된 모델 가중치에서는? — 머신 언러닝(machine unlearning) 연구 분야 부상
- 2025~2026년 EU AI Act가 부분 발효되며, 일부 데이터셋(LAION 등)에 영향
16.4 윤리적 사용 체크리스트
새 LLM을 학습할 때 데이터 윤리 체크리스트:
- 라이선스가 명시된 데이터만 쓰는가?
- 옵트아웃을 존중하는가?
- 개인정보(PII) 필터링을 했는가?
- 유해 콘텐츠 필터링을 했는가?
- 데이터 카드(Datasheet for Datasets)를 공개했는가?
- 데이터 거버넌스(누가 큐레이션에 참여했는가)를 문서화했는가?
에필로그 — 데이터의 시대
2026년 LLM 경쟁의 진짜 무게중심은 모델 가중치가 아니라 데이터셋에 있다. 누가 더 깨끗한 토큰을 더 많이 가지고 있는가, 누가 더 다양한 도메인을 커버하는가, 누가 라이선스 리스크를 더 작게 안고 있는가 — 이것이 다음 세대 모델의 결과를 결정한다.
오픈소스 데이터셋은 이 경쟁의 평등화 도구다. 작은 연구실과 스타트업이 거대 기업의 비공개 데이터에 맞설 수 있는 거의 유일한 길. FineWeb-Edu의 등장으로 양질의 1조 토큰이 누구에게나 열려 있다. 다음에는 누가 그 토큰을 어떻게 쓰느냐의 게임이다.
Garbage in, garbage out — Gold in, gold out.
데이터를 진지하게 다루는 팀이 다음 세대를 이끈다.
참고 / References
- Common Crawl — https://commoncrawl.org/
- RefinedWeb (Falcon) — https://huggingface.co/datasets/tiiuae/falcon-refinedweb
- RedPajama-V2 (Together AI) — https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2
- FineWeb (HF) — https://huggingface.co/datasets/HuggingFaceFW/fineweb
- FineWeb-Edu (HF) — https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
- The Pile (EleutherAI) — https://pile.eleuther.ai/
- Dolma (Allen AI) — https://huggingface.co/datasets/allenai/dolma
- SlimPajama (Cerebras) — https://huggingface.co/datasets/cerebras/SlimPajama-627B
- OSCAR (Inria) — https://oscar-project.org/
- C4 (Google) — https://www.tensorflow.org/datasets/catalog/c4
- mC4 (Google) — https://huggingface.co/datasets/mc4
- ROOTS (BigScience) — https://huggingface.co/bigscience-data
- CommonPile (a16z) — https://github.com/r-three/common-pile
- arXiv Bulk Access — https://info.arxiv.org/help/bulk_data_s3.html
- S2ORC (Allen AI) — https://github.com/allenai/s2orc
- Wikipedia Dumps — https://dumps.wikimedia.org/
- The Stack v2 (BigCode) — https://huggingface.co/datasets/bigcode/the-stack-v2
- StarCoder — https://huggingface.co/bigcode/starcoder
- COYO-700M (Kakao Brain) — https://huggingface.co/datasets/kakaobrain/coyo-700m
- AI Hub (NIA) — https://www.aihub.or.kr/
- KLUE — https://klue-benchmark.com/
- LAION-5B — https://laion.ai/blog/laion-5b/
- LAION-Aesthetics — https://laion.ai/blog/laion-aesthetics/
- DataComp — https://www.datacomp.ai/
- ImageNet — https://www.image-net.org/
- CC12M (Google) — https://github.com/google-research-datasets/conceptual-12m
- Open Images — https://storage.googleapis.com/openimages/web/index.html
- COCO — https://cocodataset.org/
- Open X-Embodiment — https://robotics-transformer-x.github.io/
- BigScience ROOTS — https://huggingface.co/spaces/bigscience/SourcingCatalog
- datatrove (HF) — https://github.com/huggingface/datatrove
- dolma toolkit (Allen AI) — https://github.com/allenai/dolma
- Datasheets for Datasets — https://arxiv.org/abs/1803.09010
- Am I in The Stack? — https://huggingface.co/spaces/bigcode/in-the-stack
- Have I Been Trained? — https://haveibeentrained.com/