- Published on
オープンソースAI学習データセット2026 — Common Crawl / FineWeb (HF) / RedPajama-V2 / Dolma / SlimPajama / The Stack v2 / LAION / COYO-700M (Kakao) 深掘りガイド
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — モデルはデータの関数である
2026年のLLM競争を語るとき、我々はモデルサイズやアーキテクチャに目が行きがちだ。しかし真実はもっと単純だ — モデルはデータの関数だ(Model = f(Data))。Llama 3がLlama 2を圧倒した最大の理由はトランスフォーマーの変更ではなく、学習データの量と質だ。15兆トークン。FineWeb-Edu登場後に7Bモデルが以前の30Bモデルに追いつき始めたのも同じ理由だ。
「Garbage in, garbage out」は機械学習の古い格言だが、LLM時代にこの格言は新しい重みを持つ。1兆トークン中5%がゴミなら、そのモデルは5%分のハルシネーションを学習したことになる。
この記事は2026年のオープンソースAI学習データセットの全体地図を描く。すべてのLLMの基盤であるCommon Crawlから、それをどう精製するかで分かれたRefinedWeb、RedPajama、FineWeb、Dolma、SlimPajamaの一族、コード専用のThe Stack v2、マルチモーダルのLAION/DataComp、韓国のCOYO-700M、日本のNII/NTT/ABEJAデータ。そして最後にライセンスと倫理、GDPRの忘れられる権利の新時代を見る。
1章 · 2026年のデータセット地図 — 4分類
オープンソースデータセットは大きく4つに分かれる。
┌─ Webテキスト ──────────┐
│ Common Crawl │
│ ├ RefinedWeb │
│ ├ RedPajama-V2 │
│ ├ FineWeb / FW-Edu │
│ ├ Dolma / SlimPajama │
│ └ C4 / mC4 / OSCAR │
│ │
├─ 学術 / 書籍 ────────────┤
オープンデータセット │ ├ The Pile │
│ ├ arXiv / S2ORC │
│ ├ Wikipedia / ROOTS │
│ └ CommonPile │
│ │
├─ コード ────────────────┤
│ ├ The Stack v2 │
│ └ StarCoder Data │
│ │
└─ マルチモーダル ─────────┘
├ LAION-5B / Aesth.
├ DataComp
├ ImageNet / COCO
├ CC12M / Open Images
├ COYO-700M (Kakao)
└ Open X-Embodiment
重要な4つの洞察:
- すべての道はCommon Crawlに通じる — RefinedWeb、RedPajama、FineWeb、DolmaはすべてCommon Crawlを別々の方法で精製した産物だ。
- 精製パイプラインこそが差別化要因 — 同じ原料(Common Crawl)で、どのヒューリスティクス、どの重複除去、どのLLM分類器を経るかがトークン品質を決める。
- 2024〜2026は精製の黄金期 — FineWeb-Edu(2024.5)がモデルベースの品質分類器を導入し、以後のすべての新データセットがこのアプローチを採用している。
- マルチモーダルは別宇宙 — LAIONが著作権訴訟で揺らいだが、DataCompがその空白を埋めている。
2章 · Common Crawl — すべてのLLMの基盤
Common Crawlは2007年から毎月Webをクロールして無料公開している非営利団体だ。累計フェッチ量はPB単位、ドメイン数は数十億。現存するすべてのオープンLLMの事実上の第一原料である。
2.1 形式
- WARC (Web ARChive): 元のHTTPレスポンスをそのまま保存。ヘッダ、HTML、バイナリ含む。
- WAT: メタデータのみを抽出したJSON。
- WET: テキストのみのプレーンテキストファイル。
ほとんどのLLM精製パイプラインはWETから始まる — HTMLパースは済んでおり、ボイラープレートとジャンクを取り除くだけで済む。
2.2 クロール単位
毎月新クロールが公開される。例: CC-MAIN-2026-21(2026年第21週のクロール)。1回のクロールは通常3〜4 PB。累計100 PB超。
2.3 限界
- 重複が膨大: 同じページが複数ドメインにミラーされる。重複除去は必須。
- 品質のばらつきが極端: Wikipediaの良質テキストの隣に自動生成SEOスパムが混ざる。
- 言語分布の偏り: 英語が約45%、続いてロシア語/ドイツ語/中国語/日本語/韓国語の順。
- robots.txt遵守: クローラーがrobots.txtを尊重するため、オプトアウトドメインのデータは自動的に外れる。
2.4 ダウンロード
# 特定クロールのWETインデックス
aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2026-21/
# Pythonで1セグメント取得
import boto3
s3 = boto3.client("s3", region_name="us-east-1")
s3.download_file(
"commoncrawl",
"crawl-data/CC-MAIN-2026-21/segments/.../wet/...wet.gz",
"sample.wet.gz",
)
Common Crawl自体は学習に不適 — 必ず精製済みの派生データセットを通る。
3章 · RefinedWeb (Falconチーム, 2023)
RefinedWebはUAEのTechnology Innovation Institute (TII)がFalconモデル用に作ったCommon Crawl精製版だ。**「Webデータのみで書籍+論文のキュレーション(The Pile等)を超えられる」**ことを初めて証明した事例である。
3.1 核心貢献
- 5兆トークン規模のWeb専用データセット公開(全体は非公開、600Bトークンサンプルのみ公開)。
- MacroData Refinement (MDR) パイプライン: URLフィルタ、テキスト抽出(trafilatura)、言語識別、ヒューリスティクス、MinHash重複除去。
- モデルベースフィルタを使わない — ヒューリスティクスと重複除去のみで品質を引き上げた。シンプルさの美学。
3.2 パイプライン概要
Common Crawl WARC
│
▼
URLフィルタ(ブラックリスト、成人/有害ドメイン除去)
│
▼
Trafilatura(HTML → 本文テキスト抽出)
│
▼
言語識別(fastText、英語のみ保持)
│
▼
ヒューリスティクス(繰り返し行率、平均単語長、...)
│
▼
完全一致重複除去 + MinHash重複除去(ドキュメント間)
│
▼
600Bトークン(公開分)
3.3 影響
RefinedWebはFalcon-7B/40Bの学習に使われ、当時のLLaMA-1を超えた。以後すべてのLLM精製データセットがRefinedWebの重複除去戦略(MinHash + 行レベル完全一致)を標準として採用した。
4章 · RedPajama-V2 (Together AI, 2023)
RedPajamaはLLaMA-1のデータ構成を再現するオープンプロジェクトとして始まった。V1は1.2兆トークンの「LLaMAレシピ再現」。V2はその野望をさらに広げた。
4.1 規模
- 30兆トークン (raw)、84個のCommon Crawlスナップショット(2014〜2023)
- 5言語: 英語、ドイツ語、フランス語、スペイン語、イタリア語
- ドキュメントごとに品質シグナル(quality signals)を事前計算して提供 — ユーザーが自分の閾値でフィルタリングできるように。
4.2 品質シグナルのイノベーション
RedPajama-V2は単に精製済みテキストを渡すだけではない。40以上の品質メトリクス(perplexityスコア、自然言語率、コード率、...)をドキュメントごとに付与して公開した。ユーザーは自身のモデル目的に合わせて閾値を設定できる。
# RedPajama-V2ロード例
from datasets import load_dataset
ds = load_dataset(
"togethercomputer/RedPajama-Data-V2",
name="default",
partition="head_middle", # または "tail"
snapshots=["2023-14"],
languages=["en", "de"],
)
def filter_quality(doc):
return (
doc["quality_signals"]["rps_doc_lorem_ipsum"] == 0 and
doc["quality_signals"]["rps_doc_word_count"] >= 50 and
doc["quality_signals"]["rps_lines_javascript_counts"] < 0.1
)
filtered = ds.filter(filter_quality)
4.3 意義
品質フィルタをデータセット自体に内蔵した最初の事例。以後FineWeb等はこのアプローチを標準化する。
5章 · FineWeb (Hugging Face, 2024.2)
FineWebは2024年2月にHugging Faceが公開した15兆トークン規模の英語Webデータセット。2026年現在最も広く使われるLLM学習ベースラインだ。
5.1 なぜFineWeb重要なのか
FineWeb公開直後、同量のデータでFineWebがRefinedWeb、C4、RedPajama-V2をすべて上回ることがベンチマークで実証された。理由は:
- 96個のCommon Crawlダンプをすべて使用(RefinedWebは一部のみ)
- trafilaturaの代わりにより新しいHTML→テキスト変換器
- 改善されたヒューリスティクス: C4のヒューリスティクス + RefinedWebのヒューリスティクスを合わせて洗練
- MinHash重複除去をダンプ単位で: ダンプ内重複除去後にダンプ間重複除去(計算量vs効果のバランス)
5.2 パイプライン(datatroveライブラリ)
Hugging FaceはFineWebを作るのに独自ライブラリdatatroveを作り、その全パイプラインを公開した。
pip install datatrove
python -m datatrove.executor.local pipeline.py
pipeline.pyはだいたいこんな感じだ:
from datatrove.executor import LocalPipelineExecutor
from datatrove.pipeline.readers import WarcReader
from datatrove.pipeline.extractors import Trafilatura
from datatrove.pipeline.filters import LanguageFilter, GopherQualityFilter, C4QualityFilter
from datatrove.pipeline.dedup import MinhashDedupSignature
from datatrove.pipeline.writers import JsonlWriter
pipeline = [
WarcReader("s3://commoncrawl/crawl-data/CC-MAIN-2026-21/"),
Trafilatura(),
LanguageFilter(languages=["en"]),
GopherQualityFilter(),
C4QualityFilter(),
MinhashDedupSignature(output_folder="dedup_sigs/"),
JsonlWriter("output/"),
]
executor = LocalPipelineExecutor(pipeline=pipeline, tasks=64, workers=16)
executor.run()
5.3 使用
from datasets import load_dataset
ds = load_dataset(
"HuggingFaceFW/fineweb",
name="sample-10BT",
split="train",
streaming=True,
)
for doc in ds:
print(doc["text"][:200])
break
6章 · FineWeb-Edu (HF, 2024.5) — 教育フィルタの革命
FineWeb-EduはFineWeb公開から3か月後に登場した1.3兆トークンのサブセットだ。1つだけ追加ステップ: LLM分類器で「教育的価値」が高いドキュメントのみを抽出。
6.1 どう作ったか
- Llama-3-70B-Instructで500Kドキュメントの「教育性」を0〜5点で採点(プロンプトエンジニアリング)。
- そのデータを学習データに小さな分類器(snowflake-arctic-embed-mなど)をファインチューニング。
- 分類器をFineWeb 15Tトークン全体に適用 → スコア3以上のみ残す → 1.3兆トークン。
6.2 結果
小さなモデル(1B、3B、7B)がFineWeb-Eduだけで学習した時、2倍大きいモデルが通常のFineWebで学習したよりMMLU/HellaSwagで良い結果。トークン効率の大きな飛躍。
6.3 意味
「量より質」が単純なスローガンではなく、測定可能な事実であることを証明。2026年のすべての新データセットは「LLM-as-classifier」フィルタを標準ステップとして含む。
ds = load_dataset(
"HuggingFaceFW/fineweb-edu",
name="sample-100BT",
split="train",
streaming=True,
)
7章 · The Pile (EleutherAI) / Dolma (Allen AI) / SlimPajama (Cerebras)
7.1 The Pile (2020, EleutherAI)
The PileはGPT-3時代にGPT-Neo / GPT-J / Pythia学習用に作られた825 GBのデータセット。22個のサブセットのミックス:
- Common Crawl (Pile-CC)
- PubMed Central, ArXiv, FreeLaw, USPTO Backgrounds
- StackExchange, GitHub, Books3(著作権問題で削除)
- OpenWebText2, Wikipedia, OpenSubtitles
- など
Books3事件: 2023年にBooks3が著作権侵害データセットであることが明らかになり、The Pileから削除された。それ以後すべてのオープンデータセットは書籍を慎重に扱っている。
7.2 Dolma (Allen AI, 2024)
DolmaはOLMoモデル用にAllen AIが公開した3兆トークンのデータセット。特徴は:
- 完全に透明なライセンス: すべてのデータの出所とライセンスメタデータを含む。
- 再現可能なパイプライン:
dolmaツールキットを公開。 - 構成: Common Crawl精製版 + Wikipedia + The Stack v1 + Reddit + arXiv + 学術出版 + 書籍。
pip install dolma
dolma tag --tag c4_v1 --documents path/to/jsonl
7.3 SlimPajama (Cerebras, 2023)
SlimPajamaはRedPajama-V1を追加重複除去した627Bトークンバージョン。核心的洞察:
- RedPajama-V1には同じドキュメントが約50%まで重複していた。
- 重複除去でトークン数は半分になったが、同じトークン数で学習した時、SlimPajamaがRedPajama-V1より一貫して良い。
- 重複除去 = 無料の昼食(free lunch)。
この結果は以後のすべてのデータセットが積極的な重複除去を標準として採用させた。
8章 · OSCAR (Inria) / C4 + mC4 (Google)
8.1 OSCAR (Inria, 2019〜)
**OSCAR (Open Super-large Crawled Aggregated coRpus)**はフランスINRIA主導の多言語データセット。Common Crawlから言語識別で分類し、151言語のテキストを提供する。
- 2024年基準OSCAR 2301: 韓国語35GB、日本語270GB程度。
- 韓国語/日本語LLMの初期学習で最も広く使われた。
8.2 C4 (Google, 2019)
**C4 (Colossal Clean Crawled Corpus)**はT5論文で公開された精製版。156 GB。単純なヒューリスティクス:
- 文がピリオド/疑問符/感嘆符/引用符で終わる必要がある
- 5文以上
- "lorem ipsum"等の自動生成パターン除外
- 英語以外を除外(langdetectで)
8.3 mC4 (Google, 2021)
**mC4 (multilingual C4)**はC4の多言語版。101言語、27 TB。mT5学習に使用。韓国語90GB、日本語200GB水準。
from datasets import load_dataset
ds = load_dataset("mc4", "ja", split="train", streaming=True)
C4/mC4は古い精製手法の代表で、2026年には英語ではFineWebがそれを置き換えつつある。多言語では依然mC4とOSCARが強い。
9章 · CommonPile (a16z) / ROOTS (BigScience BLOOM)
9.1 CommonPile (2024〜, a16z後援)
CommonPileはEleutherAIの人材 + a16zの資金で作られている次世代のThe Pile。目標:
- ライセンスが明確なデータのみ(CC0、PD、CC-BYなど)
- 書籍データをパブリックドメイン書籍(主にProject Gutenberg)のみで構成
- 政府文書、学術オープンアクセス論文の比重を増やす
2024〜2026年に部分公開中で、完全公開時にThe Pileの後継となる見込みだ。
9.2 ROOTS (BigScience BLOOM, 2022)
ROOTSは多言語BLOOMモデル用の1.6 TBデータセット。46自然言語 + 13プログラミング言語。特徴:
- 各言語コミュニティが直接キュレーションに参加(参加型データガバナンス)
- ライセンス/出所メタデータをすべてのドキュメントに付与
- 韓国語、日本語は含まれない(英語中心、その他中南米・アフリカ・アジア言語の一部)
ROOTSのガバナンスモデル — 「データ主体がデータキュレーションに参加する」 — は以後のすべての倫理的データセットの基準点になった。
10章 · arXiv / Wikipedia / S2ORC — 学術データ
10.1 Wikipediaダンプ
Wikipediaは毎月全ダンプを公開する。最もクリーンで最も事実密度が高いテキスト。短所: 小さすぎる(英語約20GB)。
wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
処理はwikiextractorまたはwikipedia2vecなどで。
10.2 arXivコーパス
arXivは1991年から累計220万以上の論文を公開する。LaTeXソース + PDF + メタデータをすべて取得可能。
- 学習用処理: LaTeX → プレーンテキスト変換(数式はトークン化困難)
- 分野: 数学、物理、CS、統計、定量生物/金融
S3バケットs3://arxiv/(requester pays)で全体ダウンロード。
10.3 S2ORC (Allen AI, 2020〜)
**S2ORC (Semantic Scholar Open Research Corpus)**は学術論文8000万以上のメタデータ/抄録/一部本文を提供。Allen AIが運営するSemantic Scholarのバックボーン。
- オープンアクセス論文は本文全体(約1000万編)
- クローズドアクセスは抄録のみ
- 引用グラフ含む(論文間の引用関係のノード/エッジ)
import requests
api_key = "YOUR_KEY"
r = requests.get(
"https://api.semanticscholar.org/graph/v1/paper/search",
params={"query": "large language models", "limit": 10},
headers={"x-api-key": api_key},
)
学術データはLLMの推論能力と事実性に大きく寄与する。The Pile、Dolma、CommonPileすべてがarXivとS2ORCをコア構成要素として使う。
11章 · コード — The Stack v2 (BigCode 900GB) / StarCoder Data
11.1 The Stack (BigCode, 2022〜)
The StackはHugging Face主導のBigCodeプロジェクトが作ったコードデータセット。v1は6TB、v2は900GB+(重複除去後、67倍追加重複除去)。
- 600以上のプログラミング言語
- GitHub公開リポジトリから許容的ライセンスのみ(MIT、BSD、Apache 2.0、ISCなど)
- 著者オプトアウトシステム:
https://huggingface.co/spaces/bigcode/in-the-stackで自分のGitHubユーザー名を検索して削除申請可能
11.2 The Stack v2 (2024)
- Software Heritage(パリ所在のコードアーカイブ)協力でより広範なコード収集
- イシュー討論、PRコメント、ノートブック、Gitコミットメッセージまで含む
- ライセンスメタデータをドキュメントごとに付与
from datasets import load_dataset
ds = load_dataset(
"bigcode/the-stack-v2",
"Python",
split="train",
streaming=True,
)
11.3 StarCoder Data
StarCoderはBigCodeがThe Stackから再精製して作ったコードLLM学習データ。80言語中心、約1兆トークン。StarCoder/StarCoder2モデルの学習に使用。
コードデータはLLMの**体系的推論(systematic reasoning)**能力を育てる — Anthropic、OpenAI、Googleすべてが「コードデータの比率を上げると非コードの推論も上がる」と報告した。
12章 · 韓国 — COYO-700M (Kakao Brain) / AI Hub / NIA / KAIST / Naver HyperCLOVA
12.1 COYO-700M (Kakao Brain, 2022)
COYO-700MはKakao Brainが公開した7億ペアのimage-textデータセット。LAION-400Mの韓国発カウンターパート。
- Common Crawl HTMLの
<img alt="...">ペアを収集 - CLIPスコアフィルタ + 美的スコアフィルタ
- LAION-400Mより大きい規模、Kakao独自のCLIP学習に使用
from datasets import load_dataset
ds = load_dataset("kakaobrain/coyo-700m", split="train")
12.2 AI Hub (NIA, 韓国情報化振興院)
AI Hub (aihub.or.kr)は韓国政府が運営するAI学習データポータル。テキスト、音声、映像、画像など数百種のデータセット。韓国語LLM学習の標準出所。
- 韓国語会話、韓国語翻訳、韓国語STT/TTS
- 医療、法律、金融特化の韓国語データ
- 使用時にNIA約款同意が必要(商用使用可能なものとそうでないものが混在)
12.3 NIAデータセット
**NIA(韓国知能情報社会振興院)**が主管するデータ構築事業。毎年新ドメインを追加し、2026年基準で1000以上のデータセット。
12.4 KAISTデータセット
KAIST金在哲AI大学院などで公開した韓国語学術データ:
- KLUE (Korean Language Understanding Evaluation, 8タスク)
- KoBEST (Korean Balanced Evaluation of Significant Tasks)
- KMMLU(韓国語MMLU)
12.5 Naver HyperCLOVAデータ
NaverのHyperCLOVA Xは独自にキュレーションした韓国語データで学習された。一部は非公開だが、KorQuAD、NSMC、Klueなどの公開分も豊富だ。
韓国語LLM(LG EXAONE、Naver HyperCLOVA、Solarなど)のデータレシピは大体**AI Hub + COYO + 独自クロール + mC4(ko) + OSCAR(ko)**の組み合わせだ。
13章 · 日本 — 国立情報学研究所 / NTT / ABEJA
13.1 国立情報学研究所 (NII)
NIIは日本の学術用データセットハブ。代表的なものは:
- NII Test Collection for IR Systems (NTCIR)
- 日本語Wikipediaライセンス整理版
- 学術論文コーパス(CiNii)
13.2 NTTデータ
NTTは日本最大の通信事業者で独自のLLM研究を行う。公開データは限定的だが:
- 日本語タスクのベンチマーク(JGLUEなど)
- ABCIスーパーコンピューターで学習したLLMのデータレシピ一部公開
13.3 ABEJA / Stockmark / CyberAgent
日本のAIスタートアップが公開した日本語LLMデータ:
- ABEJA: ABEJA-LLM 7B/13Bの学習データ一部公開
- Stockmark: ビジネスドメインの日本語コーパス
- CyberAgent: 広告/マーケティングの日本語コーパス
13.4 日本語データセット標準組み合わせ
日本語LLM学習でよく見るレシピ:
- mC4(ja) + OSCAR(ja) — Webベース
- 日本Wikipedia + パブリックドメイン書籍(青空文庫など)
- NII / NTCIR — 学術
- ABCIで開発された日本語コードコーパス
14章 · 画像-テキスト — LAION-5B / DataComp / ImageNet / CC12M / Open Images / COCO
14.1 LAION-5B (LAION, 2022)
LAION-5Bは58億ペアのimage-textデータセット。Common Crawlから<img alt="...">ペアを抽出してCLIPスコアでフィルタしたもの。Stable Diffusion学習のベース。
LAION著作権訴訟 (2023〜): Getty Imagesとアーティスト達がLAIONとそれを使ったモデルプロバイダー(Stability AIなど)を相手取って訴訟。2024年LAIONが一部データセットを削除(特に児童保護問題で一部ドキュメント)。2026年現在、LAIONの法的地位はグレーゾーン。
14.2 LAION-Aesthetics
LAION-AestheticsはLAION-5Bのうち美的スコアが高いもののみを選んだサブセット。Stable Diffusionの高品質生成段階の学習に使用。約1.2億ペア。
14.3 DataComp (2023〜)
DataCompはLAIONの代替として浮上したデータセット。Common Crawl 12.8Bペアから始まり、参加者が独自のフィルタ戦略でサブセットを作りモデル学習結果を比較するベンチマーク + データセットフレームワーク。
- DataComp-1B: 1Bペア(LAION-400M代替)
- すべてのデータ出所が明確
- 学術ライセンス、商用使用可能
from datasets import load_dataset
ds = load_dataset("mlfoundations/datacomp_1b", split="train")
14.4 ImageNet (2009〜)
ImageNetはコンピュータビジョンの古典。1400万画像、20K以上のクラス。ImageNet-1K(1000クラス、130万画像)が最も広く使われる。2026年もビジョンモデル評価の標準。
14.5 CC12M (Google, 2021)
**CC12M (Conceptual 12M)**は1200万image-textペア。Googleが公開。ALIGN、BASICなどビジョン-言語モデル学習に使用。
14.6 Open Images (Google, 2016〜)
Open Imagesは900万画像にオブジェクト検出/セグメンテーションラベルが付いたデータセット。600オブジェクトクラス。COCOより大きい。
14.7 COCO (Microsoft, 2014〜)
**COCO (Common Objects in Context)**は33万画像、80オブジェクトクラス、キャプション5つずつ。オブジェクト検出/セグメンテーション/キャプション生成の標準ベンチマーク。
14.8 マルチモーダル標準レシピ 2026
オープンビジョン-言語モデル(LLaVA、Idefics等)は通常:
- 事前学習: LAIONまたはDataCompの数億ペア
- インストラクションチューニング: COCOキャプション + ScienceQA + 独自キュレーション
- 評価: ImageNet、COCO、MMVet、MMMU
15章 · ロボティクス — Open X-Embodiment
**Open X-Embodiment (RT-X, 2023〜)**はGoogle DeepMind主導のロボット学習データセット。22ロボットプラットフォームから集めた100万以上のエピソード。
15.1 核心アイデア
それまでロボット学習データはロボットモデルごとに分離されていた。UR5のデータで学習したモデルはFrankaでは動かなかった。Open X-Embodimentは異なるロボットデータを統一フォーマット(RLDS, Reinforcement Learning Datasets)で統合した。
- 21研究機関協力(Stanford、CMU、Berkeley、Google、...)
- アクション空間統一(エンドエフェクター6DOF + グリッパー)
- 視覚観測統一(RGBカメラ + 一部depth)
15.2 RT-1, RT-2, RT-X
Open X-Embodimentで学習したRT-2-Xは、あるロボットで学習したスキルを別のロボットに移せることを初めて示した。ロボット学習の「ImageNetモーメント」。
import tensorflow_datasets as tfds
ds = tfds.load("bridge", split="train")
15.3 2026年状況
Open X-Embodiment v2 (2025)は60以上のロボットプラットフォーム、200万エピソード。Tesla Optimus、Figure 02のようなヒューマノイドデータも一部合流。
16章 · ライセンス + 倫理 — 著作権、オプトアウト、忘れられる権利
16.1 ライセンス対照表
| データセット | ライセンス | 商用使用 |
|---|---|---|
| Common Crawl | Public | 可能(各ページの元著作権は別) |
| RefinedWeb | ODC-By 1.0 | 可能 |
| RedPajama-V2 | Apache 2.0(コード)、データは出所別 | 部分的 |
| FineWeb / FineWeb-Edu | ODC-By 1.0 | 可能 |
| The Pile | MIT(コード)、データ一部問題(Books3削除) | 部分的 |
| Dolma | ODC-By 1.0 | 可能 |
| SlimPajama | Apache 2.0 | 可能 |
| The Stack v2 | ドキュメントごとの元ライセンス | 可能(オプトアウト遵守時) |
| LAION-5B | CC-BY 4.0(メタデータ) | 論争中 |
| DataComp | CC-BY 4.0 | 可能 |
| COYO-700M | CC-BY 4.0 | 可能 |
| Open X-Embodiment | Apache 2.0 | 可能 |
16.2 オプトアウトメカニズム
2026年に標準化されたオプトアウトシステム:
- robots.txt: クローラーが遵守すべき標準。
Disallow: /時にCommon Crawlから外れる。 - The Stackの「Am I in The Stack?」: 自分のGitHubユーザー名を検索 → 削除要請。
- HF「Have I been trained?」(haveibeentrained.com協力): 画像-テキストオプトアウト。
ai.txt: 一部ドメインが採用した新標準。AI学習許可有無を明示。
16.3 GDPRの忘れられる権利
EU GDPR第17条「削除要請権」がLLMに適用されるかは未解決問題だ。
- 事前学習データからは削除可能(ドキュメント単位)
- すでに学習されたモデル重みからは? — **機械学習解除(machine unlearning)**研究分野が浮上
- 2025〜2026年EU AI Actが部分施行され、一部データセット(LAIONなど)に影響
16.4 倫理的使用チェックリスト
新LLMを学習する時のデータ倫理チェックリスト:
- ライセンスが明示されたデータのみを使うか?
- オプトアウトを尊重するか?
- 個人情報(PII)フィルタリングをしたか?
- 有害コンテンツフィルタリングをしたか?
- データカード(Datasheet for Datasets)を公開したか?
- データガバナンス(誰がキュレーションに参加したか)を文書化したか?
エピローグ — データの時代
2026年LLM競争の真の重心はモデル重みではなくデータセットにある。誰がよりクリーンなトークンをより多く持っているか、誰がより多様なドメインをカバーするか、誰がライセンスリスクをより小さく負っているか — これが次世代モデルの結果を決める。
オープンソースデータセットはこの競争の平等化ツールだ。小さな研究室とスタートアップが巨大企業の非公開データに対抗できるほぼ唯一の道。FineWeb-Eduの登場で良質な1兆トークンが誰にでも開かれている。次は誰がそのトークンをどう使うかのゲームだ。
Garbage in, garbage out — Gold in, gold out.
データを真剣に扱うチームが次世代を率いる。
参考 / References
- Common Crawl — https://commoncrawl.org/
- RefinedWeb (Falcon) — https://huggingface.co/datasets/tiiuae/falcon-refinedweb
- RedPajama-V2 (Together AI) — https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2
- FineWeb (HF) — https://huggingface.co/datasets/HuggingFaceFW/fineweb
- FineWeb-Edu (HF) — https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
- The Pile (EleutherAI) — https://pile.eleuther.ai/
- Dolma (Allen AI) — https://huggingface.co/datasets/allenai/dolma
- SlimPajama (Cerebras) — https://huggingface.co/datasets/cerebras/SlimPajama-627B
- OSCAR (Inria) — https://oscar-project.org/
- C4 (Google) — https://www.tensorflow.org/datasets/catalog/c4
- mC4 (Google) — https://huggingface.co/datasets/mc4
- ROOTS (BigScience) — https://huggingface.co/bigscience-data
- CommonPile (a16z) — https://github.com/r-three/common-pile
- arXiv Bulk Access — https://info.arxiv.org/help/bulk_data_s3.html
- S2ORC (Allen AI) — https://github.com/allenai/s2orc
- Wikipedia Dumps — https://dumps.wikimedia.org/
- The Stack v2 (BigCode) — https://huggingface.co/datasets/bigcode/the-stack-v2
- StarCoder — https://huggingface.co/bigcode/starcoder
- COYO-700M (Kakao Brain) — https://huggingface.co/datasets/kakaobrain/coyo-700m
- AI Hub (NIA) — https://www.aihub.or.kr/
- KLUE — https://klue-benchmark.com/
- LAION-5B — https://laion.ai/blog/laion-5b/
- LAION-Aesthetics — https://laion.ai/blog/laion-aesthetics/
- DataComp — https://www.datacomp.ai/
- ImageNet — https://www.image-net.org/
- CC12M (Google) — https://github.com/google-research-datasets/conceptual-12m
- Open Images — https://storage.googleapis.com/openimages/web/index.html
- COCO — https://cocodataset.org/
- Open X-Embodiment — https://robotics-transformer-x.github.io/
- BigScience ROOTS — https://huggingface.co/spaces/bigscience/SourcingCatalog
- datatrove (HF) — https://github.com/huggingface/datatrove
- dolma toolkit (Allen AI) — https://github.com/allenai/dolma
- Datasheets for Datasets — https://arxiv.org/abs/1803.09010
- Am I in The Stack? — https://huggingface.co/spaces/bigcode/in-the-stack
- Have I Been Trained? — https://haveibeentrained.com/