Fineweb-edu

Published on
2026년 5월 16일
오픈소스 AI 학습 데이터셋 2026 — Common Crawl / FineWeb (HF) / RedPajama-V2 / Dolma / SlimPajama / The Stack v2 / LAION / COYO-700M (Kakao) 심층 가이드
ai-datasets training-data common-crawl refinedweb redpajama fineweb fineweb-edu the-pile dolma slimpajama oscar c4 mc4 commonpile roots openwebtext arxiv s2orc the-stack-v2 starcoder coyo-700m kakao-brain laion-5b laion-aesthetics datacomp imagenet cc12m open-images coco open-x-embodiment deep-dive
2026년 오픈소스 AI 학습 데이터셋의 전체 지도를 그린다. 모든 LLM의 토대인 Common Crawl, 그것을 정제한 RefinedWeb / RedPajama-V2 / FineWeb / FineWeb-Edu / Dolma / SlimPajama, 학술용 The Pile / S2ORC / arXiv, 코드용 The Stack v2 / StarCoder, 멀티모달 LAION-5B / DataComp / COYO-700M, 그리고 한국·일본 데이터셋(AI Hub, NIA, KAIST, HyperCLOVA, NII, NTT, ABEJA)과 로보틱스 Open X-Embodiment까지 — 라이선스, 윤리, 옵트아웃 권리를 포함한 실무자용 심층 가이드.

오픈소스 AI 학습 데이터셋 2026 — Common Crawl / FineWeb (HF) / RedPajama-V2 / Dolma / SlimPajama / The Stack v2 / LAION / COYO-700M (Kakao) 심층 가이드