- Published on
2026년 오픈소스 AI 학습 데이터셋의 전체 지도를 그린다. 모든 LLM의 토대인 Common Crawl, 그것을 정제한 RefinedWeb / RedPajama-V2 / FineWeb / FineWeb-Edu / Dolma / SlimPajama, 학술용 The Pile / S2ORC / arXiv, 코드용 The Stack v2 / StarCoder, 멀티모달 LAION-5B / DataComp / COYO-700M, 그리고 한국·일본 데이터셋(AI Hub, NIA, KAIST, HyperCLOVA, NII, NTT, ABEJA)과 로보틱스 Open X-Embodiment까지 — 라이선스, 윤리, 옵트아웃 권리를 포함한 실무자용 심층 가이드.