LLM 학습 데이터 제작의 모든 것! Hugging Face 데이터셋(종류/로딩/변환), 한국어 데이터 수집(크롤링/합성/번역), 전처리(토크나이징/정제/중복제거), Instruction Tuning 포맷(Alpaca/ShareGPT/OpenAI), 품질 관리, RLHF/DPO 데이터셋.
HuggingFace 트렌딩 논문 TOP 10과 2025년 AI 연구 10대 트렌드를 개발자 관점에서 리뷰합니다. DeepSeek-R1의 순수 RL 추론, Nemotron-Cascade 30B/3B MoE, GRPO, vLLM PagedAttention, 100만 토큰 컨텍스트의 한계, 비디오 생성 벤치마크까지.