Tools/ML 학습 데이터 탐색기

ML 학습 데이터 탐색기

ML Training Data Explorer

LLM, 음성인식, TTS, Vision, 비디오 생성 모델의 학습 데이터 예시를 확인하세요.

AI 모델 유형별 학습 데이터 형식과 구조를 살펴보세요

LLM 학습 데이터는 목적에 따라 여러 형식으로 구성됩니다. 가장 기본적인 형태는 prompt-completion 쌍이며, 고급 기법으로는 RLHF 데이터가 사용됩니다.

Prompt-Completion 쌍

{
  "prompt": "Q: What is the capital of France?",
  "completion": "A: Paris"
}

Instruction Tuning 데이터

{
  "instruction": "주어진 문장을 영어로 번역하세요.",
  "input": "오늘 날씨가 좋습니다.",
  "output": "The weather is nice today."
}

RLHF 데이터 (보상 모델 학습용)

{
  "prompt": "Python에서 리스트를 정렬하는 방법은?",
  "chosen": "sorted() 함수 또는 .sort() 메서드를 사용합니다.",
  "rejected": "정렬은 어렵습니다."
}

사전학습 텍스트 코퍼스

대규모 웹 크롤링, 위키백과, 도서 등에서 수집한 비구조화 텍스트. 레이블 없이 다음 토큰 예측(next-token prediction)으로 학습합니다.

핵심 개념

Tokenization — 텍스트를 토큰(서브워드) 단위로 분리하는 과정

SFT — Supervised Fine-Tuning, 지시문 기반 미세조정

RLHF — Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습