Dpo

All Posts

Published on
2026년 5월 16일
AI 안전 & 얼라인먼트 2026 완벽 가이드 - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team 심층 분석
ai-safety ai-alignment constitutional-ai rlhf dpo grpo mechanistic-interpretability aisi red-team evals
2026년 AI 안전과 얼라인먼트의 전체 지형을 한 번에 정리한다. outer/inner alignment와 mesa-optimization 같은 개념적 토대부터 RLHF·DPO·GRPO·Constitutional AI로 이어지는 학습 정렬 기법, Anthropic RSP와 OpenAI Preparedness Framework, Google DeepMind Frontier Safety Framework 같은 프런티어 정책, Mechanistic Interpretability와 Sparse Autoencoder, MMLU·GPQA·SWE-bench·METR 같은 능력 평가와 Apollo Research scheming evals 같은 안전 평가, AISI(영·미·한·일)와 Bletchley·Seoul·Paris 정상회담, Red Teaming과 GCG·PAIR·AutoDAN 같은 jailbreak·Llama Guard·NeMo Guardrails·Constitutional Classifiers 같은 방어, EU AI Act·Korean AI Basic Act·METI 가이드라인까지 — 24개 챕터로 펼친다.
Published on
2026년 5월 16일
LLM 파인튜닝 2026 완벽 가이드 - LoRA · QLoRA · DoRA · GaLore · Unsloth · Axolotl · TRL · PEFT · MLX-LM 심층 분석
llm-fine-tuning lora qlora dora galore unsloth axolotl trl peft mlx sft dpo 2026 deep-dive
2026년 LLM 파인튜닝 생태계는 LoRA의 단순한 어댑터에서 출발해 QLoRA의 4비트, DoRA의 분해, GaLore의 그라디언트 프로젝션까지 5년 만에 거대한 가지를 펼쳤다. Hugging Face의 PEFT 0.14와 TRL 0.13이 표준 인터페이스를 잡았고, Unsloth가 2배 빠른 학습으로 단일 GPU 시장을 흔들었으며, Axolotl과 LLaMA-Factory가 YAML로 파인튜닝을 민주화했다. Apple MLX-LM은 M 시리즈 노트북에서 7B 모델을 파인튜닝하는 시대를 열었다. 이 글은 그 전체 지도를 그린다 — 알고리즘, 도구, 데이터셋, 하드웨어, 클라우드, 그리고 한국·일본 모델 사례까지.
Published on
2026년 5월 16일
LLM 파인튜닝 프레임워크 2026 — Axolotl / Unsloth / LLaMA-Factory / TRL / PEFT / TorchTune 심층 가이드
llm finetuning axolotl unsloth llama-factory trl peft torchtune mosaicml llm-foundry modal dpo grpo kto qlora fsdp deepspeed 2026 deep-dive
2026년 LLM 파인튜닝 생태계를 한 번에 정리한다. Axolotl·Unsloth·LLaMA-Factory·TRL·PEFT·TorchTune 같은 오픈소스 프레임워크부터 LLM Foundry(MosaicML, Databricks 인수), Modal·Together·OpenAI·Anthropic·Cohere의 클라우드 파인튜닝 API까지. QLoRA·FSDP·DeepSpeed Zero 같은 분산 학습 기법, DPO·GRPO(DeepSeek R1)·KTO(Kahneman-Tversky)·IPO 같은 선호 최적화 알고리즘, 그리고 한국(Upstage·KT·LG AI)·일본(Sakana·Stockmark·ELYZA·PFN)의 사례까지. 1인 개발자·학술 연구자·스타트업·엔터프라이즈 각각이 무엇을 골라야 하는지 결정 가이드도 포함한다.
Published on
2026년 5월 16일
LLM 논문 큐레이션 2024-2026 - Llama · DeepSeek · Qwen · Mistral · Phi · RLHF · DPO · CoT · RAG · FlashAttention · vLLM 심층 가이드
llm papers llama deepseek qwen mistral phi rlhf dpo chain-of-thought rag flashattention vllm foundation-models mixture-of-experts
LLM을 만들고 운영하는 엔지니어를 위한 2024-2026 필독 논문 30+편 큐레이션. 파운데이션 모델(Llama 3/4, DeepSeek-V3/R1, Qwen3, Mistral, Phi-4, Gemma 3), 학습 혁신(MoE, MLA, GQA), 포스트-트레이닝(RLHF, DPO, ORPO, KTO), 추론(CoT, ToT, GRPO), 에이전트(ReAct, SWE-Agent), 검색(RAG, GraphRAG, ColBERT), 효율(FlashAttention 1/2/3, vLLM PagedAttention, SGLang), 평가(MMLU, GSM8K, SWE-Bench, OSWorld), 안전성, 한국·일본 모델까지 — 각 논문의 arXiv ID와 "왜 중요한지"를 한 단락으로 정리.
Published on
2026년 4월 15일
AI 엔지니어링 실전 — LLM API, RAG, 에이전트, LoRA/DPO, 벡터 DB, 평가, 관측, Prompt Injection 완전 가이드 (2025)
ai-engineering llm rag agent lora dpo vector-database embeddings evaluation observability prompt-injection langgraph
LLM API 프로덕션 호출의 진짜 어려움, RAG가 단순 조회가 아닌 이유, 에이전트 패턴(ReAct/Plan-Execute/ReWOO), 파인튜닝 언제/언제 하지 말까(LoRA/QLoRA/DPO), 벡터 DB 선택 매트릭스, LLM 평가의 근본적 어려움, 비용 최적화, Prompt Injection 방어까지. 데모가 아닌 '진짜 프로덕션' AI 앱을 만드는 법.
Published on
2026년 4월 15일
Fine-tuning 완전 가이드: SFT, DPO, LoRA/QLoRA, 합성 데이터, 한국어 모델 (2025)
fine-tuning llm ai lora qlora dpo synthetic-data deep-dive series
"Fine-tuning은 죽었다"는 소리도, "RAG로 다 된다"는 소리도 반쯤만 맞다. 2025년 시점에서 SFT/DPO/RLHF의 지형, LoRA·QLoRA로 가볍게 튜닝하는 실전, 합성 데이터 파이프라인, 한국어 모델(Solar, Qwen, Llama) 파인튜닝, 그리고 Fine-tune vs RAG vs Prompt의 경계선을 한 글로 정리합니다.
Published on
2026년 4월 15일
LLM 완전 가이드 — Transformer·Attention·RLHF·RAG·Agent·Evaluation (Season 2 Ep 6, 2025)
llm transformer attention rlhf dpo rag agent evaluation ai-engineering reasoning-models season-2
LLM을 "프롬프트에 답하는 블랙박스"로만 쓰면 임계점에서 막힌다. Transformer의 Attention이 실제로 어떻게 토큰 관계를 계산하는지, Pre-training → SFT → RLHF → DPO 파이프라인이 왜 이 순서로 설계됐는지, RAG 1/2/3세대의 차이와 Agentic RAG의 본질, Agent 설계(ReAct, Plan-and-Execute, Multi-Agent)의 근본 패턴, 그리고 LLM 평가가 왜 미해결 문제인지까지 — 블랙박스를 뜯어보는 한 편. Season 2의 여섯 번째, 2025년 엔지니어의 필수 교양.
Published on
2026년 3월 17일
강화학습 완전 정복: DQN, PPO부터 RLHF, DPO까지 LLM 정렬까지
강화학습 PPO DQN RLHF DPO LLM정렬 2026-03 2026-03-17
MDP 기초부터 DQN, PPO, SAC, RLHF, DPO까지. LLM 정렬에 사용되는 강화학습 기법을 PyTorch Stable-Baselines3 코드와 함께 완전 정복합니다.
Published on
2026년 3월 17일
LLM 파인튜닝 완전 가이드: LoRA, QLoRA, RLHF, DPO 마스터하기
llm fine-tuning lora qlora rlhf dpo peft 2026-03 2026-03-17
LLM 파인튜닝의 모든 기법을 다루는 완전 가이드. Full Fine-tuning부터 LoRA, QLoRA, RLHF, DPO, Instruction Tuning까지 HuggingFace PEFT와 함께 실전 예제로 마스터합니다.
Published on
2026년 3월 13일
RLHF에서 DPO까지: LLM 정렬(Alignment) 기술 논문 심층 분석
ai-papers rlhf dpo alignment ppo constitutional-ai llm
LLM 정렬 기술의 핵심 논문들을 심층 분석합니다. InstructGPT의 RLHF 파이프라인, Anthropic의 Constitutional AI, DPO의 수학적 기반, PPO 학습 안정성, 그리고 KTO/IPO/ORPO 등 최신 연구까지 체계적으로 비교하고 실무 적용 방안을 정리합니다.
Published on
2026년 3월 9일
DPO(Direct Preference Optimization) 논문 심층 분석 — RLHF 없이 LLM 정렬하기
ai-papers dpo rlhf llm-alignment preference-optimization 2026-03 2026-03-09
DPO의 수학적 원리부터 구현, RLHF와의 비교, IPO/KTO/ORPO 변형까지 — LLM 선호도 최적화의 핵심을 실무 관점에서 심층 분석합니다.
Published on
2026년 3월 5일
DPO에서 KTO까지: 인간 피드백 정렬 기법 최신 논문 리뷰와 실전 구현
ai-papers dpo kto alignment 2026-03 2026-03-05
RLHF의 한계를 극복한 DPO, IPO, KTO 등 최신 인간 피드백 정렬 기법의 논문 리뷰와 TRL 기반 실전 구현 가이드. 알고리즘 비교, 하이퍼파라미터 튜닝, 실패 사례까지.

Dpo

dpo (12)