- Published on
LLM 논문 큐레이션 2024-2026 - Llama · DeepSeek · Qwen · Mistral · Phi · RLHF · DPO · CoT · RAG · FlashAttention · vLLM 심층 가이드
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 2026년, LLM 논문의 홍수 속에서 살아남기
2024년 1월부터 2026년 5월까지, arXiv cs.CL과 cs.LG에는 매주 평균 1,200편이 넘는 논문이 올라왔다. 이 중 LLM과 직접 관련된 것만 추려도 한 주 300편, 한 해 1만 5천 편 규모다. 한 사람이 다 읽는 것은 불가능하다.
그래서 2026년 현직 엔지니어가 던지는 질문은 단순하다. "오늘 만들고 있는 시스템에 직접 도움이 되는 30편은 어디에 있는가."
이 글은 그 30편 + 알파를 큐레이션한다. 기준은 셋이다.
- 재현 가능한가 — 코드와 가중치, 또는 충분한 디테일이 공개됐는가
- 현장에서 인용되는가 — 모델 카드, 벤치마크 리포트, 프로덕션 블로그에서 자주 인용되는가
- 2026년에도 유효한가 — 6개월 후 새 모델이 나와도 핵심 통찰이 살아남는가
한 줄 요약: "파운데이션 모델 리포트 → MoE/Attention 혁신 → RLHF/DPO 계열 → CoT/추론 → 에이전트/검색 → FlashAttention/서빙 → 평가/안전성" 이 순서로 읽으면 1주일에 LLM 풍경 전체가 잡힌다.
1장 · Llama 3 — 오픈웨이트의 새 기준선
Llama 3 / Llama 3.3 Technical Report (2024-07, arXiv:2407.21783)
Meta의 Llama 3는 8B·70B·405B 모델을 동시에 공개하면서, 사실상 2024년 오픈웨이트의 새 기준선이 됐다. 92쪽짜리 테크니컬 리포트는 데이터 큐레이션 파이프라인(15T 토큰), 스케일링 법칙 재검증, 포스트-트레이닝 레시피(SFT + DPO + Rejection Sampling), 인프라(16K H100 클러스터, 419회의 인터럽트, 가장 흔한 실패는 GPU + 메모리 + NIC 순)까지 전부 적었다. 이 리포트 한 편이 "현대 LLM을 어떻게 만드는가"에 대한 사실상의 교과서다. 8B 모델은 여전히 2026년에도 파인튜닝 베이스로 가장 많이 쓰인다.
Llama 3.3 70B는 같은 아키텍처에서 포스트-트레이닝만 강화해 GPT-4o 수준의 instruction following을 달성했다. Llama 4가 2025년 중반 멀티모달·MoE 구조로 공개되면서, "Llama가 곧 오픈 LLM 표준" 이라는 도식이 굳어졌다.
2장 · DeepSeek-V3와 R1 — MoE와 추론 RL의 정점
DeepSeek-V3 Technical Report (2024-12, arXiv:2412.19437)
671B 파라미터 MoE 모델을 14.8T 토큰으로 학습하는 데 들어간 비용이 H800 시간 기준 약 558만 달러. 이 한 줄이 업계를 흔들었다. 핵심 기술은 MLA(Multi-head Latent Attention) — KV cache를 1/10로 압축 — 와 DeepSeekMoE — 256개의 라우팅 expert + 1개의 공유 expert. Auxiliary-loss-free 부하 균형, FP8 학습, DualPipe 파이프라인 병렬화 같은 디테일이 후속 오픈 모델들의 표준이 됐다.
DeepSeek-R1 (2025-01, arXiv:2501.12948)
DeepSeek-R1은 V3 베이스에서 출발해 순수 RL만으로 o1-급 추론 능력을 발현시킨 사례다. GRPO(Group Relative Policy Optimization) 알고리즘이 핵심으로, PPO의 value network를 제거해 메모리를 절약했다. R1-Zero(SFT 없이 순수 RL)에서 모델이 스스로 "Wait, let me reconsider…" 같은 자기 검토 토큰을 생성하기 시작한 "aha moment" 보고는 2025년 가장 인용된 결과 중 하나다.
3장 · Qwen 시리즈 — 중국발 트라이링구얼 강자
Qwen2.5 Technical Report (2024-12, arXiv:2412.15115)와 Qwen3 Technical Report (2025-Q2)는 0.5B부터 72B까지 다양한 크기, 그리고 128K 컨텍스트 + 멀티모달 + 수학·코드 전용 변종을 동시에 공개한다. Qwen 시리즈는 한·중·일 언어 처리 에서 Llama를 능가하는 경우가 많고, Qwen2.5-Coder 32B는 오픈웨이트 코딩 모델 중 SWE-Bench 점수에서 한동안 1위를 지켰다. 2026년 한국·일본 스타트업이 자체 모델을 만들 때 가장 자주 베이스로 쓰는 후보다.
4장 · Mistral과 Mistral Large 2 — 유럽의 응답
Mistral 7B (2023-10, arXiv:2310.06825)는 sliding window attention과 grouped-query attention을 결합해 7B 사이즈로 Llama 2 13B를 이긴 첫 사례였다. 2024년 Mistral Large 2 (123B)와 2025년 Mistral Medium 3 가 Apache 2.0 또는 Mistral Research License로 공개되면서, 유럽발 오픈웨이트의 자리매김이 굳어졌다. Mixtral 8x7B, Mixtral 8x22B 의 sparse MoE는 DeepSeek 이전 MoE 표준이었고, Codestral 은 22B 코딩 전용으로 여전히 쓰인다.
5장 · Phi 시리즈 — "데이터의 질이 곧 모델의 질"
Phi-3 Technical Report (2024-04, arXiv:2404.14219)와 Phi-4 (2024-12, arXiv:2412.08905)는 Microsoft Research가 주도한 SLM(small language model) 흐름의 정점이다. 핵심 주장은 단순하다 — "textbook quality data" 로만 학습하면 3.8B 모델이 GPT-3.5를 이길 수 있다. Phi-4는 14B 사이즈로 GPQA와 MATH에서 Llama 3 70B를 따라잡았고, Phi-4-reasoning 은 o1-mini와 비슷한 추론 능력을 보여 SLM도 추론을 할 수 있다는 것을 증명했다.
6장 · Gemma 3와 Falcon 3 — 그 외의 오픈웨이트 진영
Gemma 3 Technical Report (2025-Q1)는 1B·4B·12B·27B 사이즈로, Gemini 2.0의 일부 기술(특히 attention 변종과 distillation)을 오픈웨이트로 가져왔다. 128K 컨텍스트와 멀티모달이 기본 탑재됐다.
Falcon 3 (TII, UAE)와 Command R+ (Cohere)는 각각 30B 이하 한국어·일본어가 약한 대신 영어·아랍어·다국어 RAG에 강점이 있다. Yi-Lightning(01.AI), GLM-4-9B(Zhipu)는 중국 외 시장에서 덜 알려졌지만 Chatbot Arena 상위권에 자주 든다.
7장 · 상용 모델 카드 — GPT-4, Claude 4.7, Gemini 2.5
상용 모델은 논문 대신 모델 카드(System Card) 가 정보원이다.
- GPT-4 Technical Report (2023, arXiv:2303.08774) — 아키텍처 세부는 비공개지만 평가 방법론과 안전성 절차의 기준선.
- OpenAI o1 System Card (2024-09) — 추론 모델의 첫 상용 사례. RL + CoT를 학습 시점에 통합.
- OpenAI o3 / o4 System Card (2025) — ARC-AGI에서 처음으로 인간 평균을 넘어선 모델.
- Anthropic Claude 4 / 4.5 / 4.7 Model Card — Constitutional AI 후속과 사이코판시 완화, 인용 기능, 컴퓨터 사용 등의 능력 카드.
- Google Gemini 1.5 / 2.0 / 2.5 Technical Report (arXiv:2403.05530) — 1M~10M 토큰 컨텍스트 + 네이티브 멀티모달.
상용 모델 카드는 "벤치마크 숫자"보다 "평가 방법론, 안전성 인터벤션, 한계 사례" 를 보려고 읽는다.
8장 · Mixture-of-Experts — Switch Transformer에서 DeepSeekMoE까지
MoE는 2021년 Switch Transformer (arXiv:2101.03961)로 다시 부각됐고, GShard, GLaM, ST-MoE 를 거쳐 2024년 DeepSeekMoE (arXiv:2401.06066)에서 한 단계 진화했다. 핵심은 두 가지 — fine-grained expert segmentation (전문가 수를 늘리고 각자를 작게) + shared expert isolation (공통 지식을 따로 처리). DeepSeek-V3가 256+1 expert를 쓴 이유다.
Mixtral of Experts (arXiv:2401.04088)는 8개 expert 중 top-2를 활성화하는 구조로, 가장 많이 인용된 sparse MoE 구현이다. OLMoE(Allen AI)는 학습 코드와 데이터 전체를 공개한 첫 MoE다.
9장 · Attention 혁신 — MLA, GQA, Sliding Window, Mamba
GQA: Grouped-Query Attention (arXiv:2305.13245) — 여러 query head가 KV head를 공유. Llama 2/3, Mistral, 거의 모든 현대 모델의 기본.
MLA: Multi-head Latent Attention (arXiv:2405.04434, DeepSeek-V2 논문) — KV cache를 저랭크로 압축. 동일 컨텍스트에서 메모리 80% 절약.
Sliding Window Attention — Longformer (arXiv:2004.05150)와 Mistral 7B가 사용. 로컬 윈도우 + 글로벌 토큰.
Mamba / Mamba-2 (arXiv:2312.00752, arXiv:2405.21060) — SSM(State Space Model) 기반. attention의 O(N²) 대신 O(N). 긴 컨텍스트에서 처리량이 압도적. 하이브리드(트랜스포머 + Mamba 블록)가 2025-2026년 실험적으로 등장 — Jamba(AI21), Zamba2(Zyphra).
RWKV-7 — attention 없이 RNN으로 트랜스포머를 따라잡으려는 시도. 모바일·임베디드 후보.
10장 · 추론 모델 계보 — CoT, ToT, Self-Consistency, GRPO
Chain-of-Thought Prompting (arXiv:2201.11903, Wei et al. 2022) — "Let's think step by step." 한 줄로 GSM8K 정확도가 2배 뛴다.
Self-Consistency (arXiv:2203.11171) — 여러 번 샘플링해서 다수결. 추론 task에서 단일 샘플 대비 +10~20%.
Tree-of-Thoughts (arXiv:2305.10601) — 사고 과정을 트리로 탐색. 게임 24, 창의 글쓰기에서 효과.
Reflexion (arXiv:2303.11366) — 실패한 시도를 텍스트 형태로 메모리에 남기고 다음 시도에서 참고.
OpenAI o1 (블로그, 2024-09) + DeepSeek-R1 GRPO — 학습 시점에 RL로 long CoT를 발현. 2026년 모든 frontier 모델이 "thinking" 모드를 탑재한 이유.
Inference-Time Scaling Laws (arXiv:2408.03314) — 모델 크기를 키우는 것보다 추론 시간을 늘리는 것이 더 효율적일 수 있다는 결과.
# 추론 시간 스케일링의 한 형태 — Best-of-N + verifier
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
tok = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
def best_of_n(prompt, n=16, verifier=None):
inputs = tok(prompt, return_tensors="pt")
candidates = []
for _ in range(n):
out = model.generate(
**inputs,
do_sample=True,
temperature=0.8,
max_new_tokens=512,
)
text = tok.decode(out[0], skip_special_tokens=True)
score = verifier(text) if verifier else len(text)
candidates.append((score, text))
return max(candidates, key=lambda x: x[0])[1]
11장 · RLHF의 계보 — InstructGPT, Constitutional AI, DPO
InstructGPT (arXiv:2203.02155, Ouyang et al. 2022) — RLHF의 사실상 기준 논문. PPO + 보상 모델 + KL 페널티의 3단계 레시피가 여기서 굳어졌다.
Constitutional AI (arXiv:2212.08073, Anthropic 2022) — 인간 선호 대신 AI가 작성한 헌장(constitution) 으로 자기 비평. RLAIF의 기원.
DPO: Direct Preference Optimization (arXiv:2305.18290, Rafailov et al. 2023) — 보상 모델 없이 선호 데이터로 직접 학습. PPO의 복잡도를 제거하면서 비슷한 성능. 2024년 이후 사실상 표준.
ORPO (arXiv:2403.07691) — SFT와 선호 학습을 한 손실 함수에 합침. 단일 단계 RLHF.
KTO: Kahneman-Tversky Optimization (arXiv:2402.01306) — 쌍(preferred, rejected) 대신 단일 라벨(good/bad)로도 학습 가능. 라벨링 비용 절감.
SimPO (arXiv:2405.14734) — DPO의 reference 모델 의존성 제거. 메모리 절약.
비교표는 단순하다.
| 알고리즘 | 보상 모델 | reference 모델 | 라벨 형태 |
|---|---|---|---|
| PPO (RLHF) | 필요 | 필요 | 쌍 |
| DPO | 불필요 | 필요 | 쌍 |
| ORPO | 불필요 | 불필요 | 쌍 + SFT |
| KTO | 불필요 | 필요 | 단일 |
| SimPO | 불필요 | 불필요 | 쌍 |
12장 · 에이전트 — ReAct, Voyager, SWE-Agent, OS-Atlas
ReAct (arXiv:2210.03629) — Reasoning + Acting을 인터리브. 거의 모든 LLM 에이전트 프레임워크의 기반.
Voyager (arXiv:2305.16291) — Minecraft에서 평생 학습(lifelong learning) 에이전트. 스킬 라이브러리를 자동 구축.
SWE-Agent (arXiv:2405.15793) — 인간이 쓰는 IDE 대신 agent-computer interface(ACI) 를 설계. SWE-Bench에서 GPT-4를 12.5% → 18.0%로 끌어올림.
OS-Atlas (arXiv:2410.23218) — GUI 에이전트를 위한 grounding 모델. 화면 캡처 → 좌표/액션.
Computer Use 서베이 — Anthropic Claude Computer Use(2024-10) 이후 본격적인 평가 벤치마크(OSWorld, arXiv:2404.07972)가 등장.
# ReAct 패턴의 최소 의사 코드
def react_agent(task, tools, llm, max_steps=10):
trajectory = [f"Task: {task}"]
for step in range(max_steps):
thought = llm(trajectory + ["Thought:"])
action = llm(trajectory + ["Action:"])
if action.startswith("Finish"):
return action
observation = tools.run(action)
trajectory.append(f"Thought: {thought}\nAction: {action}\nObservation: {observation}")
return "Max steps reached"
13장 · RAG의 계보 — 원조부터 GraphRAG까지
RAG (Retrieval-Augmented Generation) (arXiv:2005.11401, Lewis et al. 2020) — 검색 + 생성을 결합한 원조. open-domain QA의 표준.
FiD: Fusion-in-Decoder (arXiv:2007.01282) — 디코더에서 여러 passage를 융합. RAG보다 강력하지만 디코더 컨텍스트 비용 증가.
RETRO (arXiv:2112.04426, DeepMind) — 2T 토큰 데이터스토어를 모델 외부에 두고 chunk 단위 검색.
ColBERT / ColBERTv2 (arXiv:2004.12832) — late interaction. 토큰 레벨로 query-document 매칭, dense retrieval의 정확도 표준.
Self-RAG (arXiv:2310.11511) — 모델이 스스로 "검색이 필요한가" 를 판단하고 self-reflection 토큰을 생성.
GraphRAG (arXiv:2404.16130, Microsoft 2024) — 문서를 지식 그래프로 만들어 community summary 기반 검색. 글로벌 질문(요약, 트렌드)에 강함.
Contextual Retrieval (Anthropic 블로그, 2024-09) — chunk마다 컨텍스트 prefix를 prepend해 임베딩. 검색 실패율 49% → 35% 감소.
14장 · FlashAttention 1/2/3 — 메모리 계층의 재발견
FlashAttention (arXiv:2205.14135, Dao et al. 2022) — attention을 tiling으로 SRAM 안에서 처리. HBM I/O를 줄여 7.6배 가속.
FlashAttention-2 (arXiv:2307.08691) — 워크 분할을 재설계. 2x 속도. 대부분의 학습 코드가 여기로 이주.
FlashAttention-3 (arXiv:2407.08608) — Hopper(H100/H200)의 비동기 wgmma + TMA를 활용. FP16에서 75% MFU, FP8에서 1.2 PFLOPS.
# torch에서 FlashAttention 호출 — 2026년 표준
import torch
import torch.nn.functional as F
q = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
k = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
v = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
# PyTorch 2.x의 SDPA가 자동으로 FlashAttention 백엔드를 선택
with torch.backends.cuda.sdp_kernel(
enable_flash=True, enable_math=False, enable_mem_efficient=False
):
out = F.scaled_dot_product_attention(q, k, v, is_causal=True)
print(out.shape) # [2, 8, 4096, 128]
15장 · vLLM과 SGLang — 서빙 인프라의 표준
vLLM PagedAttention (arXiv:2309.06180, Kwon et al. 2023) — KV cache를 OS의 페이징처럼 관리. 메모리 fragmentation 90% → 4%로 감소. HuggingFace TGI, NVIDIA Triton보다 처리량 2-4배.
SGLang RadixAttention (arXiv:2312.07104) — KV cache를 라딕스 트리로 공유. 시스템 프롬프트가 겹치는 멀티턴 / few-shot에서 5배 빠름.
Mixture-of-Depths (arXiv:2404.02258, DeepMind 2024) — 토큰별로 트랜스포머 레이어를 동적으로 건너뜀. 같은 품질을 더 적은 FLOPS로.
Speculative Decoding (arXiv:2211.17192, Leviathan et al. 2022) — 작은 draft 모델로 여러 토큰을 미리 생성하고 큰 모델이 검증. 2-3x 가속이 기본.
# vLLM 표준 서빙 구성 — 2026년 프로덕션 패턴
docker run --gpus all -p 8000:8000 \
-v ~/models:/models \
vllm/vllm-openai:latest \
--model /models/Llama-3.3-70B-Instruct \
--tensor-parallel-size 4 \
--max-model-len 32768 \
--gpu-memory-utilization 0.92 \
--enable-prefix-caching \
--enable-chunked-prefill
16장 · 긴 컨텍스트 — RoPE, YaRN, LongLoRA
RoPE: Rotary Positional Embedding (arXiv:2104.09864) — Llama 계열의 위치 인코딩 표준.
YaRN (arXiv:2309.00071) — RoPE를 NTK-aware로 스케일링. 4K 학습 모델을 128K로 확장.
LongLoRA (arXiv:2309.12307) — sparse local attention + LoRA로 효율적 컨텍스트 확장.
RingAttention (arXiv:2310.01889) — 디바이스 간 KV를 링 토폴로지로 통신. 1M+ 컨텍스트를 학습 가능하게.
Activation Beacon (arXiv:2401.03462) — 컨텍스트를 beacon 토큰으로 압축. 효율적 검색.
Gemini 1.5 Pro의 1M 토큰, Gemini 2.5의 10M 토큰은 이런 기술들의 조합 위에 있다.
17장 · 코드 LLM — StarCoder, DeepSeek Coder, Codestral
StarCoder 2 (arXiv:2402.19173, BigCode 2024) — 619개 프로그래밍 언어, 4T+ 토큰. 가중치와 학습 데이터 전체 공개.
DeepSeek Coder V2 (arXiv:2406.11931) — 236B MoE, 활성 21B. HumanEval과 MBPP에서 GPT-4 Turbo와 동급. V3는 671B MoE로 더 강화됨.
Codestral (Mistral, 2024-05) — 22B + 80개 언어 + 32K 컨텍스트. IDE 통합용으로 자주 쓰임.
Code Llama (arXiv:2308.12950) — Llama 2 기반의 코드 변종. Code Llama 70B는 한때 오픈웨이트 코딩 1위였다.
Qwen2.5-Coder (32B) — Qwen 시리즈의 코딩 변종. SWE-Bench에서 한동안 오픈 1위.
18장 · 작은 모델 — SLM 르네상스
2024-2026년의 큰 흐름 하나는 "작아도 잘 한다" 이다.
- Phi-3.5 Mini (3.8B) — 모바일에서도 도는 강한 일반 모델.
- Gemma 2B / 3 1B — Edge용 1B 사이즈.
- Qwen2.5 3B / 7B — 다국어 SLM의 표준.
- Mistral 7B / Mistral Nemo 12B — 클래식 사이즈 표준.
- SmolLM2 (arXiv:2502.02737) — 360M·1.7B로 11T 토큰 학습. Hugging Face의 데이터 카탈로그(SmolLM-Corpus) 함께 공개.
- TinyLlama (arXiv:2401.02385) — 1.1B 모델을 3T 토큰으로 학습.
2026년 모바일·임베디드 LLM은 거의 이들을 베이스로 한다.
19장 · 평가 — MMLU, GSM8K, HumanEval부터 SWE-Bench, OSWorld까지
전통 벤치마크:
- MMLU (arXiv:2009.03300) — 57개 분야 다지선다.
- GSM8K (arXiv:2110.14168) — 초등 수학.
- MATH (arXiv:2103.03874) — 경시대회 수학.
- HumanEval (arXiv:2107.03374) — 코딩 함수 완성.
- BIG-Bench Hard (arXiv:2210.09261).
2024-2026 신세대:
- GPQA (arXiv:2311.12022) — 박사 수준 STEM.
- MMLU-Pro (arXiv:2406.01574) — MMLU의 답안 셔플 + 더 어려운 문제.
- ARC-AGI (Chollet) — 일반 지능 측정. o3가 처음 인간 평균 통과.
- SWE-Bench (arXiv:2310.06770) + SWE-Bench Verified — 실제 GitHub 이슈 해결.
- OSWorld (arXiv:2404.07972) — 컴퓨터 사용 에이전트.
- MMMU (arXiv:2311.16502) — 멀티모달 다지선다.
- LMSYS Chatbot Arena (arXiv:2403.04132) — 사람이 직접 비교 투표. ELO 형태.
2026년 frontier 모델은 GSM8K·HumanEval에서 포화 상태고, 의미 있는 지표는 SWE-Bench·OSWorld·GPQA·ARC-AGI로 옮겨갔다.
20장 · 주요 모델 비교표
| 모델 | 출시 | 크기 | MMLU | HumanEval | GSM8K | SWE-Bench |
|---|---|---|---|---|---|---|
| Llama 3.1 70B | 2024-07 | 70B | 86.0 | 80.5 | 95.1 | 31.2 |
| Llama 3.3 70B | 2024-12 | 70B | 86.9 | 88.4 | 96.5 | 41.4 |
| DeepSeek-V3 | 2024-12 | 671B MoE | 88.5 | 89.0 | 89.3 | 42.0 |
| DeepSeek-R1 | 2025-01 | 671B MoE | 91.2 | 96.3 | 97.3 | 49.2 |
| Qwen2.5-72B | 2024-09 | 72B | 86.1 | 86.6 | 95.8 | 36.0 |
| Mistral Large 2 | 2024-07 | 123B | 84.0 | 92.0 | 93.0 | 32.0 |
| Phi-4 | 2024-12 | 14B | 84.8 | 82.6 | 80.4 | - |
| Gemma 3 27B | 2025-Q1 | 27B | 81.0 | 79.8 | 89.2 | 28.5 |
| GPT-4o | 2024-05 | ? | 88.7 | 90.2 | 95.8 | 33.2 |
| Claude 4.7 | 2026 | ? | 90.1 | 96.3 | 96.4 | 65+ |
| Gemini 2.5 Pro | 2025 | ? | 89.8 | 92.0 | 95.4 | 51.0 |
숫자는 각 모델 카드의 자체 보고치 또는 LMSYS/Open LLM Leaderboard 평균. 비교 자체보다는 "한 세대마다 어디가 포화되고 어디가 남았는가" 를 본다.
21장 · 안전성과 정렬 — Constitutional AI, Sycophancy, Refusal
Constitutional AI (arXiv:2212.08073)는 RLHF에서 인간 라벨을 줄이고 모델 자기 비평으로 대체하는 방향을 열었다.
Discovering Language Model Behaviors with Model-Written Evaluations (arXiv:2212.09251) — sycophancy(아첨)와 같은 미묘한 정렬 실패를 모델 자체로 측정.
Universal and Transferable Adversarial Attacks on Aligned Language Models (arXiv:2307.15043, GCG attack) — 추가 토큰으로 정렬을 깰 수 있음을 체계적으로 증명.
Jailbreak Survey (arXiv:2402.13457) — 2024년까지의 jailbreak 분류.
Sleeper Agents (arXiv:2401.05566, Anthropic) — 학습 시 백도어를 심으면 safety training으로 제거되지 않는다는 결과. 정렬의 한계를 보여준 중요 논문.
Tamper-Resistant Safeguards (arXiv:2408.00761) — 오픈웨이트 모델에서 안전성을 추가 파인튜닝으로도 깨지지 않게 하려는 시도.
22장 · 한국 모델 — HyperCLOVA X, EXAONE 3.5, Kanana
HyperCLOVA X Technical Report (arXiv:2404.01954, Naver 2024) — 한국어 + 영어 이중언어 + 한국 문화·법률·의료 도메인 평가셋(KoBigBench, KMMLU) 동반 공개. 한국어 LLM의 사실상 기준 리포트.
EXAONE 3.5 (LG AI Research, 2024-12) — 2.4B·7.8B·32B. 영어·한국어 이중언어, 32K 컨텍스트. Apache 2.0이 아닌 EXAONE AI Model License지만 연구 목적 사용 가능.
Kanana (Kakao, 2025) — 2B·8B·32B. 한국어 + 영어. 카카오톡 내부 LLM 백본.
KORAi / KORani / KoGPT / Polyglot-Ko — 그 전 세대의 한국어 모델들. 2025년부터는 위 셋이 사실상 메이저.
KMMLU (arXiv:2402.11548) — 한국어 MMLU. 한국 모델 평가의 기본.
23장 · 일본 모델 — Sakana, Stockmark, Swallow, PLaMo
Sakana AI Evolutionary Optimization of Model Merging Recipes (arXiv:2403.13187) — 진화 알고리즘으로 다국어 모델을 자동 머지. EvoLLM-JP가 출시되며 일본어 LLM의 새 방향 제시.
Stockmark-100b (Stockmark, 2024) — 100B 일본어·영어 이중언어 모델. 일본 비즈니스 도메인 코퍼스 사용.
Swallow (Tokyo Tech, arXiv:2404.17790) — Llama 2/3를 일본어 코퍼스로 continual pretraining.
PLaMo 2 / 100B (Preferred Networks) — 일본어 + 영어 + 코드. PFN의 자체 학습 코퍼스.
NEC cotomi — 일본어 비즈니스 도메인 LLM. 130B와 7B 변종.
Rakuten AI 7B, Karasu, Stable LM Japanese 등 7B 사이즈 일본어 모델도 다수.
JGLUE / Japanese MT-Bench — 일본어 평가 표준.
24장 · 데이터 — Dolma, RedPajama, FineWeb
오픈 학습 데이터셋 3대장.
- Dolma (arXiv:2402.00159, AI2) — 3T 토큰. OLMo 학습에 사용.
- RedPajama-Data-v2 (Together AI, 2023-10) — 30T 토큰. 다국어 + 영어.
- FineWeb (arXiv:2406.17557, HuggingFace) — 15T 토큰 + FineWeb-Edu 1.3T 토큰 변종.
The Pile (arXiv:2101.00027, EleutherAI) — 2021년의 800GB. 오픈 LLM의 시작점이었던 데이터.
Common Crawl과 그 위의 정제 파이프라인(CCNet, DataComp-LM, TxT360, Nemotron-CC)이 2026년 오픈 데이터 합리화의 표준.
25장 · 멀티모달 — LLaVA, CogVLM, Qwen-VL, Pixtral
LLaVA (arXiv:2304.08485, 2023) — Vicuna + CLIP visual encoder + projection. 오픈 멀티모달의 시작.
LLaVA-1.5 / LLaVA-NeXT — 해상도 처리와 멀티턴 강화.
Qwen-VL / Qwen2-VL (arXiv:2308.12966, arXiv:2409.12191) — 임의 해상도, 다국어 OCR. Qwen2.5-VL은 비디오까지.
Pixtral 12B (Mistral, 2024-09) — Pixtral의 vision encoder는 임의 해상도 패치.
Idefics 3 (HuggingFace) — 오픈 데이터 + 오픈 가중치 멀티모달.
Molmo (AI2, arXiv:2409.17146) — 포인팅(좌표 가리키기)을 학습 task로. 에이전트와 호환성 강.
26장 · 읽기 순서 — 2026년 엔지니어를 위한 30편 큐레이션
다 읽을 시간이 없다면 이 순서로:
- Llama 3 Technical Report — 현대 LLM 제작의 전체 그림.
- DeepSeek-V3 Technical Report — 비용 효율 학습의 정점.
- DeepSeek-R1 — RL 기반 추론.
- Mixtral of Experts — MoE 표준.
- DeepSeekMoE — fine-grained MoE.
- GQA + MLA — attention 효율의 두 축.
- FlashAttention-2 — 학습 가속 표준.
- vLLM PagedAttention — 서빙 표준.
- SGLang RadixAttention — 캐시 공유.
- CoT Prompting — 추론의 출발점.
- DPO — 포스트-트레이닝 표준.
- Constitutional AI — RLAIF의 기원.
- ReAct — 에이전트의 출발점.
- SWE-Agent — 코드 에이전트 표준.
- OSWorld — 컴퓨터 사용 평가.
- RAG 원조 — 검색 결합의 시작.
- ColBERTv2 — dense retrieval 정확도.
- GraphRAG — 글로벌 RAG.
- Self-RAG — 자기 검색.
- YaRN — RoPE 스케일링.
- RingAttention — 긴 컨텍스트 학습.
- Speculative Decoding — 디코딩 가속.
- Phi-3 / Phi-4 — SLM 르네상스.
- SmolLM2 — 오픈 SLM 데이터.
- MMLU + GPQA — 평가 기준.
- SWE-Bench Verified — 코드 평가.
- LMSYS Chatbot Arena — 사람 선호.
- Sleeper Agents — 정렬의 한계.
- HyperCLOVA X — 한국어 LLM 기준.
- Sakana EvoLLM — 모델 머지.
이 순서로 한 주 한 편씩 30주, 또는 빠르게 30일이면 2026년 LLM 풍경이 전부 머리에 들어온다.
References
- arxiv.org — https://arxiv.org/
- Llama 3 Technical Report — https://arxiv.org/abs/2407.21783
- DeepSeek-V3 Technical Report — https://arxiv.org/abs/2412.19437
- DeepSeek-R1 — https://arxiv.org/abs/2501.12948
- Qwen2.5 Technical Report — https://arxiv.org/abs/2412.15115
- Mistral 7B — https://arxiv.org/abs/2310.06825
- Mixtral of Experts — https://arxiv.org/abs/2401.04088
- Phi-3 Technical Report — https://arxiv.org/abs/2404.14219
- Phi-4 — https://arxiv.org/abs/2412.08905
- Gemini 1.5 — https://arxiv.org/abs/2403.05530
- Switch Transformer — https://arxiv.org/abs/2101.03961
- DeepSeekMoE — https://arxiv.org/abs/2401.06066
- GQA — https://arxiv.org/abs/2305.13245
- MLA / DeepSeek-V2 — https://arxiv.org/abs/2405.04434
- Mamba — https://arxiv.org/abs/2312.00752
- Mamba-2 — https://arxiv.org/abs/2405.21060
- Chain-of-Thought — https://arxiv.org/abs/2201.11903
- Self-Consistency — https://arxiv.org/abs/2203.11171
- Tree-of-Thoughts — https://arxiv.org/abs/2305.10601
- Inference-Time Scaling — https://arxiv.org/abs/2408.03314
- InstructGPT — https://arxiv.org/abs/2203.02155
- Constitutional AI — https://arxiv.org/abs/2212.08073
- DPO — https://arxiv.org/abs/2305.18290
- ORPO — https://arxiv.org/abs/2403.07691
- KTO — https://arxiv.org/abs/2402.01306
- SimPO — https://arxiv.org/abs/2405.14734
- ReAct — https://arxiv.org/abs/2210.03629
- Voyager — https://arxiv.org/abs/2305.16291
- SWE-Agent — https://arxiv.org/abs/2405.15793
- OS-Atlas — https://arxiv.org/abs/2410.23218
- OSWorld — https://arxiv.org/abs/2404.07972
- RAG — https://arxiv.org/abs/2005.11401
- FiD — https://arxiv.org/abs/2007.01282
- RETRO — https://arxiv.org/abs/2112.04426
- ColBERT — https://arxiv.org/abs/2004.12832
- Self-RAG — https://arxiv.org/abs/2310.11511
- GraphRAG — https://arxiv.org/abs/2404.16130
- FlashAttention — https://arxiv.org/abs/2205.14135
- FlashAttention-2 — https://arxiv.org/abs/2307.08691
- FlashAttention-3 — https://arxiv.org/abs/2407.08608
- vLLM PagedAttention — https://arxiv.org/abs/2309.06180
- SGLang — https://arxiv.org/abs/2312.07104
- Speculative Decoding — https://arxiv.org/abs/2211.17192
- Mixture-of-Depths — https://arxiv.org/abs/2404.02258
- RoPE — https://arxiv.org/abs/2104.09864
- YaRN — https://arxiv.org/abs/2309.00071
- LongLoRA — https://arxiv.org/abs/2309.12307
- RingAttention — https://arxiv.org/abs/2310.01889
- Activation Beacon — https://arxiv.org/abs/2401.03462
- StarCoder 2 — https://arxiv.org/abs/2402.19173
- DeepSeek Coder V2 — https://arxiv.org/abs/2406.11931
- Code Llama — https://arxiv.org/abs/2308.12950
- MMLU — https://arxiv.org/abs/2009.03300
- GSM8K — https://arxiv.org/abs/2110.14168
- MATH — https://arxiv.org/abs/2103.03874
- HumanEval — https://arxiv.org/abs/2107.03374
- GPQA — https://arxiv.org/abs/2311.12022
- SWE-Bench — https://arxiv.org/abs/2310.06770
- MMMU — https://arxiv.org/abs/2311.16502
- LMSYS Chatbot Arena — https://arxiv.org/abs/2403.04132
- HyperCLOVA X — https://arxiv.org/abs/2404.01954
- KMMLU — https://arxiv.org/abs/2402.11548
- Sakana EvoLLM — https://arxiv.org/abs/2403.13187
- Swallow — https://arxiv.org/abs/2404.17790
- Sleeper Agents — https://arxiv.org/abs/2401.05566
- HuggingFace — https://huggingface.co/
- Meta AI Research — https://ai.meta.com/research/
- DeepSeek — https://www.deepseek.com/
- Qwen — https://qwenlm.github.io/
- Mistral AI — https://mistral.ai/news/
- OpenAI Research — https://openai.com/research/
- Anthropic Research — https://www.anthropic.com/research
- Google DeepMind Research — https://deepmind.google/research/
- vLLM — https://github.com/vllm-project/vllm
- SGLang — https://github.com/sgl-project/sglang