필사 모드: LLM 논문 큐레이션 2024-2026 - Llama · DeepSeek · Qwen · Mistral · Phi · RLHF · DPO · CoT · RAG · FlashAttention · vLLM 심층 가이드
한국어프롤로그 — 2026년, LLM 논문의 홍수 속에서 살아남기
2024년 1월부터 2026년 5월까지, arXiv `cs.CL`과 `cs.LG`에는 매주 평균 1,200편이 넘는 논문이 올라왔다. 이 중 LLM과 직접 관련된 것만 추려도 한 주 300편, 한 해 1만 5천 편 규모다. 한 사람이 다 읽는 것은 불가능하다.
그래서 2026년 현직 엔지니어가 던지는 질문은 단순하다. **"오늘 만들고 있는 시스템에 직접 도움이 되는 30편은 어디에 있는가."**
이 글은 그 30편 + 알파를 큐레이션한다. 기준은 셋이다.
- **재현 가능한가** — 코드와 가중치, 또는 충분한 디테일이 공개됐는가
- **현장에서 인용되는가** — 모델 카드, 벤치마크 리포트, 프로덕션 블로그에서 자주 인용되는가
- **2026년에도 유효한가** — 6개월 후 새 모델이 나와도 핵심 통찰이 살아남는가
> 한 줄 요약: **"파운데이션 모델 리포트 → MoE/Attention 혁신 → RLHF/DPO 계열 → CoT/추론 → 에이전트/검색 → FlashAttention/서빙 → 평가/안전성"** 이 순서로 읽으면 1주일에 LLM 풍경 전체가 잡힌다.
1장 · Llama 3 — 오픈웨이트의 새 기준선
**Llama 3 / Llama 3.3 Technical Report** (2024-07, [arXiv:2407.21783](https://arxiv.org/abs/2407.21783))
Meta의 Llama 3는 8B·70B·405B 모델을 동시에 공개하면서, 사실상 2024년 오픈웨이트의 새 기준선이 됐다. 92쪽짜리 테크니컬 리포트는 **데이터 큐레이션 파이프라인**(15T 토큰), **스케일링 법칙 재검증**, **포스트-트레이닝 레시피**(SFT + DPO + Rejection Sampling), **인프라**(16K H100 클러스터, 419회의 인터럽트, 가장 흔한 실패는 GPU + 메모리 + NIC 순)까지 전부 적었다. 이 리포트 한 편이 "현대 LLM을 어떻게 만드는가"에 대한 사실상의 교과서다. 8B 모델은 여전히 2026년에도 파인튜닝 베이스로 가장 많이 쓰인다.
Llama 3.3 70B는 같은 아키텍처에서 포스트-트레이닝만 강화해 GPT-4o 수준의 instruction following을 달성했다. Llama 4가 2025년 중반 멀티모달·MoE 구조로 공개되면서, "Llama가 곧 오픈 LLM 표준" 이라는 도식이 굳어졌다.
2장 · DeepSeek-V3와 R1 — MoE와 추론 RL의 정점
**DeepSeek-V3 Technical Report** (2024-12, [arXiv:2412.19437](https://arxiv.org/abs/2412.19437))
671B 파라미터 MoE 모델을 14.8T 토큰으로 학습하는 데 들어간 비용이 H800 시간 기준 약 558만 달러. 이 한 줄이 업계를 흔들었다. 핵심 기술은 **MLA(Multi-head Latent Attention)** — KV cache를 1/10로 압축 — 와 **DeepSeekMoE** — 256개의 라우팅 expert + 1개의 공유 expert. **Auxiliary-loss-free 부하 균형**, **FP8 학습**, **DualPipe 파이프라인 병렬화** 같은 디테일이 후속 오픈 모델들의 표준이 됐다.
**DeepSeek-R1** (2025-01, [arXiv:2501.12948](https://arxiv.org/abs/2501.12948))
DeepSeek-R1은 V3 베이스에서 출발해 **순수 RL만으로** o1-급 추론 능력을 발현시킨 사례다. **GRPO(Group Relative Policy Optimization)** 알고리즘이 핵심으로, PPO의 value network를 제거해 메모리를 절약했다. R1-Zero(SFT 없이 순수 RL)에서 모델이 스스로 "Wait, let me reconsider…" 같은 자기 검토 토큰을 생성하기 시작한 "aha moment" 보고는 2025년 가장 인용된 결과 중 하나다.
3장 · Qwen 시리즈 — 중국발 트라이링구얼 강자
**Qwen2.5 Technical Report** (2024-12, [arXiv:2412.15115](https://arxiv.org/abs/2412.15115))와 **Qwen3 Technical Report** (2025-Q2)는 0.5B부터 72B까지 다양한 크기, 그리고 128K 컨텍스트 + 멀티모달 + 수학·코드 전용 변종을 동시에 공개한다. Qwen 시리즈는 **한·중·일 언어 처리** 에서 Llama를 능가하는 경우가 많고, Qwen2.5-Coder 32B는 오픈웨이트 코딩 모델 중 SWE-Bench 점수에서 한동안 1위를 지켰다. 2026년 한국·일본 스타트업이 자체 모델을 만들 때 가장 자주 베이스로 쓰는 후보다.
4장 · Mistral과 Mistral Large 2 — 유럽의 응답
**Mistral 7B** (2023-10, [arXiv:2310.06825](https://arxiv.org/abs/2310.06825))는 sliding window attention과 grouped-query attention을 결합해 7B 사이즈로 Llama 2 13B를 이긴 첫 사례였다. 2024년 **Mistral Large 2** (123B)와 2025년 **Mistral Medium 3** 가 Apache 2.0 또는 Mistral Research License로 공개되면서, 유럽발 오픈웨이트의 자리매김이 굳어졌다. **Mixtral 8x7B**, **Mixtral 8x22B** 의 sparse MoE는 DeepSeek 이전 MoE 표준이었고, **Codestral** 은 22B 코딩 전용으로 여전히 쓰인다.
5장 · Phi 시리즈 — "데이터의 질이 곧 모델의 질"
**Phi-3 Technical Report** (2024-04, [arXiv:2404.14219](https://arxiv.org/abs/2404.14219))와 **Phi-4** (2024-12, [arXiv:2412.08905](https://arxiv.org/abs/2412.08905))는 Microsoft Research가 주도한 SLM(small language model) 흐름의 정점이다. 핵심 주장은 단순하다 — **"textbook quality data"** 로만 학습하면 3.8B 모델이 GPT-3.5를 이길 수 있다. Phi-4는 14B 사이즈로 GPQA와 MATH에서 Llama 3 70B를 따라잡았고, **Phi-4-reasoning** 은 o1-mini와 비슷한 추론 능력을 보여 SLM도 추론을 할 수 있다는 것을 증명했다.
6장 · Gemma 3와 Falcon 3 — 그 외의 오픈웨이트 진영
**Gemma 3 Technical Report** (2025-Q1)는 1B·4B·12B·27B 사이즈로, Gemini 2.0의 일부 기술(특히 attention 변종과 distillation)을 오픈웨이트로 가져왔다. 128K 컨텍스트와 멀티모달이 기본 탑재됐다.
**Falcon 3** (TII, UAE)와 **Command R+** (Cohere)는 각각 30B 이하 한국어·일본어가 약한 대신 영어·아랍어·다국어 RAG에 강점이 있다. **Yi-Lightning**(01.AI), **GLM-4-9B**(Zhipu)는 중국 외 시장에서 덜 알려졌지만 Chatbot Arena 상위권에 자주 든다.
7장 · 상용 모델 카드 — GPT-4, Claude 4.7, Gemini 2.5
상용 모델은 논문 대신 **모델 카드(System Card)** 가 정보원이다.
- **GPT-4 Technical Report** (2023, [arXiv:2303.08774](https://arxiv.org/abs/2303.08774)) — 아키텍처 세부는 비공개지만 평가 방법론과 안전성 절차의 기준선.
- **OpenAI o1 System Card** (2024-09) — 추론 모델의 첫 상용 사례. RL + CoT를 학습 시점에 통합.
- **OpenAI o3 / o4 System Card** (2025) — ARC-AGI에서 처음으로 인간 평균을 넘어선 모델.
- **Anthropic Claude 4 / 4.5 / 4.7 Model Card** — Constitutional AI 후속과 사이코판시 완화, 인용 기능, 컴퓨터 사용 등의 능력 카드.
- **Google Gemini 1.5 / 2.0 / 2.5 Technical Report** ([arXiv:2403.05530](https://arxiv.org/abs/2403.05530)) — 1M~10M 토큰 컨텍스트 + 네이티브 멀티모달.
상용 모델 카드는 "벤치마크 숫자"보다 **"평가 방법론, 안전성 인터벤션, 한계 사례"** 를 보려고 읽는다.
8장 · Mixture-of-Experts — Switch Transformer에서 DeepSeekMoE까지
MoE는 2021년 **Switch Transformer** ([arXiv:2101.03961](https://arxiv.org/abs/2101.03961))로 다시 부각됐고, **GShard**, **GLaM**, **ST-MoE** 를 거쳐 2024년 **DeepSeekMoE** ([arXiv:2401.06066](https://arxiv.org/abs/2401.06066))에서 한 단계 진화했다. 핵심은 두 가지 — **fine-grained expert segmentation** (전문가 수를 늘리고 각자를 작게) + **shared expert isolation** (공통 지식을 따로 처리). DeepSeek-V3가 256+1 expert를 쓴 이유다.
**Mixtral of Experts** ([arXiv:2401.04088](https://arxiv.org/abs/2401.04088))는 8개 expert 중 top-2를 활성화하는 구조로, 가장 많이 인용된 sparse MoE 구현이다. **OLMoE**(Allen AI)는 학습 코드와 데이터 전체를 공개한 첫 MoE다.
9장 · Attention 혁신 — MLA, GQA, Sliding Window, Mamba
**GQA: Grouped-Query Attention** ([arXiv:2305.13245](https://arxiv.org/abs/2305.13245)) — 여러 query head가 KV head를 공유. Llama 2/3, Mistral, 거의 모든 현대 모델의 기본.
**MLA: Multi-head Latent Attention** ([arXiv:2405.04434](https://arxiv.org/abs/2405.04434), DeepSeek-V2 논문) — KV cache를 저랭크로 압축. 동일 컨텍스트에서 메모리 80% 절약.
**Sliding Window Attention** — Longformer ([arXiv:2004.05150](https://arxiv.org/abs/2004.05150))와 Mistral 7B가 사용. 로컬 윈도우 + 글로벌 토큰.
**Mamba / Mamba-2** ([arXiv:2312.00752](https://arxiv.org/abs/2312.00752), [arXiv:2405.21060](https://arxiv.org/abs/2405.21060)) — SSM(State Space Model) 기반. attention의 O(N²) 대신 O(N). 긴 컨텍스트에서 처리량이 압도적. 하이브리드(트랜스포머 + Mamba 블록)가 2025-2026년 실험적으로 등장 — **Jamba**(AI21), **Zamba2**(Zyphra).
**RWKV-7** — attention 없이 RNN으로 트랜스포머를 따라잡으려는 시도. 모바일·임베디드 후보.
10장 · 추론 모델 계보 — CoT, ToT, Self-Consistency, GRPO
**Chain-of-Thought Prompting** ([arXiv:2201.11903](https://arxiv.org/abs/2201.11903), Wei et al. 2022) — "Let's think step by step." 한 줄로 GSM8K 정확도가 2배 뛴다.
**Self-Consistency** ([arXiv:2203.11171](https://arxiv.org/abs/2203.11171)) — 여러 번 샘플링해서 다수결. 추론 task에서 단일 샘플 대비 +10~20%.
**Tree-of-Thoughts** ([arXiv:2305.10601](https://arxiv.org/abs/2305.10601)) — 사고 과정을 트리로 탐색. 게임 24, 창의 글쓰기에서 효과.
**Reflexion** ([arXiv:2303.11366](https://arxiv.org/abs/2303.11366)) — 실패한 시도를 텍스트 형태로 메모리에 남기고 다음 시도에서 참고.
**OpenAI o1** (블로그, 2024-09) + **DeepSeek-R1 GRPO** — 학습 시점에 RL로 long CoT를 발현. 2026년 모든 frontier 모델이 "thinking" 모드를 탑재한 이유.
**Inference-Time Scaling Laws** ([arXiv:2408.03314](https://arxiv.org/abs/2408.03314)) — 모델 크기를 키우는 것보다 추론 시간을 늘리는 것이 더 효율적일 수 있다는 결과.
추론 시간 스케일링의 한 형태 — Best-of-N + verifier
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
tok = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
def best_of_n(prompt, n=16, verifier=None):
inputs = tok(prompt, return_tensors="pt")
candidates = []
for _ in range(n):
out = model.generate(
**inputs,
do_sample=True,
temperature=0.8,
max_new_tokens=512,
)
text = tok.decode(out[0], skip_special_tokens=True)
score = verifier(text) if verifier else len(text)
candidates.append((score, text))
return max(candidates, key=lambda x: x[0])[1]
11장 · RLHF의 계보 — InstructGPT, Constitutional AI, DPO
**InstructGPT** ([arXiv:2203.02155](https://arxiv.org/abs/2203.02155), Ouyang et al. 2022) — RLHF의 사실상 기준 논문. PPO + 보상 모델 + KL 페널티의 3단계 레시피가 여기서 굳어졌다.
**Constitutional AI** ([arXiv:2212.08073](https://arxiv.org/abs/2212.08073), Anthropic 2022) — 인간 선호 대신 **AI가 작성한 헌장(constitution)** 으로 자기 비평. RLAIF의 기원.
**DPO: Direct Preference Optimization** ([arXiv:2305.18290](https://arxiv.org/abs/2305.18290), Rafailov et al. 2023) — 보상 모델 없이 선호 데이터로 직접 학습. PPO의 복잡도를 제거하면서 비슷한 성능. 2024년 이후 사실상 표준.
**ORPO** ([arXiv:2403.07691](https://arxiv.org/abs/2403.07691)) — SFT와 선호 학습을 한 손실 함수에 합침. 단일 단계 RLHF.
**KTO: Kahneman-Tversky Optimization** ([arXiv:2402.01306](https://arxiv.org/abs/2402.01306)) — 쌍(preferred, rejected) 대신 단일 라벨(good/bad)로도 학습 가능. 라벨링 비용 절감.
**SimPO** ([arXiv:2405.14734](https://arxiv.org/abs/2405.14734)) — DPO의 reference 모델 의존성 제거. 메모리 절약.
비교표는 단순하다.
| 알고리즘 | 보상 모델 | reference 모델 | 라벨 형태 |
| --- | --- | --- | --- |
| PPO (RLHF) | 필요 | 필요 | 쌍 |
| DPO | 불필요 | 필요 | 쌍 |
| ORPO | 불필요 | 불필요 | 쌍 + SFT |
| KTO | 불필요 | 필요 | 단일 |
| SimPO | 불필요 | 불필요 | 쌍 |
12장 · 에이전트 — ReAct, Voyager, SWE-Agent, OS-Atlas
**ReAct** ([arXiv:2210.03629](https://arxiv.org/abs/2210.03629)) — Reasoning + Acting을 인터리브. 거의 모든 LLM 에이전트 프레임워크의 기반.
**Voyager** ([arXiv:2305.16291](https://arxiv.org/abs/2305.16291)) — Minecraft에서 평생 학습(lifelong learning) 에이전트. 스킬 라이브러리를 자동 구축.
**SWE-Agent** ([arXiv:2405.15793](https://arxiv.org/abs/2405.15793)) — 인간이 쓰는 IDE 대신 **agent-computer interface(ACI)** 를 설계. SWE-Bench에서 GPT-4를 12.5% → 18.0%로 끌어올림.
**OS-Atlas** ([arXiv:2410.23218](https://arxiv.org/abs/2410.23218)) — GUI 에이전트를 위한 grounding 모델. 화면 캡처 → 좌표/액션.
**Computer Use 서베이** — Anthropic Claude Computer Use(2024-10) 이후 본격적인 평가 벤치마크(**OSWorld**, [arXiv:2404.07972](https://arxiv.org/abs/2404.07972))가 등장.
ReAct 패턴의 최소 의사 코드
def react_agent(task, tools, llm, max_steps=10):
trajectory = [f"Task: {task}"]
for step in range(max_steps):
thought = llm(trajectory + ["Thought:"])
action = llm(trajectory + ["Action:"])
if action.startswith("Finish"):
return action
observation = tools.run(action)
trajectory.append(f"Thought: {thought}\nAction: {action}\nObservation: {observation}")
return "Max steps reached"
13장 · RAG의 계보 — 원조부터 GraphRAG까지
**RAG (Retrieval-Augmented Generation)** ([arXiv:2005.11401](https://arxiv.org/abs/2005.11401), Lewis et al. 2020) — 검색 + 생성을 결합한 원조. open-domain QA의 표준.
**FiD: Fusion-in-Decoder** ([arXiv:2007.01282](https://arxiv.org/abs/2007.01282)) — 디코더에서 여러 passage를 융합. RAG보다 강력하지만 디코더 컨텍스트 비용 증가.
**RETRO** ([arXiv:2112.04426](https://arxiv.org/abs/2112.04426), DeepMind) — 2T 토큰 데이터스토어를 모델 외부에 두고 chunk 단위 검색.
**ColBERT / ColBERTv2** ([arXiv:2004.12832](https://arxiv.org/abs/2004.12832)) — late interaction. 토큰 레벨로 query-document 매칭, dense retrieval의 정확도 표준.
**Self-RAG** ([arXiv:2310.11511](https://arxiv.org/abs/2310.11511)) — 모델이 스스로 "검색이 필요한가" 를 판단하고 self-reflection 토큰을 생성.
**GraphRAG** ([arXiv:2404.16130](https://arxiv.org/abs/2404.16130), Microsoft 2024) — 문서를 지식 그래프로 만들어 community summary 기반 검색. 글로벌 질문(요약, 트렌드)에 강함.
**Contextual Retrieval** (Anthropic 블로그, 2024-09) — chunk마다 컨텍스트 prefix를 prepend해 임베딩. 검색 실패율 49% → 35% 감소.
14장 · FlashAttention 1/2/3 — 메모리 계층의 재발견
**FlashAttention** ([arXiv:2205.14135](https://arxiv.org/abs/2205.14135), Dao et al. 2022) — attention을 tiling으로 SRAM 안에서 처리. HBM I/O를 줄여 7.6배 가속.
**FlashAttention-2** ([arXiv:2307.08691](https://arxiv.org/abs/2307.08691)) — 워크 분할을 재설계. 2x 속도. 대부분의 학습 코드가 여기로 이주.
**FlashAttention-3** ([arXiv:2407.08608](https://arxiv.org/abs/2407.08608)) — Hopper(H100/H200)의 비동기 wgmma + TMA를 활용. FP16에서 75% MFU, FP8에서 1.2 PFLOPS.
torch에서 FlashAttention 호출 — 2026년 표준
q = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
k = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
v = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
PyTorch 2.x의 SDPA가 자동으로 FlashAttention 백엔드를 선택
with torch.backends.cuda.sdp_kernel(
enable_flash=True, enable_math=False, enable_mem_efficient=False
):
out = F.scaled_dot_product_attention(q, k, v, is_causal=True)
print(out.shape) # [2, 8, 4096, 128]
15장 · vLLM과 SGLang — 서빙 인프라의 표준
**vLLM PagedAttention** ([arXiv:2309.06180](https://arxiv.org/abs/2309.06180), Kwon et al. 2023) — KV cache를 OS의 페이징처럼 관리. 메모리 fragmentation 90% → 4%로 감소. HuggingFace TGI, NVIDIA Triton보다 처리량 2-4배.
**SGLang RadixAttention** ([arXiv:2312.07104](https://arxiv.org/abs/2312.07104)) — KV cache를 라딕스 트리로 공유. 시스템 프롬프트가 겹치는 멀티턴 / few-shot에서 5배 빠름.
**Mixture-of-Depths** ([arXiv:2404.02258](https://arxiv.org/abs/2404.02258), DeepMind 2024) — 토큰별로 트랜스포머 레이어를 동적으로 건너뜀. 같은 품질을 더 적은 FLOPS로.
**Speculative Decoding** ([arXiv:2211.17192](https://arxiv.org/abs/2211.17192), Leviathan et al. 2022) — 작은 draft 모델로 여러 토큰을 미리 생성하고 큰 모델이 검증. 2-3x 가속이 기본.
vLLM 표준 서빙 구성 — 2026년 프로덕션 패턴
docker run --gpus all -p 8000:8000 \
-v ~/models:/models \
vllm/vllm-openai:latest \
--model /models/Llama-3.3-70B-Instruct \
--tensor-parallel-size 4 \
--max-model-len 32768 \
--gpu-memory-utilization 0.92 \
--enable-prefix-caching \
--enable-chunked-prefill
16장 · 긴 컨텍스트 — RoPE, YaRN, LongLoRA
**RoPE: Rotary Positional Embedding** ([arXiv:2104.09864](https://arxiv.org/abs/2104.09864)) — Llama 계열의 위치 인코딩 표준.
**YaRN** ([arXiv:2309.00071](https://arxiv.org/abs/2309.00071)) — RoPE를 NTK-aware로 스케일링. 4K 학습 모델을 128K로 확장.
**LongLoRA** ([arXiv:2309.12307](https://arxiv.org/abs/2309.12307)) — sparse local attention + LoRA로 효율적 컨텍스트 확장.
**RingAttention** ([arXiv:2310.01889](https://arxiv.org/abs/2310.01889)) — 디바이스 간 KV를 링 토폴로지로 통신. 1M+ 컨텍스트를 학습 가능하게.
**Activation Beacon** ([arXiv:2401.03462](https://arxiv.org/abs/2401.03462)) — 컨텍스트를 beacon 토큰으로 압축. 효율적 검색.
Gemini 1.5 Pro의 1M 토큰, Gemini 2.5의 10M 토큰은 이런 기술들의 조합 위에 있다.
17장 · 코드 LLM — StarCoder, DeepSeek Coder, Codestral
**StarCoder 2** ([arXiv:2402.19173](https://arxiv.org/abs/2402.19173), BigCode 2024) — 619개 프로그래밍 언어, 4T+ 토큰. 가중치와 학습 데이터 전체 공개.
**DeepSeek Coder V2** ([arXiv:2406.11931](https://arxiv.org/abs/2406.11931)) — 236B MoE, 활성 21B. HumanEval과 MBPP에서 GPT-4 Turbo와 동급. V3는 671B MoE로 더 강화됨.
**Codestral** (Mistral, 2024-05) — 22B + 80개 언어 + 32K 컨텍스트. IDE 통합용으로 자주 쓰임.
**Code Llama** ([arXiv:2308.12950](https://arxiv.org/abs/2308.12950)) — Llama 2 기반의 코드 변종. Code Llama 70B는 한때 오픈웨이트 코딩 1위였다.
**Qwen2.5-Coder** (32B) — Qwen 시리즈의 코딩 변종. SWE-Bench에서 한동안 오픈 1위.
18장 · 작은 모델 — SLM 르네상스
2024-2026년의 큰 흐름 하나는 **"작아도 잘 한다"** 이다.
- **Phi-3.5 Mini** (3.8B) — 모바일에서도 도는 강한 일반 모델.
- **Gemma 2B / 3 1B** — Edge용 1B 사이즈.
- **Qwen2.5 3B / 7B** — 다국어 SLM의 표준.
- **Mistral 7B / Mistral Nemo 12B** — 클래식 사이즈 표준.
- **SmolLM2** ([arXiv:2502.02737](https://arxiv.org/abs/2502.02737)) — 360M·1.7B로 11T 토큰 학습. Hugging Face의 데이터 카탈로그(SmolLM-Corpus) 함께 공개.
- **TinyLlama** ([arXiv:2401.02385](https://arxiv.org/abs/2401.02385)) — 1.1B 모델을 3T 토큰으로 학습.
2026년 모바일·임베디드 LLM은 거의 이들을 베이스로 한다.
19장 · 평가 — MMLU, GSM8K, HumanEval부터 SWE-Bench, OSWorld까지
전통 벤치마크:
- **MMLU** ([arXiv:2009.03300](https://arxiv.org/abs/2009.03300)) — 57개 분야 다지선다.
- **GSM8K** ([arXiv:2110.14168](https://arxiv.org/abs/2110.14168)) — 초등 수학.
- **MATH** ([arXiv:2103.03874](https://arxiv.org/abs/2103.03874)) — 경시대회 수학.
- **HumanEval** ([arXiv:2107.03374](https://arxiv.org/abs/2107.03374)) — 코딩 함수 완성.
- **BIG-Bench Hard** ([arXiv:2210.09261](https://arxiv.org/abs/2210.09261)).
2024-2026 신세대:
- **GPQA** ([arXiv:2311.12022](https://arxiv.org/abs/2311.12022)) — 박사 수준 STEM.
- **MMLU-Pro** ([arXiv:2406.01574](https://arxiv.org/abs/2406.01574)) — MMLU의 답안 셔플 + 더 어려운 문제.
- **ARC-AGI** (Chollet) — 일반 지능 측정. o3가 처음 인간 평균 통과.
- **SWE-Bench** ([arXiv:2310.06770](https://arxiv.org/abs/2310.06770)) + **SWE-Bench Verified** — 실제 GitHub 이슈 해결.
- **OSWorld** ([arXiv:2404.07972](https://arxiv.org/abs/2404.07972)) — 컴퓨터 사용 에이전트.
- **MMMU** ([arXiv:2311.16502](https://arxiv.org/abs/2311.16502)) — 멀티모달 다지선다.
- **LMSYS Chatbot Arena** ([arXiv:2403.04132](https://arxiv.org/abs/2403.04132)) — 사람이 직접 비교 투표. ELO 형태.
2026년 frontier 모델은 GSM8K·HumanEval에서 포화 상태고, 의미 있는 지표는 SWE-Bench·OSWorld·GPQA·ARC-AGI로 옮겨갔다.
20장 · 주요 모델 비교표
| 모델 | 출시 | 크기 | MMLU | HumanEval | GSM8K | SWE-Bench |
| --- | --- | --- | --- | --- | --- | --- |
| Llama 3.1 70B | 2024-07 | 70B | 86.0 | 80.5 | 95.1 | 31.2 |
| Llama 3.3 70B | 2024-12 | 70B | 86.9 | 88.4 | 96.5 | 41.4 |
| DeepSeek-V3 | 2024-12 | 671B MoE | 88.5 | 89.0 | 89.3 | 42.0 |
| DeepSeek-R1 | 2025-01 | 671B MoE | 91.2 | 96.3 | 97.3 | 49.2 |
| Qwen2.5-72B | 2024-09 | 72B | 86.1 | 86.6 | 95.8 | 36.0 |
| Mistral Large 2 | 2024-07 | 123B | 84.0 | 92.0 | 93.0 | 32.0 |
| Phi-4 | 2024-12 | 14B | 84.8 | 82.6 | 80.4 | - |
| Gemma 3 27B | 2025-Q1 | 27B | 81.0 | 79.8 | 89.2 | 28.5 |
| GPT-4o | 2024-05 | ? | 88.7 | 90.2 | 95.8 | 33.2 |
| Claude 4.7 | 2026 | ? | 90.1 | 96.3 | 96.4 | 65+ |
| Gemini 2.5 Pro | 2025 | ? | 89.8 | 92.0 | 95.4 | 51.0 |
숫자는 각 모델 카드의 자체 보고치 또는 LMSYS/Open LLM Leaderboard 평균. 비교 자체보다는 "한 세대마다 어디가 포화되고 어디가 남았는가" 를 본다.
21장 · 안전성과 정렬 — Constitutional AI, Sycophancy, Refusal
**Constitutional AI** ([arXiv:2212.08073](https://arxiv.org/abs/2212.08073))는 RLHF에서 인간 라벨을 줄이고 모델 자기 비평으로 대체하는 방향을 열었다.
**Discovering Language Model Behaviors with Model-Written Evaluations** ([arXiv:2212.09251](https://arxiv.org/abs/2212.09251)) — sycophancy(아첨)와 같은 미묘한 정렬 실패를 모델 자체로 측정.
**Universal and Transferable Adversarial Attacks on Aligned Language Models** ([arXiv:2307.15043](https://arxiv.org/abs/2307.15043), GCG attack) — 추가 토큰으로 정렬을 깰 수 있음을 체계적으로 증명.
**Jailbreak Survey** ([arXiv:2402.13457](https://arxiv.org/abs/2402.13457)) — 2024년까지의 jailbreak 분류.
**Sleeper Agents** ([arXiv:2401.05566](https://arxiv.org/abs/2401.05566), Anthropic) — 학습 시 백도어를 심으면 safety training으로 제거되지 않는다는 결과. 정렬의 한계를 보여준 중요 논문.
**Tamper-Resistant Safeguards** ([arXiv:2408.00761](https://arxiv.org/abs/2408.00761)) — 오픈웨이트 모델에서 안전성을 추가 파인튜닝으로도 깨지지 않게 하려는 시도.
22장 · 한국 모델 — HyperCLOVA X, EXAONE 3.5, Kanana
**HyperCLOVA X Technical Report** ([arXiv:2404.01954](https://arxiv.org/abs/2404.01954), Naver 2024) — 한국어 + 영어 이중언어 + 한국 문화·법률·의료 도메인 평가셋(KoBigBench, KMMLU) 동반 공개. 한국어 LLM의 사실상 기준 리포트.
**EXAONE 3.5** (LG AI Research, 2024-12) — 2.4B·7.8B·32B. 영어·한국어 이중언어, 32K 컨텍스트. Apache 2.0이 아닌 EXAONE AI Model License지만 연구 목적 사용 가능.
**Kanana** (Kakao, 2025) — 2B·8B·32B. 한국어 + 영어. 카카오톡 내부 LLM 백본.
**KORAi / KORani / KoGPT / Polyglot-Ko** — 그 전 세대의 한국어 모델들. 2025년부터는 위 셋이 사실상 메이저.
**KMMLU** ([arXiv:2402.11548](https://arxiv.org/abs/2402.11548)) — 한국어 MMLU. 한국 모델 평가의 기본.
23장 · 일본 모델 — Sakana, Stockmark, Swallow, PLaMo
**Sakana AI Evolutionary Optimization of Model Merging Recipes** ([arXiv:2403.13187](https://arxiv.org/abs/2403.13187)) — 진화 알고리즘으로 다국어 모델을 자동 머지. EvoLLM-JP가 출시되며 일본어 LLM의 새 방향 제시.
**Stockmark-100b** (Stockmark, 2024) — 100B 일본어·영어 이중언어 모델. 일본 비즈니스 도메인 코퍼스 사용.
**Swallow** (Tokyo Tech, [arXiv:2404.17790](https://arxiv.org/abs/2404.17790)) — Llama 2/3를 일본어 코퍼스로 continual pretraining.
**PLaMo 2 / 100B** (Preferred Networks) — 일본어 + 영어 + 코드. PFN의 자체 학습 코퍼스.
**NEC cotomi** — 일본어 비즈니스 도메인 LLM. 130B와 7B 변종.
**Rakuten AI 7B**, **Karasu**, **Stable LM Japanese** 등 7B 사이즈 일본어 모델도 다수.
**JGLUE / Japanese MT-Bench** — 일본어 평가 표준.
24장 · 데이터 — Dolma, RedPajama, FineWeb
오픈 학습 데이터셋 3대장.
- **Dolma** ([arXiv:2402.00159](https://arxiv.org/abs/2402.00159), AI2) — 3T 토큰. OLMo 학습에 사용.
- **RedPajama-Data-v2** (Together AI, 2023-10) — 30T 토큰. 다국어 + 영어.
- **FineWeb** ([arXiv:2406.17557](https://arxiv.org/abs/2406.17557), HuggingFace) — 15T 토큰 + FineWeb-Edu 1.3T 토큰 변종.
**The Pile** ([arXiv:2101.00027](https://arxiv.org/abs/2101.00027), EleutherAI) — 2021년의 800GB. 오픈 LLM의 시작점이었던 데이터.
**Common Crawl**과 그 위의 정제 파이프라인(CCNet, DataComp-LM, **TxT360**, **Nemotron-CC**)이 2026년 오픈 데이터 합리화의 표준.
25장 · 멀티모달 — LLaVA, CogVLM, Qwen-VL, Pixtral
**LLaVA** ([arXiv:2304.08485](https://arxiv.org/abs/2304.08485), 2023) — Vicuna + CLIP visual encoder + projection. 오픈 멀티모달의 시작.
**LLaVA-1.5 / LLaVA-NeXT** — 해상도 처리와 멀티턴 강화.
**Qwen-VL / Qwen2-VL** ([arXiv:2308.12966](https://arxiv.org/abs/2308.12966), [arXiv:2409.12191](https://arxiv.org/abs/2409.12191)) — 임의 해상도, 다국어 OCR. Qwen2.5-VL은 비디오까지.
**Pixtral 12B** (Mistral, 2024-09) — Pixtral의 vision encoder는 임의 해상도 패치.
**Idefics 3** (HuggingFace) — 오픈 데이터 + 오픈 가중치 멀티모달.
**Molmo** (AI2, [arXiv:2409.17146](https://arxiv.org/abs/2409.17146)) — 포인팅(좌표 가리키기)을 학습 task로. 에이전트와 호환성 강.
26장 · 읽기 순서 — 2026년 엔지니어를 위한 30편 큐레이션
다 읽을 시간이 없다면 이 순서로:
1. Llama 3 Technical Report — 현대 LLM 제작의 전체 그림.
2. DeepSeek-V3 Technical Report — 비용 효율 학습의 정점.
3. DeepSeek-R1 — RL 기반 추론.
4. Mixtral of Experts — MoE 표준.
5. DeepSeekMoE — fine-grained MoE.
6. GQA + MLA — attention 효율의 두 축.
7. FlashAttention-2 — 학습 가속 표준.
8. vLLM PagedAttention — 서빙 표준.
9. SGLang RadixAttention — 캐시 공유.
10. CoT Prompting — 추론의 출발점.
11. DPO — 포스트-트레이닝 표준.
12. Constitutional AI — RLAIF의 기원.
13. ReAct — 에이전트의 출발점.
14. SWE-Agent — 코드 에이전트 표준.
15. OSWorld — 컴퓨터 사용 평가.
16. RAG 원조 — 검색 결합의 시작.
17. ColBERTv2 — dense retrieval 정확도.
18. GraphRAG — 글로벌 RAG.
19. Self-RAG — 자기 검색.
20. YaRN — RoPE 스케일링.
21. RingAttention — 긴 컨텍스트 학습.
22. Speculative Decoding — 디코딩 가속.
23. Phi-3 / Phi-4 — SLM 르네상스.
24. SmolLM2 — 오픈 SLM 데이터.
25. MMLU + GPQA — 평가 기준.
26. SWE-Bench Verified — 코드 평가.
27. LMSYS Chatbot Arena — 사람 선호.
28. Sleeper Agents — 정렬의 한계.
29. HyperCLOVA X — 한국어 LLM 기준.
30. Sakana EvoLLM — 모델 머지.
이 순서로 한 주 한 편씩 30주, 또는 빠르게 30일이면 2026년 LLM 풍경이 전부 머리에 들어온다.
References
- arxiv.org — [https://arxiv.org/](https://arxiv.org/)
- Llama 3 Technical Report — [https://arxiv.org/abs/2407.21783](https://arxiv.org/abs/2407.21783)
- DeepSeek-V3 Technical Report — [https://arxiv.org/abs/2412.19437](https://arxiv.org/abs/2412.19437)
- DeepSeek-R1 — [https://arxiv.org/abs/2501.12948](https://arxiv.org/abs/2501.12948)
- Qwen2.5 Technical Report — [https://arxiv.org/abs/2412.15115](https://arxiv.org/abs/2412.15115)
- Mistral 7B — [https://arxiv.org/abs/2310.06825](https://arxiv.org/abs/2310.06825)
- Mixtral of Experts — [https://arxiv.org/abs/2401.04088](https://arxiv.org/abs/2401.04088)
- Phi-3 Technical Report — [https://arxiv.org/abs/2404.14219](https://arxiv.org/abs/2404.14219)
- Phi-4 — [https://arxiv.org/abs/2412.08905](https://arxiv.org/abs/2412.08905)
- Gemini 1.5 — [https://arxiv.org/abs/2403.05530](https://arxiv.org/abs/2403.05530)
- Switch Transformer — [https://arxiv.org/abs/2101.03961](https://arxiv.org/abs/2101.03961)
- DeepSeekMoE — [https://arxiv.org/abs/2401.06066](https://arxiv.org/abs/2401.06066)
- GQA — [https://arxiv.org/abs/2305.13245](https://arxiv.org/abs/2305.13245)
- MLA / DeepSeek-V2 — [https://arxiv.org/abs/2405.04434](https://arxiv.org/abs/2405.04434)
- Mamba — [https://arxiv.org/abs/2312.00752](https://arxiv.org/abs/2312.00752)
- Mamba-2 — [https://arxiv.org/abs/2405.21060](https://arxiv.org/abs/2405.21060)
- Chain-of-Thought — [https://arxiv.org/abs/2201.11903](https://arxiv.org/abs/2201.11903)
- Self-Consistency — [https://arxiv.org/abs/2203.11171](https://arxiv.org/abs/2203.11171)
- Tree-of-Thoughts — [https://arxiv.org/abs/2305.10601](https://arxiv.org/abs/2305.10601)
- Inference-Time Scaling — [https://arxiv.org/abs/2408.03314](https://arxiv.org/abs/2408.03314)
- InstructGPT — [https://arxiv.org/abs/2203.02155](https://arxiv.org/abs/2203.02155)
- Constitutional AI — [https://arxiv.org/abs/2212.08073](https://arxiv.org/abs/2212.08073)
- DPO — [https://arxiv.org/abs/2305.18290](https://arxiv.org/abs/2305.18290)
- ORPO — [https://arxiv.org/abs/2403.07691](https://arxiv.org/abs/2403.07691)
- KTO — [https://arxiv.org/abs/2402.01306](https://arxiv.org/abs/2402.01306)
- SimPO — [https://arxiv.org/abs/2405.14734](https://arxiv.org/abs/2405.14734)
- ReAct — [https://arxiv.org/abs/2210.03629](https://arxiv.org/abs/2210.03629)
- Voyager — [https://arxiv.org/abs/2305.16291](https://arxiv.org/abs/2305.16291)
- SWE-Agent — [https://arxiv.org/abs/2405.15793](https://arxiv.org/abs/2405.15793)
- OS-Atlas — [https://arxiv.org/abs/2410.23218](https://arxiv.org/abs/2410.23218)
- OSWorld — [https://arxiv.org/abs/2404.07972](https://arxiv.org/abs/2404.07972)
- RAG — [https://arxiv.org/abs/2005.11401](https://arxiv.org/abs/2005.11401)
- FiD — [https://arxiv.org/abs/2007.01282](https://arxiv.org/abs/2007.01282)
- RETRO — [https://arxiv.org/abs/2112.04426](https://arxiv.org/abs/2112.04426)
- ColBERT — [https://arxiv.org/abs/2004.12832](https://arxiv.org/abs/2004.12832)
- Self-RAG — [https://arxiv.org/abs/2310.11511](https://arxiv.org/abs/2310.11511)
- GraphRAG — [https://arxiv.org/abs/2404.16130](https://arxiv.org/abs/2404.16130)
- FlashAttention — [https://arxiv.org/abs/2205.14135](https://arxiv.org/abs/2205.14135)
- FlashAttention-2 — [https://arxiv.org/abs/2307.08691](https://arxiv.org/abs/2307.08691)
- FlashAttention-3 — [https://arxiv.org/abs/2407.08608](https://arxiv.org/abs/2407.08608)
- vLLM PagedAttention — [https://arxiv.org/abs/2309.06180](https://arxiv.org/abs/2309.06180)
- SGLang — [https://arxiv.org/abs/2312.07104](https://arxiv.org/abs/2312.07104)
- Speculative Decoding — [https://arxiv.org/abs/2211.17192](https://arxiv.org/abs/2211.17192)
- Mixture-of-Depths — [https://arxiv.org/abs/2404.02258](https://arxiv.org/abs/2404.02258)
- RoPE — [https://arxiv.org/abs/2104.09864](https://arxiv.org/abs/2104.09864)
- YaRN — [https://arxiv.org/abs/2309.00071](https://arxiv.org/abs/2309.00071)
- LongLoRA — [https://arxiv.org/abs/2309.12307](https://arxiv.org/abs/2309.12307)
- RingAttention — [https://arxiv.org/abs/2310.01889](https://arxiv.org/abs/2310.01889)
- Activation Beacon — [https://arxiv.org/abs/2401.03462](https://arxiv.org/abs/2401.03462)
- StarCoder 2 — [https://arxiv.org/abs/2402.19173](https://arxiv.org/abs/2402.19173)
- DeepSeek Coder V2 — [https://arxiv.org/abs/2406.11931](https://arxiv.org/abs/2406.11931)
- Code Llama — [https://arxiv.org/abs/2308.12950](https://arxiv.org/abs/2308.12950)
- MMLU — [https://arxiv.org/abs/2009.03300](https://arxiv.org/abs/2009.03300)
- GSM8K — [https://arxiv.org/abs/2110.14168](https://arxiv.org/abs/2110.14168)
- MATH — [https://arxiv.org/abs/2103.03874](https://arxiv.org/abs/2103.03874)
- HumanEval — [https://arxiv.org/abs/2107.03374](https://arxiv.org/abs/2107.03374)
- GPQA — [https://arxiv.org/abs/2311.12022](https://arxiv.org/abs/2311.12022)
- SWE-Bench — [https://arxiv.org/abs/2310.06770](https://arxiv.org/abs/2310.06770)
- MMMU — [https://arxiv.org/abs/2311.16502](https://arxiv.org/abs/2311.16502)
- LMSYS Chatbot Arena — [https://arxiv.org/abs/2403.04132](https://arxiv.org/abs/2403.04132)
- HyperCLOVA X — [https://arxiv.org/abs/2404.01954](https://arxiv.org/abs/2404.01954)
- KMMLU — [https://arxiv.org/abs/2402.11548](https://arxiv.org/abs/2402.11548)
- Sakana EvoLLM — [https://arxiv.org/abs/2403.13187](https://arxiv.org/abs/2403.13187)
- Swallow — [https://arxiv.org/abs/2404.17790](https://arxiv.org/abs/2404.17790)
- Sleeper Agents — [https://arxiv.org/abs/2401.05566](https://arxiv.org/abs/2401.05566)
- HuggingFace — [https://huggingface.co/](https://huggingface.co/)
- Meta AI Research — [https://ai.meta.com/research/](https://ai.meta.com/research/)
- DeepSeek — [https://www.deepseek.com/](https://www.deepseek.com/)
- Qwen — [https://qwenlm.github.io/](https://qwenlm.github.io/)
- Mistral AI — [https://mistral.ai/news/](https://mistral.ai/news/)
- OpenAI Research — [https://openai.com/research/](https://openai.com/research/)
- Anthropic Research — [https://www.anthropic.com/research](https://www.anthropic.com/research)
- Google DeepMind Research — [https://deepmind.google/research/](https://deepmind.google/research/)
- vLLM — [https://github.com/vllm-project/vllm](https://github.com/vllm-project/vllm)
- SGLang — [https://github.com/sgl-project/sglang](https://github.com/sgl-project/sglang)
현재 단락 (1/300)
2024년 1월부터 2026년 5월까지, arXiv `cs.CL`과 `cs.LG`에는 매주 평균 1,200편이 넘는 논문이 올라왔다. 이 중 LLM과 직접 관련된 것만 추려도 한 ...