LLM 논문 큐레이션 2024-2026 - Llama · DeepSeek · Qwen · Mistral · Phi · RLHF · DPO · CoT · RAG · FlashAttention · vLLM 심층 가이드

프롤로그 — 2026년, LLM 논문의 홍수 속에서 살아남기

2024년 1월부터 2026년 5월까지, arXiv cs.CL과 cs.LG에는 매주 평균 1,200편이 넘는 논문이 올라왔다. 이 중 LLM과 직접 관련된 것만 추려도 한 주 300편, 한 해 1만 5천 편 규모다. 한 사람이 다 읽는 것은 불가능하다.

그래서 2026년 현직 엔지니어가 던지는 질문은 단순하다. "오늘 만들고 있는 시스템에 직접 도움이 되는 30편은 어디에 있는가."

이 글은 그 30편 + 알파를 큐레이션한다. 기준은 셋이다.

재현 가능한가 — 코드와 가중치, 또는 충분한 디테일이 공개됐는가
현장에서 인용되는가 — 모델 카드, 벤치마크 리포트, 프로덕션 블로그에서 자주 인용되는가
2026년에도 유효한가 — 6개월 후 새 모델이 나와도 핵심 통찰이 살아남는가

한 줄 요약: "파운데이션 모델 리포트 → MoE/Attention 혁신 → RLHF/DPO 계열 → CoT/추론 → 에이전트/검색 → FlashAttention/서빙 → 평가/안전성" 이 순서로 읽으면 1주일에 LLM 풍경 전체가 잡힌다.

1장 · Llama 3 — 오픈웨이트의 새 기준선

Llama 3 / Llama 3.3 Technical Report (2024-07, arXiv:2407.21783)

Meta의 Llama 3는 8B·70B·405B 모델을 동시에 공개하면서, 사실상 2024년 오픈웨이트의 새 기준선이 됐다. 92쪽짜리 테크니컬 리포트는 데이터 큐레이션 파이프라인(15T 토큰), 스케일링 법칙 재검증, 포스트-트레이닝 레시피(SFT + DPO + Rejection Sampling), 인프라(16K H100 클러스터, 419회의 인터럽트, 가장 흔한 실패는 GPU + 메모리 + NIC 순)까지 전부 적었다. 이 리포트 한 편이 "현대 LLM을 어떻게 만드는가"에 대한 사실상의 교과서다. 8B 모델은 여전히 2026년에도 파인튜닝 베이스로 가장 많이 쓰인다.

Llama 3.3 70B는 같은 아키텍처에서 포스트-트레이닝만 강화해 GPT-4o 수준의 instruction following을 달성했다. Llama 4가 2025년 중반 멀티모달·MoE 구조로 공개되면서, "Llama가 곧 오픈 LLM 표준" 이라는 도식이 굳어졌다.

2장 · DeepSeek-V3와 R1 — MoE와 추론 RL의 정점

DeepSeek-V3 Technical Report (2024-12, arXiv:2412.19437)

671B 파라미터 MoE 모델을 14.8T 토큰으로 학습하는 데 들어간 비용이 H800 시간 기준 약 558만 달러. 이 한 줄이 업계를 흔들었다. 핵심 기술은 MLA(Multi-head Latent Attention) — KV cache를 1/10로 압축 — 와 DeepSeekMoE — 256개의 라우팅 expert + 1개의 공유 expert. Auxiliary-loss-free 부하 균형, FP8 학습, DualPipe 파이프라인 병렬화 같은 디테일이 후속 오픈 모델들의 표준이 됐다.

DeepSeek-R1 (2025-01, arXiv:2501.12948)

DeepSeek-R1은 V3 베이스에서 출발해 순수 RL만으로 o1-급 추론 능력을 발현시킨 사례다. GRPO(Group Relative Policy Optimization) 알고리즘이 핵심으로, PPO의 value network를 제거해 메모리를 절약했다. R1-Zero(SFT 없이 순수 RL)에서 모델이 스스로 "Wait, let me reconsider…" 같은 자기 검토 토큰을 생성하기 시작한 "aha moment" 보고는 2025년 가장 인용된 결과 중 하나다.

3장 · Qwen 시리즈 — 중국발 트라이링구얼 강자

Qwen2.5 Technical Report (2024-12, arXiv:2412.15115)와 Qwen3 Technical Report (2025-Q2)는 0.5B부터 72B까지 다양한 크기, 그리고 128K 컨텍스트 + 멀티모달 + 수학·코드 전용 변종을 동시에 공개한다. Qwen 시리즈는 한·중·일 언어 처리 에서 Llama를 능가하는 경우가 많고, Qwen2.5-Coder 32B는 오픈웨이트 코딩 모델 중 SWE-Bench 점수에서 한동안 1위를 지켰다. 2026년 한국·일본 스타트업이 자체 모델을 만들 때 가장 자주 베이스로 쓰는 후보다.

4장 · Mistral과 Mistral Large 2 — 유럽의 응답

Mistral 7B (2023-10, arXiv:2310.06825)는 sliding window attention과 grouped-query attention을 결합해 7B 사이즈로 Llama 2 13B를 이긴 첫 사례였다. 2024년 Mistral Large 2 (123B)와 2025년 Mistral Medium 3 가 Apache 2.0 또는 Mistral Research License로 공개되면서, 유럽발 오픈웨이트의 자리매김이 굳어졌다. Mixtral 8x7B, Mixtral 8x22B 의 sparse MoE는 DeepSeek 이전 MoE 표준이었고, Codestral 은 22B 코딩 전용으로 여전히 쓰인다.

5장 · Phi 시리즈 — "데이터의 질이 곧 모델의 질"

Phi-3 Technical Report (2024-04, arXiv:2404.14219)와 Phi-4 (2024-12, arXiv:2412.08905)는 Microsoft Research가 주도한 SLM(small language model) 흐름의 정점이다. 핵심 주장은 단순하다 — "textbook quality data" 로만 학습하면 3.8B 모델이 GPT-3.5를 이길 수 있다. Phi-4는 14B 사이즈로 GPQA와 MATH에서 Llama 3 70B를 따라잡았고, Phi-4-reasoning 은 o1-mini와 비슷한 추론 능력을 보여 SLM도 추론을 할 수 있다는 것을 증명했다.

6장 · Gemma 3와 Falcon 3 — 그 외의 오픈웨이트 진영

Gemma 3 Technical Report (2025-Q1)는 1B·4B·12B·27B 사이즈로, Gemini 2.0의 일부 기술(특히 attention 변종과 distillation)을 오픈웨이트로 가져왔다. 128K 컨텍스트와 멀티모달이 기본 탑재됐다.

Falcon 3 (TII, UAE)와 Command R+ (Cohere)는 각각 30B 이하 한국어·일본어가 약한 대신 영어·아랍어·다국어 RAG에 강점이 있다. Yi-Lightning(01.AI), GLM-4-9B(Zhipu)는 중국 외 시장에서 덜 알려졌지만 Chatbot Arena 상위권에 자주 든다.

7장 · 상용 모델 카드 — GPT-4, Claude 4.7, Gemini 2.5

상용 모델은 논문 대신 모델 카드(System Card) 가 정보원이다.

GPT-4 Technical Report (2023, arXiv:2303.08774) — 아키텍처 세부는 비공개지만 평가 방법론과 안전성 절차의 기준선.
OpenAI o1 System Card (2024-09) — 추론 모델의 첫 상용 사례. RL + CoT를 학습 시점에 통합.
OpenAI o3 / o4 System Card (2025) — ARC-AGI에서 처음으로 인간 평균을 넘어선 모델.
Anthropic Claude 4 / 4.5 / 4.7 Model Card — Constitutional AI 후속과 사이코판시 완화, 인용 기능, 컴퓨터 사용 등의 능력 카드.
Google Gemini 1.5 / 2.0 / 2.5 Technical Report (arXiv:2403.05530) — 1M~10M 토큰 컨텍스트 + 네이티브 멀티모달.

상용 모델 카드는 "벤치마크 숫자"보다 "평가 방법론, 안전성 인터벤션, 한계 사례" 를 보려고 읽는다.

8장 · Mixture-of-Experts — Switch Transformer에서 DeepSeekMoE까지

MoE는 2021년 Switch Transformer (arXiv:2101.03961)로 다시 부각됐고, GShard, GLaM, ST-MoE 를 거쳐 2024년 DeepSeekMoE (arXiv:2401.06066)에서 한 단계 진화했다. 핵심은 두 가지 — fine-grained expert segmentation (전문가 수를 늘리고 각자를 작게) + shared expert isolation (공통 지식을 따로 처리). DeepSeek-V3가 256+1 expert를 쓴 이유다.

Mixtral of Experts (arXiv:2401.04088)는 8개 expert 중 top-2를 활성화하는 구조로, 가장 많이 인용된 sparse MoE 구현이다. OLMoE(Allen AI)는 학습 코드와 데이터 전체를 공개한 첫 MoE다.

9장 · Attention 혁신 — MLA, GQA, Sliding Window, Mamba

GQA: Grouped-Query Attention (arXiv:2305.13245) — 여러 query head가 KV head를 공유. Llama 2/3, Mistral, 거의 모든 현대 모델의 기본.

MLA: Multi-head Latent Attention (arXiv:2405.04434, DeepSeek-V2 논문) — KV cache를 저랭크로 압축. 동일 컨텍스트에서 메모리 80% 절약.

Sliding Window Attention — Longformer (arXiv:2004.05150)와 Mistral 7B가 사용. 로컬 윈도우 + 글로벌 토큰.

Mamba / Mamba-2 (arXiv:2312.00752, arXiv:2405.21060) — SSM(State Space Model) 기반. attention의 O(N²) 대신 O(N). 긴 컨텍스트에서 처리량이 압도적. 하이브리드(트랜스포머 + Mamba 블록)가 2025-2026년 실험적으로 등장 — Jamba(AI21), Zamba2(Zyphra).

RWKV-7 — attention 없이 RNN으로 트랜스포머를 따라잡으려는 시도. 모바일·임베디드 후보.

10장 · 추론 모델 계보 — CoT, ToT, Self-Consistency, GRPO

Chain-of-Thought Prompting (arXiv:2201.11903, Wei et al. 2022) — "Let's think step by step." 한 줄로 GSM8K 정확도가 2배 뛴다.

Self-Consistency (arXiv:2203.11171) — 여러 번 샘플링해서 다수결. 추론 task에서 단일 샘플 대비 +10~20%.

Tree-of-Thoughts (arXiv:2305.10601) — 사고 과정을 트리로 탐색. 게임 24, 창의 글쓰기에서 효과.

Reflexion (arXiv:2303.11366) — 실패한 시도를 텍스트 형태로 메모리에 남기고 다음 시도에서 참고.

OpenAI o1 (블로그, 2024-09) + DeepSeek-R1 GRPO — 학습 시점에 RL로 long CoT를 발현. 2026년 모든 frontier 모델이 "thinking" 모드를 탑재한 이유.

Inference-Time Scaling Laws (arXiv:2408.03314) — 모델 크기를 키우는 것보다 추론 시간을 늘리는 것이 더 효율적일 수 있다는 결과.

# 추론 시간 스케일링의 한 형태 — Best-of-N + verifier
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
tok = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")

def best_of_n(prompt, n=16, verifier=None):
    inputs = tok(prompt, return_tensors="pt")
    candidates = []
    for _ in range(n):
        out = model.generate(
            **inputs,
            do_sample=True,
            temperature=0.8,
            max_new_tokens=512,
        )
        text = tok.decode(out[0], skip_special_tokens=True)
        score = verifier(text) if verifier else len(text)
        candidates.append((score, text))
    return max(candidates, key=lambda x: x[0])[1]

11장 · RLHF의 계보 — InstructGPT, Constitutional AI, DPO

InstructGPT (arXiv:2203.02155, Ouyang et al. 2022) — RLHF의 사실상 기준 논문. PPO + 보상 모델 + KL 페널티의 3단계 레시피가 여기서 굳어졌다.

Constitutional AI (arXiv:2212.08073, Anthropic 2022) — 인간 선호 대신 AI가 작성한 헌장(constitution) 으로 자기 비평. RLAIF의 기원.

DPO: Direct Preference Optimization (arXiv:2305.18290, Rafailov et al. 2023) — 보상 모델 없이 선호 데이터로 직접 학습. PPO의 복잡도를 제거하면서 비슷한 성능. 2024년 이후 사실상 표준.

ORPO (arXiv:2403.07691) — SFT와 선호 학습을 한 손실 함수에 합침. 단일 단계 RLHF.

KTO: Kahneman-Tversky Optimization (arXiv:2402.01306) — 쌍(preferred, rejected) 대신 단일 라벨(good/bad)로도 학습 가능. 라벨링 비용 절감.

SimPO (arXiv:2405.14734) — DPO의 reference 모델 의존성 제거. 메모리 절약.

비교표는 단순하다.

알고리즘	보상 모델	reference 모델	라벨 형태
PPO (RLHF)	필요	필요	쌍
DPO	불필요	필요	쌍
ORPO	불필요	불필요	쌍 + SFT
KTO	불필요	필요	단일
SimPO	불필요	불필요	쌍

12장 · 에이전트 — ReAct, Voyager, SWE-Agent, OS-Atlas

ReAct (arXiv:2210.03629) — Reasoning + Acting을 인터리브. 거의 모든 LLM 에이전트 프레임워크의 기반.

Voyager (arXiv:2305.16291) — Minecraft에서 평생 학습(lifelong learning) 에이전트. 스킬 라이브러리를 자동 구축.

SWE-Agent (arXiv:2405.15793) — 인간이 쓰는 IDE 대신 agent-computer interface(ACI) 를 설계. SWE-Bench에서 GPT-4를 12.5% → 18.0%로 끌어올림.

OS-Atlas (arXiv:2410.23218) — GUI 에이전트를 위한 grounding 모델. 화면 캡처 → 좌표/액션.

Computer Use 서베이 — Anthropic Claude Computer Use(2024-10) 이후 본격적인 평가 벤치마크(OSWorld, arXiv:2404.07972)가 등장.

# ReAct 패턴의 최소 의사 코드
def react_agent(task, tools, llm, max_steps=10):
    trajectory = [f"Task: {task}"]
    for step in range(max_steps):
        thought = llm(trajectory + ["Thought:"])
        action = llm(trajectory + ["Action:"])
        if action.startswith("Finish"):
            return action
        observation = tools.run(action)
        trajectory.append(f"Thought: {thought}\nAction: {action}\nObservation: {observation}")
    return "Max steps reached"

13장 · RAG의 계보 — 원조부터 GraphRAG까지

RAG (Retrieval-Augmented Generation) (arXiv:2005.11401, Lewis et al. 2020) — 검색 + 생성을 결합한 원조. open-domain QA의 표준.

FiD: Fusion-in-Decoder (arXiv:2007.01282) — 디코더에서 여러 passage를 융합. RAG보다 강력하지만 디코더 컨텍스트 비용 증가.

RETRO (arXiv:2112.04426, DeepMind) — 2T 토큰 데이터스토어를 모델 외부에 두고 chunk 단위 검색.

ColBERT / ColBERTv2 (arXiv:2004.12832) — late interaction. 토큰 레벨로 query-document 매칭, dense retrieval의 정확도 표준.

Self-RAG (arXiv:2310.11511) — 모델이 스스로 "검색이 필요한가" 를 판단하고 self-reflection 토큰을 생성.

GraphRAG (arXiv:2404.16130, Microsoft 2024) — 문서를 지식 그래프로 만들어 community summary 기반 검색. 글로벌 질문(요약, 트렌드)에 강함.

Contextual Retrieval (Anthropic 블로그, 2024-09) — chunk마다 컨텍스트 prefix를 prepend해 임베딩. 검색 실패율 49% → 35% 감소.

14장 · FlashAttention 1/2/3 — 메모리 계층의 재발견

FlashAttention (arXiv:2205.14135, Dao et al. 2022) — attention을 tiling으로 SRAM 안에서 처리. HBM I/O를 줄여 7.6배 가속.

FlashAttention-2 (arXiv:2307.08691) — 워크 분할을 재설계. 2x 속도. 대부분의 학습 코드가 여기로 이주.

FlashAttention-3 (arXiv:2407.08608) — Hopper(H100/H200)의 비동기 wgmma + TMA를 활용. FP16에서 75% MFU, FP8에서 1.2 PFLOPS.

# torch에서 FlashAttention 호출 — 2026년 표준
import torch
import torch.nn.functional as F

q = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
k = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
v = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)

# PyTorch 2.x의 SDPA가 자동으로 FlashAttention 백엔드를 선택
with torch.backends.cuda.sdp_kernel(
    enable_flash=True, enable_math=False, enable_mem_efficient=False
):
    out = F.scaled_dot_product_attention(q, k, v, is_causal=True)
print(out.shape)  # [2, 8, 4096, 128]

15장 · vLLM과 SGLang — 서빙 인프라의 표준

vLLM PagedAttention (arXiv:2309.06180, Kwon et al. 2023) — KV cache를 OS의 페이징처럼 관리. 메모리 fragmentation 90% → 4%로 감소. HuggingFace TGI, NVIDIA Triton보다 처리량 2-4배.

SGLang RadixAttention (arXiv:2312.07104) — KV cache를 라딕스 트리로 공유. 시스템 프롬프트가 겹치는 멀티턴 / few-shot에서 5배 빠름.

Mixture-of-Depths (arXiv:2404.02258, DeepMind 2024) — 토큰별로 트랜스포머 레이어를 동적으로 건너뜀. 같은 품질을 더 적은 FLOPS로.

Speculative Decoding (arXiv:2211.17192, Leviathan et al. 2022) — 작은 draft 모델로 여러 토큰을 미리 생성하고 큰 모델이 검증. 2-3x 가속이 기본.

# vLLM 표준 서빙 구성 — 2026년 프로덕션 패턴
docker run --gpus all -p 8000:8000 \
  -v ~/models:/models \
  vllm/vllm-openai:latest \
  --model /models/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 4 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.92 \
  --enable-prefix-caching \
  --enable-chunked-prefill

16장 · 긴 컨텍스트 — RoPE, YaRN, LongLoRA

RoPE: Rotary Positional Embedding (arXiv:2104.09864) — Llama 계열의 위치 인코딩 표준.

YaRN (arXiv:2309.00071) — RoPE를 NTK-aware로 스케일링. 4K 학습 모델을 128K로 확장.

LongLoRA (arXiv:2309.12307) — sparse local attention + LoRA로 효율적 컨텍스트 확장.

RingAttention (arXiv:2310.01889) — 디바이스 간 KV를 링 토폴로지로 통신. 1M+ 컨텍스트를 학습 가능하게.

Activation Beacon (arXiv:2401.03462) — 컨텍스트를 beacon 토큰으로 압축. 효율적 검색.

Gemini 1.5 Pro의 1M 토큰, Gemini 2.5의 10M 토큰은 이런 기술들의 조합 위에 있다.

17장 · 코드 LLM — StarCoder, DeepSeek Coder, Codestral

StarCoder 2 (arXiv:2402.19173, BigCode 2024) — 619개 프로그래밍 언어, 4T+ 토큰. 가중치와 학습 데이터 전체 공개.

DeepSeek Coder V2 (arXiv:2406.11931) — 236B MoE, 활성 21B. HumanEval과 MBPP에서 GPT-4 Turbo와 동급. V3는 671B MoE로 더 강화됨.

Codestral (Mistral, 2024-05) — 22B + 80개 언어 + 32K 컨텍스트. IDE 통합용으로 자주 쓰임.

Code Llama (arXiv:2308.12950) — Llama 2 기반의 코드 변종. Code Llama 70B는 한때 오픈웨이트 코딩 1위였다.

Qwen2.5-Coder (32B) — Qwen 시리즈의 코딩 변종. SWE-Bench에서 한동안 오픈 1위.

18장 · 작은 모델 — SLM 르네상스

2024-2026년의 큰 흐름 하나는 "작아도 잘 한다" 이다.

Phi-3.5 Mini (3.8B) — 모바일에서도 도는 강한 일반 모델.
Gemma 2B / 3 1B — Edge용 1B 사이즈.
Qwen2.5 3B / 7B — 다국어 SLM의 표준.
Mistral 7B / Mistral Nemo 12B — 클래식 사이즈 표준.
SmolLM2 (arXiv:2502.02737) — 360M·1.7B로 11T 토큰 학습. Hugging Face의 데이터 카탈로그(SmolLM-Corpus) 함께 공개.
TinyLlama (arXiv:2401.02385) — 1.1B 모델을 3T 토큰으로 학습.

2026년 모바일·임베디드 LLM은 거의 이들을 베이스로 한다.

19장 · 평가 — MMLU, GSM8K, HumanEval부터 SWE-Bench, OSWorld까지

전통 벤치마크:

MMLU (arXiv:2009.03300) — 57개 분야 다지선다.
GSM8K (arXiv:2110.14168) — 초등 수학.
MATH (arXiv:2103.03874) — 경시대회 수학.
HumanEval (arXiv:2107.03374) — 코딩 함수 완성.
BIG-Bench Hard (arXiv:2210.09261).

2024-2026 신세대:

GPQA (arXiv:2311.12022) — 박사 수준 STEM.
MMLU-Pro (arXiv:2406.01574) — MMLU의 답안 셔플 + 더 어려운 문제.
ARC-AGI (Chollet) — 일반 지능 측정. o3가 처음 인간 평균 통과.
SWE-Bench (arXiv:2310.06770) + SWE-Bench Verified — 실제 GitHub 이슈 해결.
OSWorld (arXiv:2404.07972) — 컴퓨터 사용 에이전트.
MMMU (arXiv:2311.16502) — 멀티모달 다지선다.
LMSYS Chatbot Arena (arXiv:2403.04132) — 사람이 직접 비교 투표. ELO 형태.

2026년 frontier 모델은 GSM8K·HumanEval에서 포화 상태고, 의미 있는 지표는 SWE-Bench·OSWorld·GPQA·ARC-AGI로 옮겨갔다.

20장 · 주요 모델 비교표

모델	출시	크기	MMLU	HumanEval	GSM8K	SWE-Bench
Llama 3.1 70B	2024-07	70B	86.0	80.5	95.1	31.2
Llama 3.3 70B	2024-12	70B	86.9	88.4	96.5	41.4
DeepSeek-V3	2024-12	671B MoE	88.5	89.0	89.3	42.0
DeepSeek-R1	2025-01	671B MoE	91.2	96.3	97.3	49.2
Qwen2.5-72B	2024-09	72B	86.1	86.6	95.8	36.0
Mistral Large 2	2024-07	123B	84.0	92.0	93.0	32.0
Phi-4	2024-12	14B	84.8	82.6	80.4	-
Gemma 3 27B	2025-Q1	27B	81.0	79.8	89.2	28.5
GPT-4o	2024-05	?	88.7	90.2	95.8	33.2
Claude 4.7	2026	?	90.1	96.3	96.4	65+
Gemini 2.5 Pro	2025	?	89.8	92.0	95.4	51.0

숫자는 각 모델 카드의 자체 보고치 또는 LMSYS/Open LLM Leaderboard 평균. 비교 자체보다는 "한 세대마다 어디가 포화되고 어디가 남았는가" 를 본다.

21장 · 안전성과 정렬 — Constitutional AI, Sycophancy, Refusal

Constitutional AI (arXiv:2212.08073)는 RLHF에서 인간 라벨을 줄이고 모델 자기 비평으로 대체하는 방향을 열었다.

Discovering Language Model Behaviors with Model-Written Evaluations (arXiv:2212.09251) — sycophancy(아첨)와 같은 미묘한 정렬 실패를 모델 자체로 측정.

Universal and Transferable Adversarial Attacks on Aligned Language Models (arXiv:2307.15043, GCG attack) — 추가 토큰으로 정렬을 깰 수 있음을 체계적으로 증명.

Jailbreak Survey (arXiv:2402.13457) — 2024년까지의 jailbreak 분류.

Sleeper Agents (arXiv:2401.05566, Anthropic) — 학습 시 백도어를 심으면 safety training으로 제거되지 않는다는 결과. 정렬의 한계를 보여준 중요 논문.

Tamper-Resistant Safeguards (arXiv:2408.00761) — 오픈웨이트 모델에서 안전성을 추가 파인튜닝으로도 깨지지 않게 하려는 시도.

22장 · 한국 모델 — HyperCLOVA X, EXAONE 3.5, Kanana

HyperCLOVA X Technical Report (arXiv:2404.01954, Naver 2024) — 한국어 + 영어 이중언어 + 한국 문화·법률·의료 도메인 평가셋(KoBigBench, KMMLU) 동반 공개. 한국어 LLM의 사실상 기준 리포트.

EXAONE 3.5 (LG AI Research, 2024-12) — 2.4B·7.8B·32B. 영어·한국어 이중언어, 32K 컨텍스트. Apache 2.0이 아닌 EXAONE AI Model License지만 연구 목적 사용 가능.

Kanana (Kakao, 2025) — 2B·8B·32B. 한국어 + 영어. 카카오톡 내부 LLM 백본.

KORAi / KORani / KoGPT / Polyglot-Ko — 그 전 세대의 한국어 모델들. 2025년부터는 위 셋이 사실상 메이저.

KMMLU (arXiv:2402.11548) — 한국어 MMLU. 한국 모델 평가의 기본.

23장 · 일본 모델 — Sakana, Stockmark, Swallow, PLaMo

Sakana AI Evolutionary Optimization of Model Merging Recipes (arXiv:2403.13187) — 진화 알고리즘으로 다국어 모델을 자동 머지. EvoLLM-JP가 출시되며 일본어 LLM의 새 방향 제시.

Stockmark-100b (Stockmark, 2024) — 100B 일본어·영어 이중언어 모델. 일본 비즈니스 도메인 코퍼스 사용.

Swallow (Tokyo Tech, arXiv:2404.17790) — Llama 2/3를 일본어 코퍼스로 continual pretraining.

PLaMo 2 / 100B (Preferred Networks) — 일본어 + 영어 + 코드. PFN의 자체 학습 코퍼스.

NEC cotomi — 일본어 비즈니스 도메인 LLM. 130B와 7B 변종.

Rakuten AI 7B, Karasu, Stable LM Japanese 등 7B 사이즈 일본어 모델도 다수.

JGLUE / Japanese MT-Bench — 일본어 평가 표준.

24장 · 데이터 — Dolma, RedPajama, FineWeb

오픈 학습 데이터셋 3대장.

Dolma (arXiv:2402.00159, AI2) — 3T 토큰. OLMo 학습에 사용.
RedPajama-Data-v2 (Together AI, 2023-10) — 30T 토큰. 다국어 + 영어.
FineWeb (arXiv:2406.17557, HuggingFace) — 15T 토큰 + FineWeb-Edu 1.3T 토큰 변종.

The Pile (arXiv:2101.00027, EleutherAI) — 2021년의 800GB. 오픈 LLM의 시작점이었던 데이터.

Common Crawl과 그 위의 정제 파이프라인(CCNet, DataComp-LM, TxT360, Nemotron-CC)이 2026년 오픈 데이터 합리화의 표준.

25장 · 멀티모달 — LLaVA, CogVLM, Qwen-VL, Pixtral

LLaVA (arXiv:2304.08485, 2023) — Vicuna + CLIP visual encoder + projection. 오픈 멀티모달의 시작.

LLaVA-1.5 / LLaVA-NeXT — 해상도 처리와 멀티턴 강화.

Qwen-VL / Qwen2-VL (arXiv:2308.12966, arXiv:2409.12191) — 임의 해상도, 다국어 OCR. Qwen2.5-VL은 비디오까지.

Pixtral 12B (Mistral, 2024-09) — Pixtral의 vision encoder는 임의 해상도 패치.

Idefics 3 (HuggingFace) — 오픈 데이터 + 오픈 가중치 멀티모달.

Molmo (AI2, arXiv:2409.17146) — 포인팅(좌표 가리키기)을 학습 task로. 에이전트와 호환성 강.

26장 · 읽기 순서 — 2026년 엔지니어를 위한 30편 큐레이션

다 읽을 시간이 없다면 이 순서로:

Llama 3 Technical Report — 현대 LLM 제작의 전체 그림.
DeepSeek-V3 Technical Report — 비용 효율 학습의 정점.
DeepSeek-R1 — RL 기반 추론.
Mixtral of Experts — MoE 표준.
DeepSeekMoE — fine-grained MoE.
GQA + MLA — attention 효율의 두 축.
FlashAttention-2 — 학습 가속 표준.
vLLM PagedAttention — 서빙 표준.
SGLang RadixAttention — 캐시 공유.
CoT Prompting — 추론의 출발점.
DPO — 포스트-트레이닝 표준.
Constitutional AI — RLAIF의 기원.
ReAct — 에이전트의 출발점.
SWE-Agent — 코드 에이전트 표준.
OSWorld — 컴퓨터 사용 평가.
RAG 원조 — 검색 결합의 시작.
ColBERTv2 — dense retrieval 정확도.
GraphRAG — 글로벌 RAG.
Self-RAG — 자기 검색.
YaRN — RoPE 스케일링.
RingAttention — 긴 컨텍스트 학습.
Speculative Decoding — 디코딩 가속.
Phi-3 / Phi-4 — SLM 르네상스.
SmolLM2 — 오픈 SLM 데이터.
MMLU + GPQA — 평가 기준.
SWE-Bench Verified — 코드 평가.
LMSYS Chatbot Arena — 사람 선호.
Sleeper Agents — 정렬의 한계.
HyperCLOVA X — 한국어 LLM 기준.
Sakana EvoLLM — 모델 머지.

이 순서로 한 주 한 편씩 30주, 또는 빠르게 30일이면 2026년 LLM 풍경이 전부 머리에 들어온다.

References

arxiv.org — https://arxiv.org/
Llama 3 Technical Report — https://arxiv.org/abs/2407.21783
DeepSeek-V3 Technical Report — https://arxiv.org/abs/2412.19437
DeepSeek-R1 — https://arxiv.org/abs/2501.12948
Qwen2.5 Technical Report — https://arxiv.org/abs/2412.15115
Mistral 7B — https://arxiv.org/abs/2310.06825
Mixtral of Experts — https://arxiv.org/abs/2401.04088
Phi-3 Technical Report — https://arxiv.org/abs/2404.14219
Phi-4 — https://arxiv.org/abs/2412.08905
Gemini 1.5 — https://arxiv.org/abs/2403.05530
Switch Transformer — https://arxiv.org/abs/2101.03961
DeepSeekMoE — https://arxiv.org/abs/2401.06066
GQA — https://arxiv.org/abs/2305.13245
MLA / DeepSeek-V2 — https://arxiv.org/abs/2405.04434
Mamba — https://arxiv.org/abs/2312.00752
Mamba-2 — https://arxiv.org/abs/2405.21060
Chain-of-Thought — https://arxiv.org/abs/2201.11903
Self-Consistency — https://arxiv.org/abs/2203.11171
Tree-of-Thoughts — https://arxiv.org/abs/2305.10601
Inference-Time Scaling — https://arxiv.org/abs/2408.03314
InstructGPT — https://arxiv.org/abs/2203.02155
Constitutional AI — https://arxiv.org/abs/2212.08073
DPO — https://arxiv.org/abs/2305.18290
ORPO — https://arxiv.org/abs/2403.07691
KTO — https://arxiv.org/abs/2402.01306
SimPO — https://arxiv.org/abs/2405.14734
ReAct — https://arxiv.org/abs/2210.03629
Voyager — https://arxiv.org/abs/2305.16291
SWE-Agent — https://arxiv.org/abs/2405.15793
OS-Atlas — https://arxiv.org/abs/2410.23218
OSWorld — https://arxiv.org/abs/2404.07972
RAG — https://arxiv.org/abs/2005.11401
FiD — https://arxiv.org/abs/2007.01282
RETRO — https://arxiv.org/abs/2112.04426
ColBERT — https://arxiv.org/abs/2004.12832
Self-RAG — https://arxiv.org/abs/2310.11511
GraphRAG — https://arxiv.org/abs/2404.16130
FlashAttention — https://arxiv.org/abs/2205.14135
FlashAttention-2 — https://arxiv.org/abs/2307.08691
FlashAttention-3 — https://arxiv.org/abs/2407.08608
vLLM PagedAttention — https://arxiv.org/abs/2309.06180
SGLang — https://arxiv.org/abs/2312.07104
Speculative Decoding — https://arxiv.org/abs/2211.17192
Mixture-of-Depths — https://arxiv.org/abs/2404.02258
RoPE — https://arxiv.org/abs/2104.09864
YaRN — https://arxiv.org/abs/2309.00071
LongLoRA — https://arxiv.org/abs/2309.12307
RingAttention — https://arxiv.org/abs/2310.01889
Activation Beacon — https://arxiv.org/abs/2401.03462
StarCoder 2 — https://arxiv.org/abs/2402.19173
DeepSeek Coder V2 — https://arxiv.org/abs/2406.11931
Code Llama — https://arxiv.org/abs/2308.12950
MMLU — https://arxiv.org/abs/2009.03300
GSM8K — https://arxiv.org/abs/2110.14168
MATH — https://arxiv.org/abs/2103.03874
HumanEval — https://arxiv.org/abs/2107.03374
GPQA — https://arxiv.org/abs/2311.12022
SWE-Bench — https://arxiv.org/abs/2310.06770
MMMU — https://arxiv.org/abs/2311.16502
LMSYS Chatbot Arena — https://arxiv.org/abs/2403.04132
HyperCLOVA X — https://arxiv.org/abs/2404.01954
KMMLU — https://arxiv.org/abs/2402.11548
Sakana EvoLLM — https://arxiv.org/abs/2403.13187
Swallow — https://arxiv.org/abs/2404.17790
Sleeper Agents — https://arxiv.org/abs/2401.05566
HuggingFace — https://huggingface.co/
Meta AI Research — https://ai.meta.com/research/
DeepSeek — https://www.deepseek.com/
Qwen — https://qwenlm.github.io/
Mistral AI — https://mistral.ai/news/
OpenAI Research — https://openai.com/research/
Anthropic Research — https://www.anthropic.com/research
Google DeepMind Research — https://deepmind.google/research/
vLLM — https://github.com/vllm-project/vllm
SGLang — https://github.com/sgl-project/sglang