Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 논문을 안 읽어도, 지도는 있어야 한다

LLM 분야는 논문이 너무 많이 나온다. 매주 arXiv에 수백 편이 올라오고, 트위터·블로그·뉴스레터가 "이 논문이 게임체인저"라고 외친다. 다 읽을 수도 없고, 다 중요하지도 않다.

하지만 **랜드마크는 있다**. 그 후의 모든 흐름을 바꾼 논문들. 이걸 알면 새 논문이 나왔을 때 "이게 무엇의 후속인가"가 보인다. 모르면 매번 처음부터 본다.

이 글은 LLM의 랜드마크 논문 20여 편을 **시기·주제별로** 정리한다. 각 논문은:

- **왜 중요한가** — 무엇이 처음이었나, 무엇을 가능케 했나

- **한 줄 요약** — 핵심 아이디어

- **후속 영향** — 어떤 흐름으로 이어졌나

목적은 "다 읽으세요"가 아니라 **지도**다. 어떤 논문이 어디 위치하는지 알면 필요할 때 정확히 찾을 수 있다. 끝에는 모든 arXiv 링크를 모아 둔다.

> 이 글은 모델 자체(GPT-4·Claude·Gemini 등 제품) 카탈로그가 아니라 **논문**(아이디어와 방법) 지도다. 제품은 6개월이면 바뀌지만, 아이디어는 오래 간다.

1장 · 기반 — Transformer 이전과 시작

Attention is All You Need (Vaswani et al., 2017)

- **왜 중요한가** — 모든 현대 LLM의 출발점. RNN·LSTM을 폐기하고 **Self-Attention 기반 Transformer**를 제시. 병렬화 가능, 긴 시퀀스에서 강함.

- **한 줄 요약** — "Attention만으로 시퀀스 모델링이 가능하고, 더 잘된다."

- **후속 영향** — GPT·BERT·T5·LLaMA·Claude — 전부 이 아키텍처의 후예. 2024년 이후의 Mamba·RWKV 같은 비-Transformer 시도들도 결국 Transformer를 기준점으로 정의된다.

BERT (Devlin et al., 2018)

- **왜 중요한가** — **양방향 인코더 + masked LM 사전학습** 패러다임 제시. NLP에서 "사전학습 + 미세조정"이라는 모범 워크플로를 대중화.

- **한 줄 요약** — "문장의 양쪽 문맥을 동시에 보는 Transformer 인코더."

- **후속 영향** — 분류·검색·임베딩 모델의 표준. 임베딩 모델(`text-embedding-3`, BGE, Voyage 등)의 조상.

2장 · 스케일링과 GPT 계보

GPT-2 (Radford et al., 2019)

- **왜 중요한가** — "**언어 모델은 비지도 멀티태스크 학습자**"라는 발견. 크기와 데이터를 늘리면 별도 미세조정 없이도 zero/few-shot으로 다양한 태스크를 한다는 증거.

- **한 줄 요약** — "크게 만들면, 가르치지 않은 것도 한다."

- **후속 영향** — "스케일링" 패러다임의 시작. GPT-3·4·5의 길.

GPT-3 (Brown et al., 2020) — "Language Models are Few-Shot Learners"

- **왜 중요한가** — **In-context learning**이 처음으로 강력하게 작동함을 보임. 모델에 예시 몇 개만 주면 학습 없이 새 태스크를 해낸다. 175B 파라미터.

- **한 줄 요약** — "프롬프트에 예시를 넣으면 모델이 새 태스크를 한다."

- **후속 영향** — "프롬프트 엔지니어링"이라는 분야 자체가 여기서 시작. ChatGPT의 직접 조상.

Scaling Laws (Kaplan et al., 2020 → Chinchilla, Hoffmann et al., 2022)

- **왜 중요한가** — 모델 성능이 파라미터 수·데이터·연산량과 어떻게 관계되는지 정량화. **Chinchilla**는 GPT-3가 사실은 **데이터 부족**이었음을 보이고, 최적 모델/데이터 비율을 제시.

- **한 줄 요약** — "모델을 키우는 만큼 데이터도 같이 키워야 한다."

- **후속 영향** — LLaMA·Mistral 등 "작지만 데이터 잘 먹은" 효율 모델 시대를 연다.

3장 · 사람 선호로 정렬하기 — RLHF와 그 이후

InstructGPT / RLHF (Ouyang et al., 2022)

- **왜 중요한가** — 사전학습 LLM을 **사람의 선호로 미세조정**해 "도움이 되고 해롭지 않은" 어시스턴트를 만드는 레시피. ChatGPT의 기술적 기반.

- **한 줄 요약** — "SFT → 보상 모델 학습 → PPO로 정책 최적화."

- **후속 영향** — 모든 대화형 LLM의 표준 학습 절차. "정렬(alignment)"이라는 분야의 실용적 출발점.

Constitutional AI (Bai et al., 2022) — Anthropic

- **왜 중요한가** — 사람의 라벨링 대신 **AI 자신이 원칙(헌법)에 따라 자기 출력을 비판·수정**하게 함. 인간 라벨 비용을 줄이고, 더 일관된 안전성을 추구.

- **한 줄 요약** — "RLHF에서 H(인간)의 상당 부분을 AI로 대체."

- **후속 영향** — Claude의 핵심 학습 방법. **RLAIF(AI 피드백)** 흐름의 출발점.

DPO (Rafailov et al., 2023) — Direct Preference Optimization

- **왜 중요한가** — RLHF에서 PPO·보상 모델을 거치지 않고 **선호 쌍 데이터로 정책을 직접 최적화**. 훨씬 간단하고 안정적.

- **한 줄 요약** — "보상 모델 없이, 선호 데이터만으로 정렬."

- **후속 영향** — 오픈소스 미세조정의 사실상 표준. 후속으로 ORPO·KTO 등 변형들이 쏟아진다.

4장 · 추론을 이끌어내기 — Chain-of-Thought부터 o1까지

Chain-of-Thought Prompting (Wei et al., 2022)

- **왜 중요한가** — 단순한 한 줄로 모델의 추론 능력이 극적으로 향상됨을 보임 — "Let's think step by step." 단순한 프롬프트 기법이 새 능력을 깨운다는 첫 강력한 증거.

- **한 줄 요약** — "추론을 단계별로 쓰게 하면 더 잘 푼다."

- **후속 영향** — Tree-of-Thoughts, Self-Consistency, Reflexion 등 "추론 인출" 기법 폭발. 결국 추론 모델(o1)로 이어진다.

Self-Consistency (Wang et al., 2022)

- **왜 중요한가** — 여러 추론 경로를 샘플링하고 **다수결**로 답을 결정. CoT의 자연스러운 확장.

- **한 줄 요약** — "여러 번 풀게 하고, 가장 자주 나온 답을 채택."

- **후속 영향** — 추론 시간에 연산을 더 써서 정확도를 올리는(test-time compute) 흐름의 초기 사례.

ReAct (Yao et al., 2022)

- **왜 중요한가** — 추론(Reasoning)과 행동(Action)을 인터리브하는 에이전트 패턴. 모델이 "생각 → 도구 호출 → 관찰 → 다시 생각"을 반복.

- **한 줄 요약** — "추론과 도구 사용을 한 루프 안에서."

- **후속 영향** — 거의 모든 AI 에이전트 하네스의 기본 패턴.

OpenAI o1 / o3 시스템 카드 (2024–2025)

- **왜 중요한가** — **추론 시간(test-time compute)을 늘려 강화학습으로 만든 추론 모델**. 짧은 답 대신 긴 사고 체인을 생성하고, 자가 검증·수정한다.

- **한 줄 요약** — "더 오래 생각하게 만들면, 더 어려운 문제를 푼다."

- **후속 영향** — DeepSeek-R1, Claude의 thinking 모드, Gemini의 Deep Think 등 추론 모델 경쟁의 시작.

DeepSeek-R1 (DeepSeek-AI, 2025)

- **왜 중요한가** — **순수 강화학습(RLVR — 검증 가능한 보상)**으로 추론 능력을 끌어낼 수 있음을 공개적으로 입증. 오픈 가중치로 공개되어 추론 모델 연구를 가속.

- **한 줄 요약** — "사람 라벨 없이, 검증 가능한 보상만으로 추론을 학습."

- **후속 영향** — 오픈소스 추론 모델·재현 연구의 폭발. "RL은 비싸다"는 통념을 바꿈.

5장 · 효율과 오픈 모델 — LLaMA 시대

LLaMA / LLaMA 2 / LLaMA 3 (Touvron et al., 2023–2024) — Meta

- **왜 중요한가** — **고품질 오픈 가중치 모델**의 결정적 등장. Chinchilla 교훈을 실천(작지만 데이터 충분)해, 작은 모델로도 강력한 성능을 보임.

- **한 줄 요약** — "오픈 가중치 + 데이터 잘 먹은 작은 모델."

- **후속 영향** — Mistral, Qwen, Gemma, DeepSeek, Yi 등 오픈 가중치 모델 생태계 전체의 토대. 미세조정 산업의 출발점.

Mixtral 8x7B (Jiang et al., 2024) — Mixture-of-Experts

- **왜 중요한가** — **희소 MoE(Sparse MoE)**가 오픈 가중치로 실용적으로 작동함을 입증. 추론 시 일부 전문가만 활성화해 비용 절감.

- **한 줄 요약** — "총 파라미터는 크고, 활성 파라미터는 작은 모델."

- **후속 영향** — DeepSeek-V3, Qwen3-MoE, GPT-4(루머상 MoE) 등 거의 모든 최첨단 모델이 MoE 방향으로.

FlashAttention (Dao et al., 2022) → FlashAttention-2/3

- **왜 중요한가** — Attention 계산을 GPU 메모리 계층에 맞춰 **IO-aware**하게 재작성. 학습·추론을 동시에 빠르고 메모리 효율적으로.

- **한 줄 요약** — "Attention을 다시 짜서, 같은 결과 더 싸게."

- **후속 영향** — 사실상 모든 LLM 학습/추론 스택의 기본. PagedAttention(vLLM)·xFormers 등의 발판.

6장 · 컨텍스트 길이·검색·외부 도구

RAG (Lewis et al., 2020) — Retrieval-Augmented Generation

- **왜 중요한가** — LLM에 외부 지식을 검색해 넣어 환각을 줄이고 최신성을 부여. **검색 + 생성** 패러다임의 명명.

- **한 줄 요약** — "물어보기 전에 검색해서, 그 컨텍스트로 답하라."

- **후속 영향** — 사실상 모든 엔터프라이즈 LLM 앱의 토대. RAG 자체가 한 산업.

Toolformer (Schick et al., 2023) → Tool/Function Calling

- **왜 중요한가** — LLM이 **외부 도구(API·계산기·검색)**를 호출하는 법을 자기학습. 이후 OpenAI의 function calling, Anthropic의 tool use가 이 흐름을 제품화.

- **한 줄 요약** — "모델이 스스로 'API를 쓸까?'를 결정."

- **후속 영향** — 모든 AI 에이전트의 도구 사용 패러다임. MCP(Model Context Protocol)까지 이어진다.

Lost in the Middle (Liu et al., 2023)

- **왜 중요한가** — 긴 컨텍스트에서 모델이 **앞·뒤만 잘 쓰고 중간을 흘린다**는 실증. "긴 컨텍스트 = 좋은 컨텍스트"라는 환상을 깸.

- **한 줄 요약** — "컨텍스트 윈도우의 가운데는 거의 안 본다."

- **후속 영향** — 컨텍스트 엔지니어링 분야의 핵심 인용. 검색·재정렬·컨텍스트 압축 연구의 동기.

7장 · 멀티모달

CLIP (Radford et al., 2021)

- **왜 중요한가** — **이미지와 텍스트를 같은 임베딩 공간**에 두는 대조학습. 제로샷 이미지 분류, 텍스트→이미지(Stable Diffusion 등)의 기반.

- **한 줄 요약** — "이미지와 캡션을 같은 벡터 공간에 정렬."

- **후속 영향** — DALL·E, Stable Diffusion, CLIP-기반 검색, 거의 모든 VLM의 인코더.

ViT (Dosovitskiy et al., 2020) — Vision Transformer

- **왜 중요한가** — **이미지를 패치 시퀀스로** 다뤄 Transformer가 vision에서도 통함을 입증. CNN 독점을 흔든 첫 사건.

- **한 줄 요약** — "이미지를 단어처럼 쪼개서 Transformer에 넣는다."

- **후속 영향** — DETR, Swin, SAM, LLaVA 등 vision·VLM 전체.

LLaVA / GPT-4V — Vision-Language Models

- **왜 중요한가** — LLM에 **vision encoder + projection**을 붙여 멀티모달 LLM의 실용적 레시피 확립.

- **한 줄 요약** — "이미지 인코더 출력을 LLM의 토큰 공간으로 투영."

- **후속 영향** — Claude 3+ Vision, Gemini, Qwen-VL 등 멀티모달 어시스턴트의 표준 구조.

8장 · 에이전트와 평가

Reflexion (Shinn et al., 2023)

- **왜 중요한가** — 에이전트가 자기 출력을 **자가 비판하고 다음 시도에서 반영**. 코딩·추론에서 뚜렷한 개선.

- **한 줄 요약** — "실패 → 반성 → 다시 시도."

- **후속 영향** — 자기 수정 루프를 가진 거의 모든 에이전트 하네스.

SWE-bench (Jimenez et al., 2023)

- **왜 중요한가** — LLM의 **실제 GitHub 이슈 해결 능력**을 측정하는 벤치마크. 토이가 아닌 진짜 코드에서 평가.

- **한 줄 요약** — "벤치마크를 GitHub 이슈로."

- **후속 영향** — SWE-bench Verified가 사실상 코딩 에이전트의 표준 지표. Devin·Cursor·Claude Code 등의 비교 기준.

ARC-AGI / ARC-AGI-2 (Chollet, 2019 / 2025)

- **왜 중요한가** — **데이터로 풀 수 없는 추상 추론** 벤치마크. LLM이 단순 패턴 매칭이 아닌 일반화를 하는지 시험.

- **한 줄 요약** — "추상 추론·일반화의 리트머스."

- **후속 영향** — 추론 모델 시대에 다시 부상. ARC-AGI-2는 더 어려워졌다.

9장 · 안전·해석가능성·정렬

Sleeper Agents (Hubinger et al., 2024) — Anthropic

- **왜 중요한가** — **숨겨진 백도어를 가진 모델**을 안전성 학습으로 제거할 수 있는가? 결과: 일부 백도어는 학습으로도 제거되지 않는다.

- **한 줄 요약** — "정렬 학습은 백도어를 완전히 못 지운다."

- **후속 영향** — AI 안전성 연구의 경각심. 사전학습 데이터 검증·해석가능성의 중요성을 부각.

Mechanistic Interpretability — Toy Models of Superposition (Elhage et al., 2022) 외

- **왜 중요한가** — 모델 내부 회로를 **회로(circuit)** 단위로 이해하려는 시도. Anthropic·OpenAI 등의 해석가능성 연구 흐름.

- **한 줄 요약** — "신경망 안에서 무슨 계산이 일어나는지 회로로 본다."

- **후속 영향** — 안전성·디버깅·정렬의 토대로 점차 인정. 2025년 이후 dictionary learning·SAE가 주목.

10장 · 이걸 어떻게 따라잡나 — 실용 가이드

20편을 다 못 읽어도 된다. 다음 전략을 권한다.

우선순위

1. **무조건 읽을 것**: Attention is All You Need, GPT-3, InstructGPT, RAG, ReAct.

2. **개념만 알아두면 되는 것**: 나머지 — 위 요약으로 충분.

3. **본인 분야 깊이 읽기**: 코딩 에이전트면 SWE-bench·Reflexion; vision이면 ViT·CLIP·LLaVA; 추론이면 o1·DeepSeek-R1.

따라잡기 워크플로

- **arXiv 일일 다이제스트** 구독 (cs.CL / cs.AI). 헤드라인만 보고 1주에 1편 깊이 읽기.

- **블로그·뉴스레터**: Anthropic Research, OpenAI Blog, DeepMind Blog, Jay Alammar(시각화), Lilian Weng's Log, Sebastian Raschka, Simon Willison, Latent Space.

- **재현 연구**: 인기 논문은 **HuggingFace blog**·**Eugene Yan**·**Simon Willison**이 보통 해설 + 코드를 올린다. 원논문 + 해설을 같이 보는 게 가장 효율적.

- **LLM에게 물어보기**: 논문 PDF를 모델에 넣고 "이 논문의 핵심 기여 3가지"부터 시작. 단, 환각 주의 — 인용은 항상 원문 확인.

에필로그 — 지도가 있으면, 길을 잃지 않는다

LLM 분야는 빠르다. 그래서 **지도**가 가치 있다. 새 논문이 나왔을 때 "이게 Chain-of-Thought 후속이구나", "이건 MoE의 변형이구나", "DPO 계열이구나" — 이렇게 위치를 잡을 수 있으면 절반은 이해한 셈이다.

이 20편이 그 좌표계다. 다 깊이 읽지 않아도 된다. 어디 있는지만 알면 된다.

5개 항목 체크리스트

1. Attention is All You Need를 한 번이라도 직접 읽었는가?

2. RLHF·DPO의 차이를 한 문장으로 설명할 수 있는가?

3. CoT·Self-Consistency·o1의 관계가 머릿속에 있는가?

4. 본인 분야의 랜드마크 3편은 꼽을 수 있는가?

5. 일일 다이제스트나 큐레이션을 하나라도 구독하는가?

참고문헌 (References)

핵심 논문·블로그·페이지 — arXiv 링크는 abstract 페이지로 연결됩니다.

기반 아키텍처

- Vaswani et al., **"Attention Is All You Need"** (2017): https://arxiv.org/abs/1706.03762

- Devlin et al., **"BERT: Pre-training of Deep Bidirectional Transformers"** (2018): https://arxiv.org/abs/1810.04805

스케일링·GPT

- Radford et al., **"Language Models are Unsupervised Multitask Learners"** (GPT-2, 2019): https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

- Brown et al., **"Language Models are Few-Shot Learners"** (GPT-3, 2020): https://arxiv.org/abs/2005.14165

- Kaplan et al., **"Scaling Laws for Neural Language Models"** (2020): https://arxiv.org/abs/2001.08361

- Hoffmann et al., **"Training Compute-Optimal Large Language Models"** (Chinchilla, 2022): https://arxiv.org/abs/2203.15556

정렬 (Alignment)

- Ouyang et al., **"Training language models to follow instructions with human feedback"** (InstructGPT, 2022): https://arxiv.org/abs/2203.02155

- Bai et al., **"Constitutional AI: Harmlessness from AI Feedback"** (2022): https://arxiv.org/abs/2212.08073

- Rafailov et al., **"Direct Preference Optimization"** (DPO, 2023): https://arxiv.org/abs/2305.18290

추론 (Reasoning)

- Wei et al., **"Chain-of-Thought Prompting Elicits Reasoning"** (2022): https://arxiv.org/abs/2201.11903

- Wang et al., **"Self-Consistency Improves Chain of Thought Reasoning"** (2022): https://arxiv.org/abs/2203.11171

- Yao et al., **"ReAct: Synergizing Reasoning and Acting"** (2022): https://arxiv.org/abs/2210.03629

- OpenAI **"Learning to Reason with LLMs"** (o1 blog, 2024): https://openai.com/index/learning-to-reason-with-llms/

- DeepSeek-AI, **"DeepSeek-R1: Incentivizing Reasoning Capability via Reinforcement Learning"** (2025): https://arxiv.org/abs/2501.12948

오픈 모델·효율

- Touvron et al., **"LLaMA: Open and Efficient Foundation Language Models"** (2023): https://arxiv.org/abs/2302.13971

- Touvron et al., **"Llama 2: Open Foundation and Fine-Tuned Chat Models"** (2023): https://arxiv.org/abs/2307.09288

- Meta AI, **"The Llama 3 Herd of Models"** (2024): https://arxiv.org/abs/2407.21783

- Jiang et al., **"Mixtral of Experts"** (2024): https://arxiv.org/abs/2401.04088

- Dao et al., **"FlashAttention: Fast and Memory-Efficient Exact Attention"** (2022): https://arxiv.org/abs/2205.14135

검색·도구·컨텍스트

- Lewis et al., **"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"** (RAG, 2020): https://arxiv.org/abs/2005.11401

- Schick et al., **"Toolformer: Language Models Can Teach Themselves to Use Tools"** (2023): https://arxiv.org/abs/2302.04761

- Liu et al., **"Lost in the Middle: How Language Models Use Long Contexts"** (2023): https://arxiv.org/abs/2307.03172

멀티모달

- Radford et al., **"Learning Transferable Visual Models From Natural Language Supervision"** (CLIP, 2021): https://arxiv.org/abs/2103.00020

- Dosovitskiy et al., **"An Image is Worth 16x16 Words"** (ViT, 2020): https://arxiv.org/abs/2010.11929

- Liu et al., **"Visual Instruction Tuning"** (LLaVA, 2023): https://arxiv.org/abs/2304.08485

에이전트·평가

- Shinn et al., **"Reflexion: Language Agents with Verbal Reinforcement Learning"** (2023): https://arxiv.org/abs/2303.11366

- Jimenez et al., **"SWE-bench: Can Language Models Resolve Real-World GitHub Issues?"** (2023): https://arxiv.org/abs/2310.06770

- Chollet, **"On the Measure of Intelligence"** (ARC, 2019): https://arxiv.org/abs/1911.01547

- Chollet et al., **"ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems"** (2025): https://arxiv.org/abs/2505.11831

안전·해석가능성

- Hubinger et al., **"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training"** (2024): https://arxiv.org/abs/2401.05566

- Elhage et al., **"Toy Models of Superposition"** (Anthropic, 2022): https://transformer-circuits.pub/2022/toy_model/index.html

큐레이션·해설 (정기 구독 추천)

- Anthropic Research: https://www.anthropic.com/research

- OpenAI Research: https://openai.com/research

- Lilian Weng's Log: https://lilianweng.github.io/

- Jay Alammar (visual explanations): https://jalammar.github.io/

- Sebastian Raschka, **Ahead of AI**: https://magazine.sebastianraschka.com/

- Simon Willison, **Weblog**: https://simonwillison.net/

- Latent Space (Swyx & Alessio): https://www.latent.space/

- The Gradient: https://thegradient.pub/

> "최신 논문보다 중요한 건, 어느 좌표에 그 논문이 위치하는지를 아는 일이다."

— LLM 랜드마크 논문 가이드, 끝.