- Published on
LLM 랜드마크 논문 가이드 — Attention부터 GPT·LLaMA·DeepSeek·o1·Claude까지 (참고문헌 포함, 2026)
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 논문을 안 읽어도, 지도는 있어야 한다
LLM 분야는 논문이 너무 많이 나온다. 매주 arXiv에 수백 편이 올라오고, 트위터·블로그·뉴스레터가 "이 논문이 게임체인저"라고 외친다. 다 읽을 수도 없고, 다 중요하지도 않다.
하지만 랜드마크는 있다. 그 후의 모든 흐름을 바꾼 논문들. 이걸 알면 새 논문이 나왔을 때 "이게 무엇의 후속인가"가 보인다. 모르면 매번 처음부터 본다.
이 글은 LLM의 랜드마크 논문 20여 편을 시기·주제별로 정리한다. 각 논문은:
- 왜 중요한가 — 무엇이 처음이었나, 무엇을 가능케 했나
- 한 줄 요약 — 핵심 아이디어
- 후속 영향 — 어떤 흐름으로 이어졌나
목적은 "다 읽으세요"가 아니라 지도다. 어떤 논문이 어디 위치하는지 알면 필요할 때 정확히 찾을 수 있다. 끝에는 모든 arXiv 링크를 모아 둔다.
이 글은 모델 자체(GPT-4·Claude·Gemini 등 제품) 카탈로그가 아니라 논문(아이디어와 방법) 지도다. 제품은 6개월이면 바뀌지만, 아이디어는 오래 간다.
1장 · 기반 — Transformer 이전과 시작
Attention is All You Need (Vaswani et al., 2017)
- 왜 중요한가 — 모든 현대 LLM의 출발점. RNN·LSTM을 폐기하고 Self-Attention 기반 Transformer를 제시. 병렬화 가능, 긴 시퀀스에서 강함.
- 한 줄 요약 — "Attention만으로 시퀀스 모델링이 가능하고, 더 잘된다."
- 후속 영향 — GPT·BERT·T5·LLaMA·Claude — 전부 이 아키텍처의 후예. 2024년 이후의 Mamba·RWKV 같은 비-Transformer 시도들도 결국 Transformer를 기준점으로 정의된다.
BERT (Devlin et al., 2018)
- 왜 중요한가 — 양방향 인코더 + masked LM 사전학습 패러다임 제시. NLP에서 "사전학습 + 미세조정"이라는 모범 워크플로를 대중화.
- 한 줄 요약 — "문장의 양쪽 문맥을 동시에 보는 Transformer 인코더."
- 후속 영향 — 분류·검색·임베딩 모델의 표준. 임베딩 모델(
text-embedding-3, BGE, Voyage 등)의 조상.
2장 · 스케일링과 GPT 계보
GPT-2 (Radford et al., 2019)
- 왜 중요한가 — "언어 모델은 비지도 멀티태스크 학습자"라는 발견. 크기와 데이터를 늘리면 별도 미세조정 없이도 zero/few-shot으로 다양한 태스크를 한다는 증거.
- 한 줄 요약 — "크게 만들면, 가르치지 않은 것도 한다."
- 후속 영향 — "스케일링" 패러다임의 시작. GPT-3·4·5의 길.
GPT-3 (Brown et al., 2020) — "Language Models are Few-Shot Learners"
- 왜 중요한가 — In-context learning이 처음으로 강력하게 작동함을 보임. 모델에 예시 몇 개만 주면 학습 없이 새 태스크를 해낸다. 175B 파라미터.
- 한 줄 요약 — "프롬프트에 예시를 넣으면 모델이 새 태스크를 한다."
- 후속 영향 — "프롬프트 엔지니어링"이라는 분야 자체가 여기서 시작. ChatGPT의 직접 조상.
Scaling Laws (Kaplan et al., 2020 → Chinchilla, Hoffmann et al., 2022)
- 왜 중요한가 — 모델 성능이 파라미터 수·데이터·연산량과 어떻게 관계되는지 정량화. Chinchilla는 GPT-3가 사실은 데이터 부족이었음을 보이고, 최적 모델/데이터 비율을 제시.
- 한 줄 요약 — "모델을 키우는 만큼 데이터도 같이 키워야 한다."
- 후속 영향 — LLaMA·Mistral 등 "작지만 데이터 잘 먹은" 효율 모델 시대를 연다.
3장 · 사람 선호로 정렬하기 — RLHF와 그 이후
InstructGPT / RLHF (Ouyang et al., 2022)
- 왜 중요한가 — 사전학습 LLM을 사람의 선호로 미세조정해 "도움이 되고 해롭지 않은" 어시스턴트를 만드는 레시피. ChatGPT의 기술적 기반.
- 한 줄 요약 — "SFT → 보상 모델 학습 → PPO로 정책 최적화."
- 후속 영향 — 모든 대화형 LLM의 표준 학습 절차. "정렬(alignment)"이라는 분야의 실용적 출발점.
Constitutional AI (Bai et al., 2022) — Anthropic
- 왜 중요한가 — 사람의 라벨링 대신 AI 자신이 원칙(헌법)에 따라 자기 출력을 비판·수정하게 함. 인간 라벨 비용을 줄이고, 더 일관된 안전성을 추구.
- 한 줄 요약 — "RLHF에서 H(인간)의 상당 부분을 AI로 대체."
- 후속 영향 — Claude의 핵심 학습 방법. RLAIF(AI 피드백) 흐름의 출발점.
DPO (Rafailov et al., 2023) — Direct Preference Optimization
- 왜 중요한가 — RLHF에서 PPO·보상 모델을 거치지 않고 선호 쌍 데이터로 정책을 직접 최적화. 훨씬 간단하고 안정적.
- 한 줄 요약 — "보상 모델 없이, 선호 데이터만으로 정렬."
- 후속 영향 — 오픈소스 미세조정의 사실상 표준. 후속으로 ORPO·KTO 등 변형들이 쏟아진다.
4장 · 추론을 이끌어내기 — Chain-of-Thought부터 o1까지
Chain-of-Thought Prompting (Wei et al., 2022)
- 왜 중요한가 — 단순한 한 줄로 모델의 추론 능력이 극적으로 향상됨을 보임 — "Let's think step by step." 단순한 프롬프트 기법이 새 능력을 깨운다는 첫 강력한 증거.
- 한 줄 요약 — "추론을 단계별로 쓰게 하면 더 잘 푼다."
- 후속 영향 — Tree-of-Thoughts, Self-Consistency, Reflexion 등 "추론 인출" 기법 폭발. 결국 추론 모델(o1)로 이어진다.
Self-Consistency (Wang et al., 2022)
- 왜 중요한가 — 여러 추론 경로를 샘플링하고 다수결로 답을 결정. CoT의 자연스러운 확장.
- 한 줄 요약 — "여러 번 풀게 하고, 가장 자주 나온 답을 채택."
- 후속 영향 — 추론 시간에 연산을 더 써서 정확도를 올리는(test-time compute) 흐름의 초기 사례.
ReAct (Yao et al., 2022)
- 왜 중요한가 — 추론(Reasoning)과 행동(Action)을 인터리브하는 에이전트 패턴. 모델이 "생각 → 도구 호출 → 관찰 → 다시 생각"을 반복.
- 한 줄 요약 — "추론과 도구 사용을 한 루프 안에서."
- 후속 영향 — 거의 모든 AI 에이전트 하네스의 기본 패턴.
OpenAI o1 / o3 시스템 카드 (2024–2025)
- 왜 중요한가 — 추론 시간(test-time compute)을 늘려 강화학습으로 만든 추론 모델. 짧은 답 대신 긴 사고 체인을 생성하고, 자가 검증·수정한다.
- 한 줄 요약 — "더 오래 생각하게 만들면, 더 어려운 문제를 푼다."
- 후속 영향 — DeepSeek-R1, Claude의 thinking 모드, Gemini의 Deep Think 등 추론 모델 경쟁의 시작.
DeepSeek-R1 (DeepSeek-AI, 2025)
- 왜 중요한가 — **순수 강화학습(RLVR — 검증 가능한 보상)**으로 추론 능력을 끌어낼 수 있음을 공개적으로 입증. 오픈 가중치로 공개되어 추론 모델 연구를 가속.
- 한 줄 요약 — "사람 라벨 없이, 검증 가능한 보상만으로 추론을 학습."
- 후속 영향 — 오픈소스 추론 모델·재현 연구의 폭발. "RL은 비싸다"는 통념을 바꿈.
5장 · 효율과 오픈 모델 — LLaMA 시대
LLaMA / LLaMA 2 / LLaMA 3 (Touvron et al., 2023–2024) — Meta
- 왜 중요한가 — 고품질 오픈 가중치 모델의 결정적 등장. Chinchilla 교훈을 실천(작지만 데이터 충분)해, 작은 모델로도 강력한 성능을 보임.
- 한 줄 요약 — "오픈 가중치 + 데이터 잘 먹은 작은 모델."
- 후속 영향 — Mistral, Qwen, Gemma, DeepSeek, Yi 등 오픈 가중치 모델 생태계 전체의 토대. 미세조정 산업의 출발점.
Mixtral 8x7B (Jiang et al., 2024) — Mixture-of-Experts
- 왜 중요한가 — **희소 MoE(Sparse MoE)**가 오픈 가중치로 실용적으로 작동함을 입증. 추론 시 일부 전문가만 활성화해 비용 절감.
- 한 줄 요약 — "총 파라미터는 크고, 활성 파라미터는 작은 모델."
- 후속 영향 — DeepSeek-V3, Qwen3-MoE, GPT-4(루머상 MoE) 등 거의 모든 최첨단 모델이 MoE 방향으로.
FlashAttention (Dao et al., 2022) → FlashAttention-2/3
- 왜 중요한가 — Attention 계산을 GPU 메모리 계층에 맞춰 IO-aware하게 재작성. 학습·추론을 동시에 빠르고 메모리 효율적으로.
- 한 줄 요약 — "Attention을 다시 짜서, 같은 결과 더 싸게."
- 후속 영향 — 사실상 모든 LLM 학습/추론 스택의 기본. PagedAttention(vLLM)·xFormers 등의 발판.
6장 · 컨텍스트 길이·검색·외부 도구
RAG (Lewis et al., 2020) — Retrieval-Augmented Generation
- 왜 중요한가 — LLM에 외부 지식을 검색해 넣어 환각을 줄이고 최신성을 부여. 검색 + 생성 패러다임의 명명.
- 한 줄 요약 — "물어보기 전에 검색해서, 그 컨텍스트로 답하라."
- 후속 영향 — 사실상 모든 엔터프라이즈 LLM 앱의 토대. RAG 자체가 한 산업.
Toolformer (Schick et al., 2023) → Tool/Function Calling
- 왜 중요한가 — LLM이 **외부 도구(API·계산기·검색)**를 호출하는 법을 자기학습. 이후 OpenAI의 function calling, Anthropic의 tool use가 이 흐름을 제품화.
- 한 줄 요약 — "모델이 스스로 'API를 쓸까?'를 결정."
- 후속 영향 — 모든 AI 에이전트의 도구 사용 패러다임. MCP(Model Context Protocol)까지 이어진다.
Lost in the Middle (Liu et al., 2023)
- 왜 중요한가 — 긴 컨텍스트에서 모델이 앞·뒤만 잘 쓰고 중간을 흘린다는 실증. "긴 컨텍스트 = 좋은 컨텍스트"라는 환상을 깸.
- 한 줄 요약 — "컨텍스트 윈도우의 가운데는 거의 안 본다."
- 후속 영향 — 컨텍스트 엔지니어링 분야의 핵심 인용. 검색·재정렬·컨텍스트 압축 연구의 동기.
7장 · 멀티모달
CLIP (Radford et al., 2021)
- 왜 중요한가 — 이미지와 텍스트를 같은 임베딩 공간에 두는 대조학습. 제로샷 이미지 분류, 텍스트→이미지(Stable Diffusion 등)의 기반.
- 한 줄 요약 — "이미지와 캡션을 같은 벡터 공간에 정렬."
- 후속 영향 — DALL·E, Stable Diffusion, CLIP-기반 검색, 거의 모든 VLM의 인코더.
ViT (Dosovitskiy et al., 2020) — Vision Transformer
- 왜 중요한가 — 이미지를 패치 시퀀스로 다뤄 Transformer가 vision에서도 통함을 입증. CNN 독점을 흔든 첫 사건.
- 한 줄 요약 — "이미지를 단어처럼 쪼개서 Transformer에 넣는다."
- 후속 영향 — DETR, Swin, SAM, LLaVA 등 vision·VLM 전체.
LLaVA / GPT-4V — Vision-Language Models
- 왜 중요한가 — LLM에 vision encoder + projection을 붙여 멀티모달 LLM의 실용적 레시피 확립.
- 한 줄 요약 — "이미지 인코더 출력을 LLM의 토큰 공간으로 투영."
- 후속 영향 — Claude 3+ Vision, Gemini, Qwen-VL 등 멀티모달 어시스턴트의 표준 구조.
8장 · 에이전트와 평가
Reflexion (Shinn et al., 2023)
- 왜 중요한가 — 에이전트가 자기 출력을 자가 비판하고 다음 시도에서 반영. 코딩·추론에서 뚜렷한 개선.
- 한 줄 요약 — "실패 → 반성 → 다시 시도."
- 후속 영향 — 자기 수정 루프를 가진 거의 모든 에이전트 하네스.
SWE-bench (Jimenez et al., 2023)
- 왜 중요한가 — LLM의 실제 GitHub 이슈 해결 능력을 측정하는 벤치마크. 토이가 아닌 진짜 코드에서 평가.
- 한 줄 요약 — "벤치마크를 GitHub 이슈로."
- 후속 영향 — SWE-bench Verified가 사실상 코딩 에이전트의 표준 지표. Devin·Cursor·Claude Code 등의 비교 기준.
ARC-AGI / ARC-AGI-2 (Chollet, 2019 / 2025)
- 왜 중요한가 — 데이터로 풀 수 없는 추상 추론 벤치마크. LLM이 단순 패턴 매칭이 아닌 일반화를 하는지 시험.
- 한 줄 요약 — "추상 추론·일반화의 리트머스."
- 후속 영향 — 추론 모델 시대에 다시 부상. ARC-AGI-2는 더 어려워졌다.
9장 · 안전·해석가능성·정렬
Sleeper Agents (Hubinger et al., 2024) — Anthropic
- 왜 중요한가 — 숨겨진 백도어를 가진 모델을 안전성 학습으로 제거할 수 있는가? 결과: 일부 백도어는 학습으로도 제거되지 않는다.
- 한 줄 요약 — "정렬 학습은 백도어를 완전히 못 지운다."
- 후속 영향 — AI 안전성 연구의 경각심. 사전학습 데이터 검증·해석가능성의 중요성을 부각.
Mechanistic Interpretability — Toy Models of Superposition (Elhage et al., 2022) 외
- 왜 중요한가 — 모델 내부 회로를 회로(circuit) 단위로 이해하려는 시도. Anthropic·OpenAI 등의 해석가능성 연구 흐름.
- 한 줄 요약 — "신경망 안에서 무슨 계산이 일어나는지 회로로 본다."
- 후속 영향 — 안전성·디버깅·정렬의 토대로 점차 인정. 2025년 이후 dictionary learning·SAE가 주목.
10장 · 이걸 어떻게 따라잡나 — 실용 가이드
20편을 다 못 읽어도 된다. 다음 전략을 권한다.
우선순위
- 무조건 읽을 것: Attention is All You Need, GPT-3, InstructGPT, RAG, ReAct.
- 개념만 알아두면 되는 것: 나머지 — 위 요약으로 충분.
- 본인 분야 깊이 읽기: 코딩 에이전트면 SWE-bench·Reflexion; vision이면 ViT·CLIP·LLaVA; 추론이면 o1·DeepSeek-R1.
따라잡기 워크플로
- arXiv 일일 다이제스트 구독 (cs.CL / cs.AI). 헤드라인만 보고 1주에 1편 깊이 읽기.
- 블로그·뉴스레터: Anthropic Research, OpenAI Blog, DeepMind Blog, Jay Alammar(시각화), Lilian Weng's Log, Sebastian Raschka, Simon Willison, Latent Space.
- 재현 연구: 인기 논문은 HuggingFace blog·Eugene Yan·Simon Willison이 보통 해설 + 코드를 올린다. 원논문 + 해설을 같이 보는 게 가장 효율적.
- LLM에게 물어보기: 논문 PDF를 모델에 넣고 "이 논문의 핵심 기여 3가지"부터 시작. 단, 환각 주의 — 인용은 항상 원문 확인.
에필로그 — 지도가 있으면, 길을 잃지 않는다
LLM 분야는 빠르다. 그래서 지도가 가치 있다. 새 논문이 나왔을 때 "이게 Chain-of-Thought 후속이구나", "이건 MoE의 변형이구나", "DPO 계열이구나" — 이렇게 위치를 잡을 수 있으면 절반은 이해한 셈이다.
이 20편이 그 좌표계다. 다 깊이 읽지 않아도 된다. 어디 있는지만 알면 된다.
5개 항목 체크리스트
- Attention is All You Need를 한 번이라도 직접 읽었는가?
- RLHF·DPO의 차이를 한 문장으로 설명할 수 있는가?
- CoT·Self-Consistency·o1의 관계가 머릿속에 있는가?
- 본인 분야의 랜드마크 3편은 꼽을 수 있는가?
- 일일 다이제스트나 큐레이션을 하나라도 구독하는가?
참고문헌 (References)
핵심 논문·블로그·페이지 — arXiv 링크는 abstract 페이지로 연결됩니다.
기반 아키텍처
- Vaswani et al., "Attention Is All You Need" (2017): https://arxiv.org/abs/1706.03762
- Devlin et al., "BERT: Pre-training of Deep Bidirectional Transformers" (2018): https://arxiv.org/abs/1810.04805
스케일링·GPT
- Radford et al., "Language Models are Unsupervised Multitask Learners" (GPT-2, 2019): https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- Brown et al., "Language Models are Few-Shot Learners" (GPT-3, 2020): https://arxiv.org/abs/2005.14165
- Kaplan et al., "Scaling Laws for Neural Language Models" (2020): https://arxiv.org/abs/2001.08361
- Hoffmann et al., "Training Compute-Optimal Large Language Models" (Chinchilla, 2022): https://arxiv.org/abs/2203.15556
정렬 (Alignment)
- Ouyang et al., "Training language models to follow instructions with human feedback" (InstructGPT, 2022): https://arxiv.org/abs/2203.02155
- Bai et al., "Constitutional AI: Harmlessness from AI Feedback" (2022): https://arxiv.org/abs/2212.08073
- Rafailov et al., "Direct Preference Optimization" (DPO, 2023): https://arxiv.org/abs/2305.18290
추론 (Reasoning)
- Wei et al., "Chain-of-Thought Prompting Elicits Reasoning" (2022): https://arxiv.org/abs/2201.11903
- Wang et al., "Self-Consistency Improves Chain of Thought Reasoning" (2022): https://arxiv.org/abs/2203.11171
- Yao et al., "ReAct: Synergizing Reasoning and Acting" (2022): https://arxiv.org/abs/2210.03629
- OpenAI "Learning to Reason with LLMs" (o1 blog, 2024): https://openai.com/index/learning-to-reason-with-llms/
- DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability via Reinforcement Learning" (2025): https://arxiv.org/abs/2501.12948
오픈 모델·효율
- Touvron et al., "LLaMA: Open and Efficient Foundation Language Models" (2023): https://arxiv.org/abs/2302.13971
- Touvron et al., "Llama 2: Open Foundation and Fine-Tuned Chat Models" (2023): https://arxiv.org/abs/2307.09288
- Meta AI, "The Llama 3 Herd of Models" (2024): https://arxiv.org/abs/2407.21783
- Jiang et al., "Mixtral of Experts" (2024): https://arxiv.org/abs/2401.04088
- Dao et al., "FlashAttention: Fast and Memory-Efficient Exact Attention" (2022): https://arxiv.org/abs/2205.14135
검색·도구·컨텍스트
- Lewis et al., "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (RAG, 2020): https://arxiv.org/abs/2005.11401
- Schick et al., "Toolformer: Language Models Can Teach Themselves to Use Tools" (2023): https://arxiv.org/abs/2302.04761
- Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (2023): https://arxiv.org/abs/2307.03172
멀티모달
- Radford et al., "Learning Transferable Visual Models From Natural Language Supervision" (CLIP, 2021): https://arxiv.org/abs/2103.00020
- Dosovitskiy et al., "An Image is Worth 16x16 Words" (ViT, 2020): https://arxiv.org/abs/2010.11929
- Liu et al., "Visual Instruction Tuning" (LLaVA, 2023): https://arxiv.org/abs/2304.08485
에이전트·평가
- Shinn et al., "Reflexion: Language Agents with Verbal Reinforcement Learning" (2023): https://arxiv.org/abs/2303.11366
- Jimenez et al., "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" (2023): https://arxiv.org/abs/2310.06770
- Chollet, "On the Measure of Intelligence" (ARC, 2019): https://arxiv.org/abs/1911.01547
- Chollet et al., "ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems" (2025): https://arxiv.org/abs/2505.11831
안전·해석가능성
- Hubinger et al., "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" (2024): https://arxiv.org/abs/2401.05566
- Elhage et al., "Toy Models of Superposition" (Anthropic, 2022): https://transformer-circuits.pub/2022/toy_model/index.html
큐레이션·해설 (정기 구독 추천)
- Anthropic Research: https://www.anthropic.com/research
- OpenAI Research: https://openai.com/research
- Lilian Weng's Log: https://lilianweng.github.io/
- Jay Alammar (visual explanations): https://jalammar.github.io/
- Sebastian Raschka, Ahead of AI: https://magazine.sebastianraschka.com/
- Simon Willison, Weblog: https://simonwillison.net/
- Latent Space (Swyx & Alessio): https://www.latent.space/
- The Gradient: https://thegradient.pub/
"최신 논문보다 중요한 건, 어느 좌표에 그 논문이 위치하는지를 아는 일이다."
— LLM 랜드마크 논문 가이드, 끝.