Skip to content

✍️ 필사 모드: LLM 랜드마크 논문 가이드 — Attention부터 GPT·LLaMA·DeepSeek·o1·Claude까지 (참고문헌 포함, 2026)

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

프롤로그 — 논문을 안 읽어도, 지도는 있어야 한다

LLM 분야는 논문이 너무 많이 나온다. 매주 arXiv에 수백 편이 올라오고, 트위터·블로그·뉴스레터가 "이 논문이 게임체인저"라고 외친다. 다 읽을 수도 없고, 다 중요하지도 않다.

하지만 랜드마크는 있다. 그 후의 모든 흐름을 바꾼 논문들. 이걸 알면 새 논문이 나왔을 때 "이게 무엇의 후속인가"가 보인다. 모르면 매번 처음부터 본다.

이 글은 LLM의 랜드마크 논문 20여 편을 시기·주제별로 정리한다. 각 논문은:

  • 왜 중요한가 — 무엇이 처음이었나, 무엇을 가능케 했나
  • 한 줄 요약 — 핵심 아이디어
  • 후속 영향 — 어떤 흐름으로 이어졌나

목적은 "다 읽으세요"가 아니라 지도다. 어떤 논문이 어디 위치하는지 알면 필요할 때 정확히 찾을 수 있다. 끝에는 모든 arXiv 링크를 모아 둔다.

이 글은 모델 자체(GPT-4·Claude·Gemini 등 제품) 카탈로그가 아니라 논문(아이디어와 방법) 지도다. 제품은 6개월이면 바뀌지만, 아이디어는 오래 간다.


1장 · 기반 — Transformer 이전과 시작

Attention is All You Need (Vaswani et al., 2017)

  • 왜 중요한가 — 모든 현대 LLM의 출발점. RNN·LSTM을 폐기하고 Self-Attention 기반 Transformer를 제시. 병렬화 가능, 긴 시퀀스에서 강함.
  • 한 줄 요약 — "Attention만으로 시퀀스 모델링이 가능하고, 더 잘된다."
  • 후속 영향 — GPT·BERT·T5·LLaMA·Claude — 전부 이 아키텍처의 후예. 2024년 이후의 Mamba·RWKV 같은 비-Transformer 시도들도 결국 Transformer를 기준점으로 정의된다.

BERT (Devlin et al., 2018)

  • 왜 중요한가양방향 인코더 + masked LM 사전학습 패러다임 제시. NLP에서 "사전학습 + 미세조정"이라는 모범 워크플로를 대중화.
  • 한 줄 요약 — "문장의 양쪽 문맥을 동시에 보는 Transformer 인코더."
  • 후속 영향 — 분류·검색·임베딩 모델의 표준. 임베딩 모델(text-embedding-3, BGE, Voyage 등)의 조상.

2장 · 스케일링과 GPT 계보

GPT-2 (Radford et al., 2019)

  • 왜 중요한가 — "언어 모델은 비지도 멀티태스크 학습자"라는 발견. 크기와 데이터를 늘리면 별도 미세조정 없이도 zero/few-shot으로 다양한 태스크를 한다는 증거.
  • 한 줄 요약 — "크게 만들면, 가르치지 않은 것도 한다."
  • 후속 영향 — "스케일링" 패러다임의 시작. GPT-3·4·5의 길.

GPT-3 (Brown et al., 2020) — "Language Models are Few-Shot Learners"

  • 왜 중요한가In-context learning이 처음으로 강력하게 작동함을 보임. 모델에 예시 몇 개만 주면 학습 없이 새 태스크를 해낸다. 175B 파라미터.
  • 한 줄 요약 — "프롬프트에 예시를 넣으면 모델이 새 태스크를 한다."
  • 후속 영향 — "프롬프트 엔지니어링"이라는 분야 자체가 여기서 시작. ChatGPT의 직접 조상.

Scaling Laws (Kaplan et al., 2020 → Chinchilla, Hoffmann et al., 2022)

  • 왜 중요한가 — 모델 성능이 파라미터 수·데이터·연산량과 어떻게 관계되는지 정량화. Chinchilla는 GPT-3가 사실은 데이터 부족이었음을 보이고, 최적 모델/데이터 비율을 제시.
  • 한 줄 요약 — "모델을 키우는 만큼 데이터도 같이 키워야 한다."
  • 후속 영향 — LLaMA·Mistral 등 "작지만 데이터 잘 먹은" 효율 모델 시대를 연다.

3장 · 사람 선호로 정렬하기 — RLHF와 그 이후

InstructGPT / RLHF (Ouyang et al., 2022)

  • 왜 중요한가 — 사전학습 LLM을 사람의 선호로 미세조정해 "도움이 되고 해롭지 않은" 어시스턴트를 만드는 레시피. ChatGPT의 기술적 기반.
  • 한 줄 요약 — "SFT → 보상 모델 학습 → PPO로 정책 최적화."
  • 후속 영향 — 모든 대화형 LLM의 표준 학습 절차. "정렬(alignment)"이라는 분야의 실용적 출발점.

Constitutional AI (Bai et al., 2022) — Anthropic

  • 왜 중요한가 — 사람의 라벨링 대신 AI 자신이 원칙(헌법)에 따라 자기 출력을 비판·수정하게 함. 인간 라벨 비용을 줄이고, 더 일관된 안전성을 추구.
  • 한 줄 요약 — "RLHF에서 H(인간)의 상당 부분을 AI로 대체."
  • 후속 영향 — Claude의 핵심 학습 방법. RLAIF(AI 피드백) 흐름의 출발점.

DPO (Rafailov et al., 2023) — Direct Preference Optimization

  • 왜 중요한가 — RLHF에서 PPO·보상 모델을 거치지 않고 선호 쌍 데이터로 정책을 직접 최적화. 훨씬 간단하고 안정적.
  • 한 줄 요약 — "보상 모델 없이, 선호 데이터만으로 정렬."
  • 후속 영향 — 오픈소스 미세조정의 사실상 표준. 후속으로 ORPO·KTO 등 변형들이 쏟아진다.

4장 · 추론을 이끌어내기 — Chain-of-Thought부터 o1까지

Chain-of-Thought Prompting (Wei et al., 2022)

  • 왜 중요한가 — 단순한 한 줄로 모델의 추론 능력이 극적으로 향상됨을 보임 — "Let's think step by step." 단순한 프롬프트 기법이 새 능력을 깨운다는 첫 강력한 증거.
  • 한 줄 요약 — "추론을 단계별로 쓰게 하면 더 잘 푼다."
  • 후속 영향 — Tree-of-Thoughts, Self-Consistency, Reflexion 등 "추론 인출" 기법 폭발. 결국 추론 모델(o1)로 이어진다.

Self-Consistency (Wang et al., 2022)

  • 왜 중요한가 — 여러 추론 경로를 샘플링하고 다수결로 답을 결정. CoT의 자연스러운 확장.
  • 한 줄 요약 — "여러 번 풀게 하고, 가장 자주 나온 답을 채택."
  • 후속 영향 — 추론 시간에 연산을 더 써서 정확도를 올리는(test-time compute) 흐름의 초기 사례.

ReAct (Yao et al., 2022)

  • 왜 중요한가 — 추론(Reasoning)과 행동(Action)을 인터리브하는 에이전트 패턴. 모델이 "생각 → 도구 호출 → 관찰 → 다시 생각"을 반복.
  • 한 줄 요약 — "추론과 도구 사용을 한 루프 안에서."
  • 후속 영향 — 거의 모든 AI 에이전트 하네스의 기본 패턴.

OpenAI o1 / o3 시스템 카드 (2024–2025)

  • 왜 중요한가추론 시간(test-time compute)을 늘려 강화학습으로 만든 추론 모델. 짧은 답 대신 긴 사고 체인을 생성하고, 자가 검증·수정한다.
  • 한 줄 요약 — "더 오래 생각하게 만들면, 더 어려운 문제를 푼다."
  • 후속 영향 — DeepSeek-R1, Claude의 thinking 모드, Gemini의 Deep Think 등 추론 모델 경쟁의 시작.

DeepSeek-R1 (DeepSeek-AI, 2025)

  • 왜 중요한가 — **순수 강화학습(RLVR — 검증 가능한 보상)**으로 추론 능력을 끌어낼 수 있음을 공개적으로 입증. 오픈 가중치로 공개되어 추론 모델 연구를 가속.
  • 한 줄 요약 — "사람 라벨 없이, 검증 가능한 보상만으로 추론을 학습."
  • 후속 영향 — 오픈소스 추론 모델·재현 연구의 폭발. "RL은 비싸다"는 통념을 바꿈.

5장 · 효율과 오픈 모델 — LLaMA 시대

LLaMA / LLaMA 2 / LLaMA 3 (Touvron et al., 2023–2024) — Meta

  • 왜 중요한가고품질 오픈 가중치 모델의 결정적 등장. Chinchilla 교훈을 실천(작지만 데이터 충분)해, 작은 모델로도 강력한 성능을 보임.
  • 한 줄 요약 — "오픈 가중치 + 데이터 잘 먹은 작은 모델."
  • 후속 영향 — Mistral, Qwen, Gemma, DeepSeek, Yi 등 오픈 가중치 모델 생태계 전체의 토대. 미세조정 산업의 출발점.

Mixtral 8x7B (Jiang et al., 2024) — Mixture-of-Experts

  • 왜 중요한가 — **희소 MoE(Sparse MoE)**가 오픈 가중치로 실용적으로 작동함을 입증. 추론 시 일부 전문가만 활성화해 비용 절감.
  • 한 줄 요약 — "총 파라미터는 크고, 활성 파라미터는 작은 모델."
  • 후속 영향 — DeepSeek-V3, Qwen3-MoE, GPT-4(루머상 MoE) 등 거의 모든 최첨단 모델이 MoE 방향으로.

FlashAttention (Dao et al., 2022) → FlashAttention-2/3

  • 왜 중요한가 — Attention 계산을 GPU 메모리 계층에 맞춰 IO-aware하게 재작성. 학습·추론을 동시에 빠르고 메모리 효율적으로.
  • 한 줄 요약 — "Attention을 다시 짜서, 같은 결과 더 싸게."
  • 후속 영향 — 사실상 모든 LLM 학습/추론 스택의 기본. PagedAttention(vLLM)·xFormers 등의 발판.

6장 · 컨텍스트 길이·검색·외부 도구

RAG (Lewis et al., 2020) — Retrieval-Augmented Generation

  • 왜 중요한가 — LLM에 외부 지식을 검색해 넣어 환각을 줄이고 최신성을 부여. 검색 + 생성 패러다임의 명명.
  • 한 줄 요약 — "물어보기 전에 검색해서, 그 컨텍스트로 답하라."
  • 후속 영향 — 사실상 모든 엔터프라이즈 LLM 앱의 토대. RAG 자체가 한 산업.

Toolformer (Schick et al., 2023) → Tool/Function Calling

  • 왜 중요한가 — LLM이 **외부 도구(API·계산기·검색)**를 호출하는 법을 자기학습. 이후 OpenAI의 function calling, Anthropic의 tool use가 이 흐름을 제품화.
  • 한 줄 요약 — "모델이 스스로 'API를 쓸까?'를 결정."
  • 후속 영향 — 모든 AI 에이전트의 도구 사용 패러다임. MCP(Model Context Protocol)까지 이어진다.

Lost in the Middle (Liu et al., 2023)

  • 왜 중요한가 — 긴 컨텍스트에서 모델이 앞·뒤만 잘 쓰고 중간을 흘린다는 실증. "긴 컨텍스트 = 좋은 컨텍스트"라는 환상을 깸.
  • 한 줄 요약 — "컨텍스트 윈도우의 가운데는 거의 안 본다."
  • 후속 영향 — 컨텍스트 엔지니어링 분야의 핵심 인용. 검색·재정렬·컨텍스트 압축 연구의 동기.

7장 · 멀티모달

CLIP (Radford et al., 2021)

  • 왜 중요한가이미지와 텍스트를 같은 임베딩 공간에 두는 대조학습. 제로샷 이미지 분류, 텍스트→이미지(Stable Diffusion 등)의 기반.
  • 한 줄 요약 — "이미지와 캡션을 같은 벡터 공간에 정렬."
  • 후속 영향 — DALL·E, Stable Diffusion, CLIP-기반 검색, 거의 모든 VLM의 인코더.

ViT (Dosovitskiy et al., 2020) — Vision Transformer

  • 왜 중요한가이미지를 패치 시퀀스로 다뤄 Transformer가 vision에서도 통함을 입증. CNN 독점을 흔든 첫 사건.
  • 한 줄 요약 — "이미지를 단어처럼 쪼개서 Transformer에 넣는다."
  • 후속 영향 — DETR, Swin, SAM, LLaVA 등 vision·VLM 전체.

LLaVA / GPT-4V — Vision-Language Models

  • 왜 중요한가 — LLM에 vision encoder + projection을 붙여 멀티모달 LLM의 실용적 레시피 확립.
  • 한 줄 요약 — "이미지 인코더 출력을 LLM의 토큰 공간으로 투영."
  • 후속 영향 — Claude 3+ Vision, Gemini, Qwen-VL 등 멀티모달 어시스턴트의 표준 구조.

8장 · 에이전트와 평가

Reflexion (Shinn et al., 2023)

  • 왜 중요한가 — 에이전트가 자기 출력을 자가 비판하고 다음 시도에서 반영. 코딩·추론에서 뚜렷한 개선.
  • 한 줄 요약 — "실패 → 반성 → 다시 시도."
  • 후속 영향 — 자기 수정 루프를 가진 거의 모든 에이전트 하네스.

SWE-bench (Jimenez et al., 2023)

  • 왜 중요한가 — LLM의 실제 GitHub 이슈 해결 능력을 측정하는 벤치마크. 토이가 아닌 진짜 코드에서 평가.
  • 한 줄 요약 — "벤치마크를 GitHub 이슈로."
  • 후속 영향 — SWE-bench Verified가 사실상 코딩 에이전트의 표준 지표. Devin·Cursor·Claude Code 등의 비교 기준.

ARC-AGI / ARC-AGI-2 (Chollet, 2019 / 2025)

  • 왜 중요한가데이터로 풀 수 없는 추상 추론 벤치마크. LLM이 단순 패턴 매칭이 아닌 일반화를 하는지 시험.
  • 한 줄 요약 — "추상 추론·일반화의 리트머스."
  • 후속 영향 — 추론 모델 시대에 다시 부상. ARC-AGI-2는 더 어려워졌다.

9장 · 안전·해석가능성·정렬

Sleeper Agents (Hubinger et al., 2024) — Anthropic

  • 왜 중요한가숨겨진 백도어를 가진 모델을 안전성 학습으로 제거할 수 있는가? 결과: 일부 백도어는 학습으로도 제거되지 않는다.
  • 한 줄 요약 — "정렬 학습은 백도어를 완전히 못 지운다."
  • 후속 영향 — AI 안전성 연구의 경각심. 사전학습 데이터 검증·해석가능성의 중요성을 부각.

Mechanistic Interpretability — Toy Models of Superposition (Elhage et al., 2022) 외

  • 왜 중요한가 — 모델 내부 회로를 회로(circuit) 단위로 이해하려는 시도. Anthropic·OpenAI 등의 해석가능성 연구 흐름.
  • 한 줄 요약 — "신경망 안에서 무슨 계산이 일어나는지 회로로 본다."
  • 후속 영향 — 안전성·디버깅·정렬의 토대로 점차 인정. 2025년 이후 dictionary learning·SAE가 주목.

10장 · 이걸 어떻게 따라잡나 — 실용 가이드

20편을 다 못 읽어도 된다. 다음 전략을 권한다.

우선순위

  1. 무조건 읽을 것: Attention is All You Need, GPT-3, InstructGPT, RAG, ReAct.
  2. 개념만 알아두면 되는 것: 나머지 — 위 요약으로 충분.
  3. 본인 분야 깊이 읽기: 코딩 에이전트면 SWE-bench·Reflexion; vision이면 ViT·CLIP·LLaVA; 추론이면 o1·DeepSeek-R1.

따라잡기 워크플로

  • arXiv 일일 다이제스트 구독 (cs.CL / cs.AI). 헤드라인만 보고 1주에 1편 깊이 읽기.
  • 블로그·뉴스레터: Anthropic Research, OpenAI Blog, DeepMind Blog, Jay Alammar(시각화), Lilian Weng's Log, Sebastian Raschka, Simon Willison, Latent Space.
  • 재현 연구: 인기 논문은 HuggingFace blog·Eugene Yan·Simon Willison이 보통 해설 + 코드를 올린다. 원논문 + 해설을 같이 보는 게 가장 효율적.
  • LLM에게 물어보기: 논문 PDF를 모델에 넣고 "이 논문의 핵심 기여 3가지"부터 시작. 단, 환각 주의 — 인용은 항상 원문 확인.

에필로그 — 지도가 있으면, 길을 잃지 않는다

LLM 분야는 빠르다. 그래서 지도가 가치 있다. 새 논문이 나왔을 때 "이게 Chain-of-Thought 후속이구나", "이건 MoE의 변형이구나", "DPO 계열이구나" — 이렇게 위치를 잡을 수 있으면 절반은 이해한 셈이다.

이 20편이 그 좌표계다. 다 깊이 읽지 않아도 된다. 어디 있는지만 알면 된다.

5개 항목 체크리스트

  1. Attention is All You Need를 한 번이라도 직접 읽었는가?
  2. RLHF·DPO의 차이를 한 문장으로 설명할 수 있는가?
  3. CoT·Self-Consistency·o1의 관계가 머릿속에 있는가?
  4. 본인 분야의 랜드마크 3편은 꼽을 수 있는가?
  5. 일일 다이제스트나 큐레이션을 하나라도 구독하는가?

참고문헌 (References)

핵심 논문·블로그·페이지 — arXiv 링크는 abstract 페이지로 연결됩니다.

기반 아키텍처

스케일링·GPT

정렬 (Alignment)

추론 (Reasoning)

오픈 모델·효율

검색·도구·컨텍스트

멀티모달

에이전트·평가

안전·해석가능성

큐레이션·해설 (정기 구독 추천)

"최신 논문보다 중요한 건, 어느 좌표에 그 논문이 위치하는지를 아는 일이다."

— LLM 랜드마크 논문 가이드, 끝.

현재 단락 (1/144)

LLM 분야는 논문이 너무 많이 나온다. 매주 arXiv에 수백 편이 올라오고, 트위터·블로그·뉴스레터가 "이 논문이 게임체인저"라고 외친다. 다 읽을 수도 없고, 다 중요하지도 ...

작성 글자: 0원문 글자: 10,791작성 단락: 0/144