Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

プロローグ — 論文を読まなくても、地図は必要だ

LLM 分野は論文が多すぎる。毎週 arXiv に数百本が投稿され、Twitter・ブログ・ニュースレターが「この論文がゲームチェンジャー」と叫ぶ。すべて読むこともできないし、すべて重要なわけでもない。

しかし「ランドマーク」は存在する。その後のすべての流れを変えた論文たちだ。これを知っていれば、新しい論文が出たときに「これは何の後続なのか」が見える。知らなければ毎回ゼロから読むことになる。

この記事では LLM のランドマーク論文 20 編余りを、時期・テーマ別に整理する。各論文は次の三点で示す。

なぜ重要か — 何が初めてだったのか、何を可能にしたのか
一言要約 — 中核となるアイデア
後続の影響 — どのような流れにつながったか

目的は「すべて読みましょう」ではなく地図である。どの論文がどこに位置するかを知っていれば、必要なときに正確に辿り着ける。末尾にはすべての arXiv リンクをまとめてある。

この記事はモデル自体 (GPT-4・Claude・Gemini などの製品) のカタログではなく、論文 (アイデアと手法) の地図である。製品は 6 ヶ月で変わるが、アイデアは長く生きる。

1 章 · 基盤 — Transformer 以前と始まり

Attention is All You Need (Vaswani et al., 2017)

なぜ重要か — すべての現代 LLM の出発点。RNN・LSTM を廃止し、Self-Attention ベースの Transformer を提示。並列化可能で、長いシーケンスに強い。
一言要約 — 「Attention だけでシーケンスモデリングが可能であり、しかもより良くできる。」
後続の影響 — GPT・BERT・T5・LLaMA・Claude — すべてこのアーキテクチャの後裔である。2024 年以降の Mamba・RWKV のような非 Transformer の試みも、結局のところ Transformer を基準点として定義される。

BERT (Devlin et al., 2018)

なぜ重要か — 双方向エンコーダ + masked LM 事前学習というパラダイムを提示。NLP において「事前学習 + ファインチューニング」という模範的なワークフローを大衆化した。
一言要約 — 「文の両側の文脈を同時に見る Transformer エンコーダ。」
後続の影響 — 分類・検索・埋め込みモデルの標準。埋め込みモデル (text-embedding-3、BGE、Voyage など) の祖先。

2 章 · スケーリングと GPT 系譜

GPT-2 (Radford et al., 2019)

なぜ重要か — 「言語モデルは教師なしマルチタスク学習者である」という発見。サイズとデータを増やせば、別途のファインチューニングなしでも zero/few-shot で多様なタスクをこなすという証拠。
一言要約 — 「大きく作れば、教えていないこともできる。」
後続の影響 — 「スケーリング」パラダイムの出発点。GPT-3・4・5 への道。

GPT-3 (Brown et al., 2020) — 「Language Models are Few-Shot Learners」

なぜ重要か — In-context learning が初めて強力に機能することを示した。モデルに数例だけ与えれば、学習なしで新しいタスクをこなせる。175B パラメータ。
一言要約 — 「プロンプトに例を入れれば、モデルは新しいタスクをこなす。」
後続の影響 — 「プロンプトエンジニアリング」という分野そのものがここから始まった。ChatGPT の直接の祖先。

Scaling Laws (Kaplan et al., 2020 → Chinchilla, Hoffmann et al., 2022)

なぜ重要か — モデル性能がパラメータ数・データ・計算量とどのように関係するかを定量化。Chinchilla は GPT-3 が実はデータ不足であったことを示し、最適なモデル/データ比率を提示した。
一言要約 — 「モデルを大きくする分だけ、データも一緒に大きくしなければならない。」
後続の影響 — LLaMA・Mistral など「小さいがデータをよく食べた」効率モデル時代を開く。

3 章 · 人の選好で整列する — RLHF とその後

InstructGPT / RLHF (Ouyang et al., 2022)

なぜ重要か — 事前学習済み LLM を人の選好でファインチューニングして「役に立ち、無害な」アシスタントを作るレシピ。ChatGPT の技術的基盤。
一言要約 — 「SFT → 報酬モデル学習 → PPO による方策最適化。」
後続の影響 — すべての対話型 LLM の標準的な学習手順。「アライメント (alignment)」という分野の実用的な出発点。

Constitutional AI (Bai et al., 2022) — Anthropic

なぜ重要か — 人のラベル付けの代わりに、AI 自身が原則 (憲法) に従って自分の出力を批判・修正する。人手ラベルのコストを下げ、より一貫した安全性を追求。
一言要約 — 「RLHF における H (人間) の相当部分を AI で置き換える。」
後続の影響 — Claude の中核となる学習手法。RLAIF (AI フィードバック) という流れの出発点。

DPO (Rafailov et al., 2023) — Direct Preference Optimization

なぜ重要か — RLHF において PPO・報酬モデルを経由せず、選好ペアデータで方策を直接最適化する。はるかに簡潔で安定。
一言要約 — 「報酬モデルなしで、選好データだけで整列する。」
後続の影響 — オープンソースのファインチューニングの事実上の標準。後続として ORPO・KTO などの変種が次々と現れる。

4 章 · 推論を引き出す — Chain-of-Thought から o1 まで

Chain-of-Thought Prompting (Wei et al., 2022)

なぜ重要か — 単純な一文でモデルの推論能力が劇的に向上することを示した — 「Let's think step by step.」単純なプロンプト技法が新しい能力を呼び起こすという、最初の強力な証拠。
一言要約 — 「推論を段階的に書かせれば、より良く解ける。」
後続の影響 — Tree-of-Thoughts、Self-Consistency、Reflexion など「推論引き出し」技法の爆発。最終的に推論モデル (o1) へとつながる。

Self-Consistency (Wang et al., 2022)

なぜ重要か — 複数の推論経路をサンプリングし、多数決で答えを決める。CoT の自然な拡張。
一言要約 — 「何度も解かせて、最も多く出た答えを採用する。」
後続の影響 — 推論時に計算をより多く使って精度を上げる (test-time compute) 流れの初期事例。

ReAct (Yao et al., 2022)

なぜ重要か — 推論 (Reasoning) と行動 (Action) をインターリーブするエージェントパターン。モデルが「思考 → ツール呼び出し → 観察 → 再び思考」を繰り返す。
一言要約 — 「推論とツール使用を一つのループの中で。」
後続の影響 — ほぼすべての AI エージェントハーネスの基本パターン。

OpenAI o1 / o3 システムカード (2024–2025)

なぜ重要か — 推論時 (test-time compute) を増やし、強化学習で作った推論モデル。短い答えの代わりに長い思考連鎖を生成し、自己検証・修正する。
一言要約 — 「より長く考えさせれば、より難しい問題を解く。」
後続の影響 — DeepSeek-R1、Claude の thinking モード、Gemini の Deep Think など、推論モデル競争の始まり。

DeepSeek-R1 (DeepSeek-AI, 2025)

なぜ重要か — 純粋な強化学習 (RLVR — 検証可能な報酬) で推論能力を引き出せることを公的に実証。オープンウェイトで公開され、推論モデル研究を加速。
一言要約 — 「人のラベルなしで、検証可能な報酬だけで推論を学習する。」
後続の影響 — オープンソース推論モデル・再現研究の爆発。「RL は高価だ」という通念を覆した。

5 章 · 効率とオープンモデル — LLaMA の時代

LLaMA / LLaMA 2 / LLaMA 3 (Touvron et al., 2023–2024) — Meta

なぜ重要か — 高品質なオープンウェイトモデルの決定的な登場。Chinchilla の教訓を実践し (小さいがデータが十分)、小さなモデルでも強力な性能を示した。
一言要約 — 「オープンウェイト + データをよく食べた小さなモデル。」
後続の影響 — Mistral、Qwen、Gemma、DeepSeek、Yi などオープンウェイトモデルエコシステム全体の土台。ファインチューニング産業の出発点。

Mixtral 8x7B (Jiang et al., 2024) — Mixture-of-Experts

なぜ重要か — 疎な MoE (Sparse MoE) がオープンウェイトで実用的に動作することを実証。推論時に一部のエキスパートだけを活性化してコストを削減。
一言要約 — 「総パラメータは大きく、活性パラメータは小さいモデル。」
後続の影響 — DeepSeek-V3、Qwen3-MoE、GPT-4 (噂では MoE) など、ほぼすべての最先端モデルが MoE 方向へ。

FlashAttention (Dao et al., 2022) → FlashAttention-2/3

なぜ重要か — Attention 計算を GPU のメモリ階層に合わせて IO-aware に書き直した。学習・推論を同時に高速かつメモリ効率的にする。
一言要約 — 「Attention を書き直して、同じ結果をより安く。」
後続の影響 — 事実上すべての LLM 学習/推論スタックの基本。PagedAttention (vLLM)・xFormers などの足場。

6 章 · コンテキスト長・検索・外部ツール

RAG (Lewis et al., 2020) — Retrieval-Augmented Generation

なぜ重要か — LLM に外部知識を検索して挿入することで幻覚を減らし、最新性を付与。検索 + 生成というパラダイムの命名。
一言要約 — 「答える前に検索して、その文脈で答えよ。」
後続の影響 — 事実上すべてのエンタープライズ LLM アプリの土台。RAG それ自体が一つの産業。

Toolformer (Schick et al., 2023) → Tool/Function Calling

なぜ重要か — LLM が外部ツール (API・電卓・検索) を呼び出す方法を自己学習する。その後、OpenAI の function calling、Anthropic の tool use がこの流れを製品化した。
一言要約 — 「モデルが自ら『API を使うか?』を判断する。」
後続の影響 — すべての AI エージェントのツール使用パラダイム。MCP (Model Context Protocol) にまでつながる。

Lost in the Middle (Liu et al., 2023)

なぜ重要か — 長いコンテキストにおいて、モデルが先頭・末尾だけをよく使い、中間を流すという実証。「長いコンテキスト = 良いコンテキスト」という幻想を打ち砕いた。
一言要約 — 「コンテキストウィンドウの真ん中はほとんど見ない。」
後続の影響 — コンテキストエンジニアリング分野の中核的な引用。検索・リランキング・コンテキスト圧縮研究の動機。

7 章 · マルチモーダル

CLIP (Radford et al., 2021)

なぜ重要か — 画像とテキストを同じ埋め込み空間に置く対照学習。ゼロショット画像分類、テキスト → 画像 (Stable Diffusion など) の基盤。
一言要約 — 「画像とキャプションを同じベクトル空間に整列する。」
後続の影響 — DALL·E、Stable Diffusion、CLIP ベースの検索、ほぼすべての VLM のエンコーダ。

ViT (Dosovitskiy et al., 2020) — Vision Transformer

なぜ重要か — 画像をパッチのシーケンスとして扱い、Transformer が vision でも通用することを実証。CNN 独占を揺さぶった最初の出来事。
一言要約 — 「画像を単語のように分割して Transformer に入れる。」
後続の影響 — DETR、Swin、SAM、LLaVA など vision・VLM 全体。

LLaVA / GPT-4V — Vision-Language Models

なぜ重要か — LLM に vision encoder + projection を付けて、マルチモーダル LLM の実用的なレシピを確立。
一言要約 — 「画像エンコーダの出力を LLM のトークン空間に射影する。」
後続の影響 — Claude 3+ Vision、Gemini、Qwen-VL などマルチモーダルアシスタントの標準構造。

8 章 · エージェントと評価

Reflexion (Shinn et al., 2023)

なぜ重要か — エージェントが自分の出力を自己批判し、次の試行で反映する。コーディング・推論で明確な改善。
一言要約 — 「失敗 → 反省 → 再試行。」
後続の影響 — 自己修正ループを持つほぼすべてのエージェントハーネス。

SWE-bench (Jimenez et al., 2023)

なぜ重要か — LLM の実際の GitHub Issue 解決能力を測るベンチマーク。トイではなく本物のコードでの評価。
一言要約 — 「ベンチマークを GitHub Issue にする。」
後続の影響 — SWE-bench Verified が事実上、コーディングエージェントの標準指標。Devin・Cursor・Claude Code などの比較基準。

ARC-AGI / ARC-AGI-2 (Chollet, 2019 / 2025)

なぜ重要か — データで解けない抽象推論ベンチマーク。LLM が単純なパターンマッチングではなく一般化を行うかを試す。
一言要約 — 「抽象推論・一般化のリトマス試験紙。」
後続の影響 — 推論モデルの時代に再び浮上。ARC-AGI-2 はさらに難しくなった。

9 章 · 安全性・解釈可能性・アライメント

Sleeper Agents (Hubinger et al., 2024) — Anthropic

なぜ重要か — 隠されたバックドアを持つモデルを、安全性学習で除去できるか? 結果として、一部のバックドアは学習では除去できない。
一言要約 — 「アライメント学習はバックドアを完全には消せない。」
後続の影響 — AI 安全性研究への警鐘。事前学習データ検証・解釈可能性の重要性を浮き彫りにした。

Mechanistic Interpretability — Toy Models of Superposition (Elhage et al., 2022) ほか

なぜ重要か — モデル内部の回路を回路 (circuit) 単位で理解しようとする試み。Anthropic・OpenAI などの解釈可能性研究の流れ。
一言要約 — 「ニューラルネットワークの中でどんな計算が起こっているかを回路として見る。」
後続の影響 — 安全性・デバッグ・アライメントの土台として徐々に認められる。2025 年以降、dictionary learning・SAE が注目を集めている。

10 章 · どうやって追いつくか — 実用ガイド

20 編をすべて読めなくてもよい。次の戦略を勧める。

優先順位

必ず読むべきもの: Attention is All You Need、GPT-3、InstructGPT、RAG、ReAct。
概念だけ知っておけばよいもの: その他 — 上記の要約で十分。
自分の分野は深く読む: コーディングエージェントなら SWE-bench・Reflexion、vision なら ViT・CLIP・LLaVA、推論なら o1・DeepSeek-R1。

追いつくワークフロー

arXiv 日次ダイジェスト購読 (cs.CL / cs.AI)。見出しだけ見て、週に 1 編を深く読む。
ブログ・ニュースレター: Anthropic Research、OpenAI Blog、DeepMind Blog、Jay Alammar (可視化)、Lilian Weng's Log、Sebastian Raschka、Simon Willison、Latent Space。
再現研究: 人気の論文は通常、HuggingFace blog・Eugene Yan・Simon Willison が解説 + コードを上げる。原論文 + 解説を一緒に見るのが最も効率的。
LLM に尋ねる: 論文 PDF をモデルに入れて「この論文の中核的な貢献 3 つ」から始める。ただし幻覚に注意 — 引用は必ず原文で確認すること。

エピローグ — 地図があれば、道に迷わない

LLM 分野は速い。だからこそ地図に価値がある。新しい論文が出たときに「これは Chain-of-Thought の後続だな」「これは MoE の変種だな」「DPO 系統だな」と位置を把握できれば、半分は理解したも同然である。

この 20 編がその座標系だ。すべてを深く読まなくてもよい。どこにあるかさえ分かればよい。

5 項目チェックリスト

Attention is All You Need を一度でも直接読んだか?
RLHF・DPO の違いを一文で説明できるか?
CoT・Self-Consistency・o1 の関係が頭の中にあるか?
自分の分野のランドマーク 3 編を挙げられるか?
日次ダイジェストやキュレーションを一つでも購読しているか?

参考文献 (References)

中核的な論文・ブログ・ページ — arXiv のリンクは abstract ページに繋がります。

基盤アーキテクチャ

Vaswani et al., "Attention Is All You Need" (2017): https://arxiv.org/abs/1706.03762
Devlin et al., "BERT: Pre-training of Deep Bidirectional Transformers" (2018): https://arxiv.org/abs/1810.04805

スケーリング・GPT

Radford et al., "Language Models are Unsupervised Multitask Learners" (GPT-2, 2019): https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
Brown et al., "Language Models are Few-Shot Learners" (GPT-3, 2020): https://arxiv.org/abs/2005.14165
Kaplan et al., "Scaling Laws for Neural Language Models" (2020): https://arxiv.org/abs/2001.08361
Hoffmann et al., "Training Compute-Optimal Large Language Models" (Chinchilla, 2022): https://arxiv.org/abs/2203.15556

アライメント (Alignment)

Ouyang et al., "Training language models to follow instructions with human feedback" (InstructGPT, 2022): https://arxiv.org/abs/2203.02155
Bai et al., "Constitutional AI: Harmlessness from AI Feedback" (2022): https://arxiv.org/abs/2212.08073
Rafailov et al., "Direct Preference Optimization" (DPO, 2023): https://arxiv.org/abs/2305.18290

推論 (Reasoning)

Wei et al., "Chain-of-Thought Prompting Elicits Reasoning" (2022): https://arxiv.org/abs/2201.11903
Wang et al., "Self-Consistency Improves Chain of Thought Reasoning" (2022): https://arxiv.org/abs/2203.11171
Yao et al., "ReAct: Synergizing Reasoning and Acting" (2022): https://arxiv.org/abs/2210.03629
OpenAI "Learning to Reason with LLMs" (o1 blog, 2024): https://openai.com/index/learning-to-reason-with-llms/
DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability via Reinforcement Learning" (2025): https://arxiv.org/abs/2501.12948

オープンモデル・効率

Touvron et al., "LLaMA: Open and Efficient Foundation Language Models" (2023): https://arxiv.org/abs/2302.13971
Touvron et al., "Llama 2: Open Foundation and Fine-Tuned Chat Models" (2023): https://arxiv.org/abs/2307.09288
Meta AI, "The Llama 3 Herd of Models" (2024): https://arxiv.org/abs/2407.21783
Jiang et al., "Mixtral of Experts" (2024): https://arxiv.org/abs/2401.04088
Dao et al., "FlashAttention: Fast and Memory-Efficient Exact Attention" (2022): https://arxiv.org/abs/2205.14135

検索・ツール・コンテキスト

Lewis et al., "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (RAG, 2020): https://arxiv.org/abs/2005.11401
Schick et al., "Toolformer: Language Models Can Teach Themselves to Use Tools" (2023): https://arxiv.org/abs/2302.04761
Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (2023): https://arxiv.org/abs/2307.03172

マルチモーダル

Radford et al., "Learning Transferable Visual Models From Natural Language Supervision" (CLIP, 2021): https://arxiv.org/abs/2103.00020
Dosovitskiy et al., "An Image is Worth 16x16 Words" (ViT, 2020): https://arxiv.org/abs/2010.11929
Liu et al., "Visual Instruction Tuning" (LLaVA, 2023): https://arxiv.org/abs/2304.08485

エージェント・評価

Shinn et al., "Reflexion: Language Agents with Verbal Reinforcement Learning" (2023): https://arxiv.org/abs/2303.11366
Jimenez et al., "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" (2023): https://arxiv.org/abs/2310.06770
Chollet, "On the Measure of Intelligence" (ARC, 2019): https://arxiv.org/abs/1911.01547
Chollet et al., "ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems" (2025): https://arxiv.org/abs/2505.11831

安全性・解釈可能性

Hubinger et al., "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" (2024): https://arxiv.org/abs/2401.05566
Elhage et al., "Toy Models of Superposition" (Anthropic, 2022): https://transformer-circuits.pub/2022/toy_model/index.html

キュレーション・解説 (定期購読推奨)

Anthropic Research: https://www.anthropic.com/research
OpenAI Research: https://openai.com/research
Lilian Weng's Log: https://lilianweng.github.io/
Jay Alammar (visual explanations): https://jalammar.github.io/
Sebastian Raschka, Ahead of AI: https://magazine.sebastianraschka.com/
Simon Willison, Weblog: https://simonwillison.net/
Latent Space (Swyx & Alessio): https://www.latent.space/
The Gradient: https://thegradient.pub/

「最新の論文よりも重要なのは、その論文がどの座標に位置するかを知ることである。」

— LLM ランドマーク論文ガイド、終わり。