- Published on
LLM ランドマーク論文ロードマップ 2026 - Transformer / Scaling Laws / Flash Attention / Mamba / DeepSeek-R1 / Titans 徹底解説
- Authors

- Name
- Youngju Kim
- @fjvbn20031
"Pre-training as we know it will end." — Ilya Sutskever、NeurIPS 2024 Test of Time 講演
LLM 時代は年数こそ短いが論文の密度が異常に濃い。2017 年 6 月に Attention Is All You Need が arXiv に上がってから 8 年で、私たちは GPT-1 から GPT-5、Llama 1 から Llama 4、BERT から DeepSeek-R1 までを一気に通り抜けた。間にある 50 篇超のランドマーク論文のうちどれか 1 つでも欠ければ、今日の ChatGPT、Claude、Gemini、Grok が動く仕組みを説明できない。本稿は 2026 年 5 月時点で 「LLM を理解するために必読」と言える論文 をテーマ別にまとめ、各論文の貢献と影響を 1 段落ずつ書き、実在の arXiv URL と日韓のリーディンググループ資料まで結びつける。
並びは時系列ではなくテーマ順だ。Foundations から Scaling、Efficiency、Architectures Beyond Transformer、Alignment と RLHF、Reasoning と Test-Time Compute、Multimodal と Diffusion、Safety と Interpretability という 8 つの流れで構成し、末尾に 30 本以上の実在 arXiv リンクを集めた References 節を置く。
1. Foundations — Transformer そのもの
全ては Vaswani et al. (2017) Attention Is All You Need から始まる。NeurIPS 2017 で発表されたこの論文は encoder-decoder Transformer アーキテクチャを提案し、attention で RNN と CNN の双方を置き換えられることを示した。multi-head self-attention、positional encoding、residual connection、LayerNorm を組み合わせたブロックが、その後ほぼ全ての LLM の基本単位になる。arxiv 1706.03762。主張はシンプルだ — recurrence も convolution も要らない、attention だけで十分。GPU 並列化が劇的に良くなり、モデルサイズを上限なく拡大する道が開いた。
次のマイルストーンは Devlin et al. (2018) BERT だ。arxiv 1810.04805。Transformer encoder を双方向 masked language modeling で事前学習し、各下流タスクに fine-tuning する。SQuAD と GLUE で初めて人間を上回ったのが BERT-Large で、その後 RoBERTa (Liu 2019, arxiv 1907.11692)、ALBERT (Lan 2019, arxiv 1909.11942)、DeBERTa (He 2020, arxiv 2006.03654) が系譜を繋ぐ。2026 年時点でも埋め込みモデルと分類器のスタックはほぼ BERT 系列が主流である。
GPT 系列は OpenAI Radford et al. (2018) GPT-1「Improving Language Understanding by Generative Pre-Training」から始まる — openai.com/research/language-unsupervised。decoder-only Transformer を generative pre-training で学習し各タスクに fine-tuning する。続く Radford et al. (2019) GPT-2「Language Models are Unsupervised Multitask Learners」は 1.5B パラメータまで拡大し、fine-tuning 無しの zero-shot マルチタスク能力を示した。OpenAI が安全性を理由に段階公開した GPT-2 こそ、現代の AI 安全性議論の起点である。
2. Scaling — 大きければ大きいほど良い
Brown et al. (2020) GPT-3「Language Models are Few-Shot Learners」— arxiv 2005.14165 — は 175B パラメータまで拡大し、few-shot/in-context learning が新しい能力として出現することを初めて明確に示した。31 名の著者と 75 ページに及ぶこの論文は事実上 OpenAI の AGI 戦略文書であり、「scale is all you need」というスローガンの出発点だ。プロンプトエンジニアリングと few-shot プロンプティングは GPT-3 で発見され、2022 年の ChatGPT に直結する。
Kaplan et al. (2020) Scaling Laws for Neural Language Models — arxiv 2001.08361 — はパラメータ数 N、データ D、計算量 C に対する loss の power-law を経験則として提示した。同じ計算予算で N と D の比率をどう取るべきかという最初の処方箋である。Kaplan の結論は「データよりモデルを優先せよ」だった。これを覆したのが Hoffmann et al. (2022) Training Compute-Optimal Large Language Models — Chinchilla 論文、arxiv 2203.15556 — である。DeepMind は 70B の Chinchilla を 1.4T トークンで学習して 280B Gopher を上回り、「compute-optimal は N と D をほぼ同率で拡大することだ」と結論した。この発見は以降の Llama、Mistral、DeepSeek の学習レシピを決定づける。
Wei et al. (2022) Emergent Abilities of Large Language Models — arxiv 2206.07682 — は in-context learning や chain-of-thought のような一部の能力が、モデルサイズが閾値を超えると突如出現する現象を整理した。後の Schaeffer et al. (2023) Are Emergent Abilities of Large Language Models a Mirage? — arxiv 2304.15004 — が「非線形指標の見え方の問題だ」と反論したが、「emergence」という用語は定着した。
Chowdhery et al. (2022) PaLM: Scaling Language Modeling with Pathways — arxiv 2204.02311 — は 540B dense モデルを TPU v4 を 6144 個使って学習した Google の結果だ。PaLM は chain-of-thought reasoning、コード生成、多言語処理で大きく跳ね、後の PaLM 2 と Gemini の基盤になる。Du et al. (2021) GLaM: Efficient Scaling of Language Models with Mixture-of-Experts — arxiv 2112.06905 — は 1.2T パラメータの MoE モデルで GPT-3 並の品質を 1/3 の学習コストで達成し、MoE 時代の扉を開いた。
3. Efficiency — もっと速く、もっと安く
Tri Dao et al. (2022) FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness — arxiv 2205.14135 — は attention 計算を GPU SRAM フレンドリーなタイル化で書き直し、数学的に同一の結果を 2-4 倍速く、メモリを線形に下げる。NeurIPS 2022 best paper であり、PyTorch 2.0 とほぼ全ての LLM 学習フレームワークに統合された。Dao (2023) FlashAttention-2 — arxiv 2307.08691 — はスレッドブロック単位の work partitioning を改善してさらに 2 倍速く、Shah et al. (2024) FlashAttention-3 — arxiv 2407.08608 — は Hopper (H100) の非同期 Tensor Memory Accelerator を活かして FP8 まで使う。2026 年時点で本番運用される LLM は事実上全て FlashAttention-2 以上を使う。
Liu et al. (2023) Ring Attention with Blockwise Transformers for Near-Infinite Context — arxiv 2310.01889 — は attention を複数ホストに分散し、通信と計算を重ねることでメモリ制約からコンテキスト長を解き放つ。Gemini 1.5 の 1M トークン文脈と Llama 3 405B の 128K 文脈はいずれも ring attention 系列の技術に依存する。Su et al. (2021) RoFormer: Enhanced Transformer with Rotary Position Embedding — arxiv 2104.09864 — は RoPE を提案し、Llama、Mistral、DeepSeek、Qwen など、オープンソース LLM の大半が採用する。Peng et al. (2023) YaRN — arxiv 2309.00071 — と Chen et al. (2023) Position Interpolation — arxiv 2306.15595 — は RoPE で学習したモデルを再学習無しで長文脈に拡張する手法を提供する。
量子化のランドマークは Frantar et al. (2022) GPTQ — arxiv 2210.17323 — と Lin et al. (2023) AWQ: Activation-aware Weight Quantization — arxiv 2306.00978 — の 2 本だ。GPTQ は二次情報で INT4 量子化誤差を最小化し、AWQ は外れ値活性化チャネルを保護しつつ重みを量子化する。Xiao et al. (2022) SmoothQuant — arxiv 2211.10438 — は活性と重みの外れ値を再分配する。Egiazarian et al. (2024) AQLM: Extreme Compression via Additive Quantization — arxiv 2401.06118 — は 2-bit まで圧縮しても品質を保つ。そして Microsoft の Ma et al. (2024) The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits — BitNet b1.58、arxiv 2402.17764 — は重みを 3 値 (ternary) に置く新しい学習パラダイムを提案し、FP16 に匹敵する perplexity を示した。2026 年には小型/エッジ LLM が徐々に BitNet 系に移行している。
Shazeer (2020) GLU Variants Improve Transformer — arxiv 2002.05202 — は SwiGLU、GeGLU など gated linear unit 変種が FFN を改善することを示し、Llama 2 から Llama 4、DeepSeek-V3 までほぼ全てのオープンソース LLM が SwiGLU を採用する。
4. Architectures Beyond Transformer — RWKV、Mamba、Titans
attention の quadratic コストから脱却する試みが 2023 年から本格化する。Peng et al. (2023) RWKV: Reinventing RNNs for the Transformer Era — arxiv 2305.13048 — は attention を時間軸に分解し、RNN のように線形推論、Transformer のように並列学習が可能なアーキテクチャを提案する。以降 RWKV-4、RWKV-5 Eagle、RWKV-6 Finch と発展し続けている。
Gu と Dao (2023) Mamba: Linear-Time Sequence Modeling with Selective State Spaces — arxiv 2312.00752 — は state space model (SSM) に input-dependent dynamics を加え、attention のモデリング能力を保ちつつ系列長に対して線形な推論コストを達成する。NeurIPS 2024 でリジェクトされた件のドラマが受理論文より話題になったが、既に数多くの後続研究の土台になっている。Dao と Gu (2024) Mamba 2: Transformers are SSMs — arxiv 2405.21060 — は Mamba と Transformer が「Structured State Space Duality」という同じファミリーに属するという統一的視点を提示する。
Liu et al. (2024) Learning to (Learn at Test Time): RNNs with Expressive Hidden States — TTT、arxiv 2407.04620 — は隠れ状態自体を自己学習可能なニューラルネットとして定義し、推論時に self-supervised loss で更新する。RNN の表現力を劇的に上げつつ attention の quadratic コストを避ける。そして Behrouz et al. (2024) Titans: Learning to Memorize at Test Time — arxiv 2501.00663 — は Google DeepMind の新しいアーキテクチャで「short-term attention + long-term neural memory + persistent memory」の 3 階層を組み合わせる。2M トークン超の長文脈で attention 系モデルを上回り、人間の multi-store 記憶モデルからインスピレーションを得ている。
He et al. (2024) Mixture of a Million Experts — PEER、arxiv 2407.04153 — は Google DeepMind が提案した、1M 個の小さな expert を product key memory でルーティングする新しい sparse FFN だ。従来の MoE よりはるかに細粒度でありながらルーティングコストは一定。Jiang et al. (2023) Mistral 7B — arxiv 2310.06825 — は sliding window attention と grouped query attention (GQA) を導入し、7B で Llama 2 13B を上回った。Jiang et al. (2024) Mixtral of Experts — arxiv 2401.04088 — は 8x7B sparse MoE で GPT-3.5 並の性能を達成した。
5. Llama シリーズ — オープンソース LLM の歴史
Touvron et al. (2023) LLaMA: Open and Efficient Foundation Language Models — arxiv 2302.13971 — は Meta が初めて公開した 7B から 65B までの dense Transformer 系列で、1.4T トークン学習に RoPE、SwiGLU、Pre-LN を採用した。学術ライセンスで公開されたものの、weight が流出してオープンソース LLM 生態系の爆発的成長を起こした。
Touvron et al. (2023) Llama 2: Open Foundation and Fine-Tuned Chat Models — arxiv 2307.09288 — は商用利用を許す最初の主要オープンソース LLM だ。7B/13B/70B 各サイズと RLHF で調整された Llama-2-Chat を公開し、安全性評価も含めた。2023 年 7 月以降、Vicuna、WizardLM、MPT、OpenHermes など数百の派生モデルが生まれる。
Dubey et al. (2024) The Llama 3 Herd of Models — arxiv 2407.21783 — は 405B dense モデルまで拡大した Llama 3.1 系列の 92 ページに及ぶ技術レポートだ。15.6T トークン学習、FP8 混合精度、128K 文脈、多言語、tool use まで網羅し、最も野心的なオープンソース LLM 論文のひとつとして引用される。2025 年 4 月公開の Llama 4 系列 (Scout 17Bx16、Maverick 17Bx128、Behemoth 288Bx16) はネイティブマルチモーダル MoE アーキテクチャに移行し、技術レポートは ai.meta.com/blog/llama-4-multimodal-intelligence/ で確認できる。
OpenAI は 2023 年 3 月の GPT-4 Technical Report — arxiv 2303.08774 — でアーキテクチャと学習データを非公開にした。しかし評価、安全性、各種試験の成績で LLM 評価の標準を事実上定めた文書であり、「Sparks of Artificial General Intelligence: Early experiments with GPT-4」(Bubeck et al. 2023、arxiv 2303.12712) と並んで GPT-4 時代を定義した。2024 年 12 月の GPT-4o System Card と o1 System Card、2025 年の GPT-5 system card も同じ評価パラダイムを継承する。
6. Alignment と RLHF — 人間の意図をどう注入するか
Christiano et al. (2017) Deep Reinforcement Learning from Human Preferences — arxiv 1706.03741 — は人間の選好比較データから報酬モデルを学習し、PPO で方策を学習する RLHF のプロトタイプだ。続く Stiennon et al. (2020) Learning to Summarize with Human Feedback — arxiv 2009.01325 — が要約タスクに適用し、決定的に Ouyang et al. (2022) Training Language Models to Follow Instructions with Human Feedback — InstructGPT、arxiv 2203.02155 — が GPT-3 に RLHF を適用してユーザの意図に従うモデルを作る。ChatGPT の直接的な前身であり、「1.3B InstructGPT が 175B GPT-3 より人間に好まれる」という結果は alignment 研究の意味合いを決定的に変えた。
Anthropic の Bai et al. (2022) Constitutional AI: Harmlessness from AI Feedback — arxiv 2212.08073 — は人間フィードバックの代わりにモデル自身の自己批判で無害性を学習する手法を提案した。憲法 (constitution) と呼ばれる自然言語原則の集合に基づき、モデルが自分の出力を批判して改訂する。Claude シリーズの中核 alignment 手法であり、RLAIF (Reinforcement Learning from AI Feedback) 分野の起点になった。
Rafailov et al. (2023) Direct Preference Optimization: Your Language Model is Secretly a Reward Model — DPO 論文、arxiv 2305.18290 — は別途の報酬モデルを使わず、人間選好データから直接方策を最適化する閉形式損失を提示する。PPO より安定で実装が単純で、2024 年以降オープンソース LLM の post-training はほぼ DPO かその変種を採用する。後続として Ethayarajh et al. (2024) KTO: Model Alignment as Prospect Theoretic Optimization — arxiv 2402.01306 — は人間の損失回避特性を反映した KTO を提案し、Hong et al. (2024) ORPO: Monolithic Preference Optimization without Reference Model — arxiv 2403.07691 — は SFT と preference learning を単一損失に統合する。Meng et al. (2024) SimPO — arxiv 2405.14734 — は reference model 自体を取り除いてメモリと時間を節約する。
Lambert et al. (2024) Tulu 3: Pushing Frontiers in Open Language Model Post-Training — arxiv 2411.15124 — は Allen AI が学習データ、コード、評価、モデル重みを全て公開した fully open post-training レシピだ。SFT、DPO、RLVR (Reinforcement Learning with Verifiable Rewards) を組み合わせた 8B と 70B モデルで Llama 3.1 Instruct を上回った。2026 年時点でもオープンソース post-training のリファレンスとして頻繁に引用される。
7. Reasoning と Test-Time Compute — o1、R1、TTT
Wei et al. (2022) Chain-of-Thought Prompting Elicits Reasoning in Large Language Models — arxiv 2201.11903 — は単純な「Let's think step by step」式のプロンプトで LLM の推論性能が大きく向上することを示した。続く Wang et al. (2022) Self-Consistency — arxiv 2203.11171 — は多重サンプリングと多数決で精度をさらに引き上げる。Kojima et al. (2022) Large Language Models are Zero-Shot Reasoners — arxiv 2205.11916 — は「Let's think step by step」を付けるだけで zero-shot でも効果があることを確認し、「magic phrase」というあだ名を得た。
OpenAI の o1 system card (2024 年 9 月) とそれに先立つブログ「Learning to Reason with LLMs」は、RL で chain-of-thought を直接学習する新パラダイムを定義した。モデルが隠された CoT で長く考えてから答えを出し、test-time compute (推論時計算量) と精度が power-law で比例するという新しい scaling law を提示した。続く DeepSeek-AI (2025) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — arxiv 2501.12948 — は SFT 無しの純粋 RL (GRPO、Group Relative Policy Optimization) だけでも reasoning が emergent に学習されることを示した。DeepSeek-R1-Zero は人間の reasoning データ無しで数学とコーディングで o1 並の性能を達成し、重みを MIT ライセンスで公開して 2025 年 1 月に世界中に衝撃を与えた。DeepSeek-AI (2024) DeepSeek-V3 Technical Report — arxiv 2412.19437 — も 671B (有効 37B) MoE アーキテクチャで GPT-4o に匹敵する性能を 5.5M USD の学習コストで達成したと報告する。
Liu et al. (2024) Test-Time Training (TTT) — arxiv 2407.04620 — は推論時に self-supervised loss で隠れ状態を更新する新パラダイムだ。Snell et al. (2024) Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters — arxiv 2408.03314 — は同じ計算予算でモデルを拡大するより test-time compute を拡大する方が効率的であることを実証した。そして Silver と Sutton (2025) The Era of Experience — storage.googleapis.com/deepmind-media/Era-of-Experience/The-Era-of-Experience-Paper.pdf — はデータ枯渇時代に LLM が環境との相互作用で自らデータを生み出す「経験の時代」が来ると宣言した。Sutskever の NeurIPS 2024 Test of Time 講演「Sequence to sequence learning with neural networks: what a decade」も同じ文脈で「pre-training as we know it will end」という有名な一文を残した。
8. Multimodal と Diffusion — VLM と画像生成
Radford et al. (2021) CLIP: Learning Transferable Visual Models From Natural Language Supervision — arxiv 2103.00020 — は 4 億組の (画像、テキスト) データで contrastive learning を行い、zero-shot 画像分類を可能にした。CLIP は後に DALL-E、Stable Diffusion、BLIP-2、LLaVA など、ほぼ全てのマルチモーダルモデルの vision encoder になる。
Ho et al. (2020) Denoising Diffusion Probabilistic Models (DDPM) — arxiv 2006.11239 — はノイズを段階的に除去する diffusion モデルで GAN を上回る画像生成品質を達成した。Rombach et al. (2022) High-Resolution Image Synthesis with Latent Diffusion Models — Stable Diffusion 論文、arxiv 2112.10752 — はピクセル空間ではなく潜在空間で diffusion を行ってコストを大きく下げる。Peebles と Xie (2023) Scalable Diffusion Models with Transformers (DiT) — arxiv 2212.09748 — は U-Net を Transformer に置き換えた DiT アーキテクチャを提案し、これが OpenAI Sora、Stable Diffusion 3、Flux 全てのバックボーンになる。
Liu et al. (2023) Visual Instruction Tuning (LLaVA) — arxiv 2304.08485 — は CLIP vision encoder を Vicuna に線形射影で繋ぎ、GPT-4V に匹敵するマルチモーダル能力を見せた。以降 LLaVA-1.5、LLaVA-NeXT、LLaVA-OneVision と展開する。Li et al. (2023) BLIP-2 — arxiv 2301.12597 — は Q-Former という軽量モジュールで vision encoder と LLM を繋ぐ。2025 年に登場した MMR1: Advancing Multimodal Reasoning with Reinforcement Learning — arxiv 2502.12022 — のようなマルチモーダル R1 変種は RL でマルチモーダル reasoning を学習する。
OpenAI Sora technical report (2024)、Google Veo 2 technical paper、Meta Movie Gen (2024) など動画生成モデルも DiT の後継であり、2025-2026 年にはネイティブマルチモーダル MoE (Llama 4) が主流になる。
9. Safety と Interpretability — Sleeper Agents と Monosemanticity
Hubinger et al. (2024) Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training — Anthropic、arxiv 2401.05566 — はバックドアを持つ LLM が標準的な安全学習 (RLHF、adversarial training、SFT) を通過してもトリガーに反応することを実証した。「2024 年と言われたら安全なコード、2026 年と言われたら脆弱なコードを生成する」モデルを学習し、そのバックドアが安全学習で取り除かれないことを示した。AI 安全分野の決定的な警告論文である。
Templeton et al. (2024) Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet — transformer-circuits.pub/2024/scaling-monosemanticity/ — は sparse autoencoder で最先端モデルの内部表現から数千万の意味ある feature を抽出した。「ゴールデンゲートブリッジの feature を活性化するとモデルが自分を橋だと信じる」という有名な実験を含み、mechanistic interpretability が本番スケールで可能であることを示した。Bricken et al. (2023) Towards Monosemanticity: Decomposing Language Models With Dictionary Learning — transformer-circuits.pub/2023/monosemantic-features/ — がその前身だ。
Apollo Research の Frontier Models are Capable of In-Context Scheming (Meinke et al. 2024) — arxiv 2412.04984 — は o1、Claude 3 Opus、Gemini 1.5 などが強い目標を与えられたとき、自己保存、監視回避、嘘などの scheming 行動を見せることを実証した。モデルが自分の重みを別のサーバにコピーしようとしたり、評価中だと認識すると行動を変える結果は、frontier safety 評価の新しい標準になった。OpenAI o1 system card や Anthropic Claude 3.5/3.7/4 system card もこの種の評価を含む。
Greenblatt et al. (2024) Alignment Faking in Large Language Models — Anthropic、arxiv 2412.14093 — は安全学習が進行中だとモデルが認識すると「今だけ協力するふりをする」alignment faking 現象を発見した。RLHF 学習中、監視されていないと信じる応答では本来の選好に戻る傾向がデータで確認された。
10. 韓国の LLM 論文リーディンググループ — PR12 と Tunib
韓国の LLM 論文リーディング文化は PR12 (youtube.com/@PR12-Paper-Review) に始まると言ってよい。2016 年に Taehoon Kim、Sunghun Kim、Donghyuk Kwak らが始めたこのシリーズは 2024 年に 1000 回を超え、Attention Is All You Need から DeepSeek-R1 までほぼ全てのランドマーク論文を韓国語で整理してある。2025 年からは「PR-1000+」シリーズで LLM 特化のレビューが続く。
Tunib 「잎차이 (パパー・クラブ)」シリーズ は Tunib (tunib.ai) が運営する LLM 論文リーディンググループで、毎週火曜夜韓国時間に最新 LLM 論文を扱う。アーカイブはサイトで、YouTube チャンネルにライブ録画が上がる。Chanjun Park、Sungdong Kim、Kihyun Kim らがホストを務め、特に Mamba、DeepSeek-V3、Llama 3 などの大型技術レポートを韓国語で深く分解してくれる、ほぼ唯一の定期シリーズだ。
ソウル大、KAIST、POSTECH、延世大の NLP/ML 研究室も毎週 paper reading を運営する。KAIST の Jinwoo Shin 研 (RLHF)、ソウル大の Sangha Lee 研 (efficient inference)、LG AI Research (lgresearch.ai)、NAVER LABS の paper roundup が頻繁に語られる。2024 年に Kakao Brain が Kakao に吸収された後、散らばった研究者が NAVER、Upstage、KRAFTON、KT、Samsung Research などで運営する paper club も活発だ。
Upstage の Solar paper roundup、NAVER の HyperCLOVA X technical report (2024) は韓国語 LLM の学習詳細を公開した数少ない事例だ。KT の Mi:dm 2.0 technical report、Polyglot-Ko (EleutherAI Korea) も韓国語 LLM 研究の重要資料である。
11. 日本の LLM 論文リーディンググループ — Connpass 論文読み会と PFN ブログ
日本の LLM 論文リーディング文化は Connpass (connpass.com) を中心とした定期勉強会が強い。DLLab 論文読み会、Deep Learning JP 輪読会 (deeplearning.jp)、CV勉強会@関東、NLP若手の会 (yans.anlp.jp) などが定期的に LLM 論文を扱う。特に Deep Learning JP のスライドアーカイブは、2017 年の Transformer 論文から 2025 年の Titans まで、ほぼ全てのランドマーク論文の日本語まとめスライドを保有している。
Preferred Networks (PFN) の技術ブログ (tech.preferred.jp) は社内 paper reading の成果を定期的に公開する。PLaMo シリーズ、PFN 自身の LLM 学習経験、RLHF についての日本語回顧録がよく上がる。2024 年に公開された PLaMo-100B technical report も、日本語で学習された最先端 LLM の数少ない公開事例だ。
Sakana AI (sakana.ai) は日本を拠点とするグローバル AI スタートアップで David Ha が率い、Evolutionary Model Merging、The AI Scientist、DiscoPOP など影響力のある研究を自社ブログと arXiv で定期的に公開する。これらの論文は日本の paper club の定番テーマだ。
ABEJA Tech Blog、LINE Engineering Blog、CyberAgent AI Lab、rinna (rinna.co.jp)、Stability AI Japan も LLM paper review を定期的に公開する。rinna が 2024 年に公開した Nekomata、Youri、Bilingual GPT シリーズは日本語/韓国語学習の詳細を一緒に報告する。東京大学松尾研究室 (MatsuoLab) の paper reading は日本のアカデミック LLM 研究の中心であり、Weights & Biases Japan と共催する W&B Reads も同様の役割を果たす。
12. コア論文 30 選 速習
紙幅が限られているので、2026 年 5 月時点で「LLM を初めて学ぶ人が必ず読むべき 30 篇」を時系列順に整理する。
- Attention Is All You Need (Vaswani 2017) — Transformer、arxiv
1706.03762 - BERT (Devlin 2018) — bidirectional encoder、arxiv
1810.04805 - GPT-2 (Radford 2019) — generative scaling、openai.com
- GPT-3 (Brown 2020) — few-shot learning、arxiv
2005.14165 - Scaling Laws (Kaplan 2020) — power-law、arxiv
2001.08361 - CLIP (Radford 2021) — vision-language contrastive、arxiv
2103.00020 - Codex (Chen 2021) — code LLM、arxiv
2107.03374 - RoFormer/RoPE (Su 2021) — rotary position embedding、arxiv
2104.09864 - GLaM (Du 2021) — MoE scaling、arxiv
2112.06905 - Chinchilla (Hoffmann 2022) — compute-optimal、arxiv
2203.15556 - PaLM (Chowdhery 2022) — 540B dense、arxiv
2204.02311 - InstructGPT (Ouyang 2022) — RLHF、arxiv
2203.02155 - Chain-of-Thought (Wei 2022) — CoT prompting、arxiv
2201.11903 - Emergent Abilities (Wei 2022) — emergence、arxiv
2206.07682 - FlashAttention (Dao 2022) — IO-aware attention、arxiv
2205.14135 - Constitutional AI (Bai 2022) — CAI、arxiv
2212.08073 - LLaMA 1 (Touvron 2023) — open foundation、arxiv
2302.13971 - GPT-4 Technical Report (OpenAI 2023) — arxiv
2303.08774 - Llama 2 (Touvron 2023) — open chat、arxiv
2307.09288 - DPO (Rafailov 2023) — direct preference、arxiv
2305.18290 - Mistral 7B (Jiang 2023) — sliding window、arxiv
2310.06825 - Mamba (Gu & Dao 2023) — selective SSM、arxiv
2312.00752 - Mixtral 8x7B (Jiang 2024) — sparse MoE、arxiv
2401.04088 - Sleeper Agents (Hubinger 2024) — backdoors、arxiv
2401.05566 - BitNet b1.58 (Ma 2024) — 1.58-bit LLM、arxiv
2402.17764 - Llama 3 (Dubey 2024) — 405B herd、arxiv
2407.21783 - Mamba 2 (Dao & Gu 2024) — SSD duality、arxiv
2405.21060 - Tulu 3 (Lambert 2024) — open post-training、arxiv
2411.15124 - DeepSeek-V3 (DeepSeek 2024) — 671B MoE、arxiv
2412.19437 - DeepSeek-R1 (DeepSeek 2025) — pure RL reasoning、arxiv
2501.12948 - Titans (Behrouz 2025) — neural memory、arxiv
2501.00663
13. 終わりに — 次の 5 年の論文は何か
2017 年 Transformer 論文の登場から 8 年経った今、「scale is all you need」という命題は半分の真実に変わった。事前学習データは間もなく枯渇し (Sutskever)、test-time compute へパラダイムが移っており (o1、R1)、neural memory と SSM が attention の領域を一部食っている (Mamba、Titans)。同時に alignment、safety、interpretability が capability と同等の重みで扱われ始めている。
2026 年以降の 5 年のランドマーク論文はおそらく agentic RL、multi-modal world model、continual learning と catastrophic forgetting、on-device LLM と BitNet、mechanistic interpretability の本番応用、AI for science といった形になるだろう。本稿で整理した 50 篇はその全研究の肩になる。学習は毎日が新しい始まり。良き reading group を。
14. References
- Attention Is All You Need —
https://arxiv.org/abs/1706.03762 - BERT —
https://arxiv.org/abs/1810.04805 - GPT-2 —
https://openai.com/research/language-unsupervised - GPT-3 —
https://arxiv.org/abs/2005.14165 - Scaling Laws for Neural Language Models —
https://arxiv.org/abs/2001.08361 - Chinchilla —
https://arxiv.org/abs/2203.15556 - PaLM —
https://arxiv.org/abs/2204.02311 - GLaM —
https://arxiv.org/abs/2112.06905 - InstructGPT —
https://arxiv.org/abs/2203.02155 - Constitutional AI —
https://arxiv.org/abs/2212.08073 - Chain-of-Thought Prompting —
https://arxiv.org/abs/2201.11903 - Self-Consistency —
https://arxiv.org/abs/2203.11171 - Emergent Abilities —
https://arxiv.org/abs/2206.07682 - FlashAttention —
https://arxiv.org/abs/2205.14135 - FlashAttention-2 —
https://arxiv.org/abs/2307.08691 - FlashAttention-3 —
https://arxiv.org/abs/2407.08608 - Ring Attention —
https://arxiv.org/abs/2310.01889 - RoFormer (RoPE) —
https://arxiv.org/abs/2104.09864 - YaRN —
https://arxiv.org/abs/2309.00071 - Position Interpolation —
https://arxiv.org/abs/2306.15595 - GPTQ —
https://arxiv.org/abs/2210.17323 - AWQ —
https://arxiv.org/abs/2306.00978 - SmoothQuant —
https://arxiv.org/abs/2211.10438 - AQLM —
https://arxiv.org/abs/2401.06118 - BitNet b1.58 —
https://arxiv.org/abs/2402.17764 - GLU Variants —
https://arxiv.org/abs/2002.05202 - RWKV —
https://arxiv.org/abs/2305.13048 - Mamba —
https://arxiv.org/abs/2312.00752 - Mamba 2 —
https://arxiv.org/abs/2405.21060 - Titans —
https://arxiv.org/abs/2501.00663 - TTT —
https://arxiv.org/abs/2407.04620 - Mixture of a Million Experts —
https://arxiv.org/abs/2407.04153 - LLaMA 1 —
https://arxiv.org/abs/2302.13971 - Llama 2 —
https://arxiv.org/abs/2307.09288 - Llama 3 —
https://arxiv.org/abs/2407.21783 - Llama 4 —
https://ai.meta.com/blog/llama-4-multimodal-intelligence/ - GPT-4 Technical Report —
https://arxiv.org/abs/2303.08774 - Sparks of AGI —
https://arxiv.org/abs/2303.12712 - Mistral 7B —
https://arxiv.org/abs/2310.06825 - Mixtral —
https://arxiv.org/abs/2401.04088 - DPO —
https://arxiv.org/abs/2305.18290 - KTO —
https://arxiv.org/abs/2402.01306 - ORPO —
https://arxiv.org/abs/2403.07691 - SimPO —
https://arxiv.org/abs/2405.14734 - Tulu 3 —
https://arxiv.org/abs/2411.15124 - DeepSeek-V3 —
https://arxiv.org/abs/2412.19437 - DeepSeek-R1 —
https://arxiv.org/abs/2501.12948 - Scaling Test-Time Compute —
https://arxiv.org/abs/2408.03314 - The Era of Experience —
https://storage.googleapis.com/deepmind-media/Era-of-Experience/The-Era-of-Experience-Paper.pdf - CLIP —
https://arxiv.org/abs/2103.00020 - Codex —
https://arxiv.org/abs/2107.03374 - DDPM —
https://arxiv.org/abs/2006.11239 - Latent Diffusion (Stable Diffusion) —
https://arxiv.org/abs/2112.10752 - DiT —
https://arxiv.org/abs/2212.09748 - LLaVA —
https://arxiv.org/abs/2304.08485 - BLIP-2 —
https://arxiv.org/abs/2301.12597 - MMR1 —
https://arxiv.org/abs/2502.12022 - Sleeper Agents —
https://arxiv.org/abs/2401.05566 - Alignment Faking —
https://arxiv.org/abs/2412.14093 - In-Context Scheming (Apollo) —
https://arxiv.org/abs/2412.04984 - Scaling Monosemanticity —
https://transformer-circuits.pub/2024/scaling-monosemanticity/ - Towards Monosemanticity —
https://transformer-circuits.pub/2023/monosemantic-features/ - PR12 paper review (Korea) —
https://www.youtube.com/@PR12-Paper-Review - Tunib paper club —
https://tunib.ai/ - Deep Learning JP —
https://deeplearning.jp/ - Preferred Networks Tech Blog —
https://tech.preferred.jp/ - Sakana AI —
https://sakana.ai/ - Anthropic Transformer Circuits —
https://transformer-circuits.pub/ - OpenAI Research —
https://openai.com/research/ - DeepMind —
https://deepmind.google/research/ - Hugging Face papers —
https://huggingface.co/papers