필사 모드: LLM論文キュレーション 2024-2026 - Llama・DeepSeek・Qwen・Mistral・Phi・RLHF・DPO・CoT・RAG・FlashAttention・vLLM 詳細ガイド
日本語プロローグ — 2026年、LLM論文の洪水を生き抜く
2024年1月から2026年5月までの間、arXivの`cs.CL`と`cs.LG`には平均して週1,200本以上の論文が投稿された。LLMに直接関連するものだけ絞っても週300本、年1万5千本規模。一人で全て読むのは不可能だ。
そのため2026年の現役エンジニアが投げる問いは単純である。**「今構築しているシステムに直接役立つ30本はどこにあるか」**
本記事はその30本+αをキュレーションする。基準は三つ。
- **再現可能か** — コードと重み、または十分なディテールが公開されているか
- **現場で引用されているか** — モデルカード、ベンチマークレポート、プロダクションブログでよく引用されているか
- **2026年でも有効か** — 半年後に新モデルが出ても核となる洞察が生き残るか
> 一行サマリ:**「基盤モデルレポート → MoE/Attention革新 → RLHF/DPO系列 → CoT/推論 → エージェント/検索 → FlashAttention/サービング → 評価/安全性」** この順で読めば1週間でLLMの全景が頭に入る。
1章 · Llama 3 — オープンウェイトの新しい基準線
**Llama 3 / Llama 3.3 Technical Report** (2024-07、[arXiv:2407.21783](https://arxiv.org/abs/2407.21783))
MetaのLlama 3は8B・70B・405Bモデルを同時に公開し、事実上2024年オープンウェイトの新しい基準線となった。92ページのテクニカルレポートには**データキュレーションパイプライン**(15Tトークン)、**スケーリング則の再検証**、**ポストトレーニングレシピ**(SFT + DPO + Rejection Sampling)、**インフラ**(16K H100クラスター、419回の中断、最も多い障害はGPU + メモリ + NICの順)まで全て記載されている。このレポート一本が「現代LLMをどう作るか」の事実上の教科書だ。8Bモデルは2026年でも依然としてファインチューニングのベースとして最も多く使われている。
Llama 3.3 70Bは同じアーキテクチャでポストトレーニングのみを強化し、GPT-4o級のinstruction followingを達成した。Llama 4が2025年中頃にマルチモーダル・MoE構造で公開され、「Llama=オープンLLM標準」という図式が定着した。
2章 · DeepSeek-V3とR1 — MoEと推論RLの頂点
**DeepSeek-V3 Technical Report** (2024-12、[arXiv:2412.19437](https://arxiv.org/abs/2412.19437))
671BパラメータのMoEモデルを14.8Tトークンで学習するのにかかった費用がH800時間ベースで約558万ドル。この一行が業界を揺るがした。核心技術は**MLA(Multi-head Latent Attention)** — KVキャッシュを1/10に圧縮 — と**DeepSeekMoE** — 256個のルーティングexpert + 1個の共有expert。**Auxiliary-loss-freeロードバランス**、**FP8学習**、**DualPipeパイプライン並列化**などのディテールが後続のオープンモデルの標準となった。
**DeepSeek-R1** (2025-01、[arXiv:2501.12948](https://arxiv.org/abs/2501.12948))
DeepSeek-R1はV3ベースから出発して**純粋なRLのみで**o1級の推論能力を発現させた事例である。**GRPO(Group Relative Policy Optimization)** アルゴリズムが核心で、PPOのvalue networkを取り除いてメモリを節約した。R1-Zero(SFTなしの純粋RL)でモデルが自ら「Wait, let me reconsider…」のような自己検討トークンを生成し始める「aha moment」報告は2025年最も引用された結果の一つだ。
3章 · Qwenシリーズ — 中国発トライリンガル強者
**Qwen2.5 Technical Report** (2024-12、[arXiv:2412.15115](https://arxiv.org/abs/2412.15115))と**Qwen3 Technical Report** (2025-Q2)は0.5Bから72Bまで多様なサイズ、そして128Kコンテキスト + マルチモーダル + 数学・コード専用バリエーションを同時に公開する。Qwenシリーズは**日中韓の言語処理**でLlamaを凌駕することが多く、Qwen2.5-Coder 32Bはオープンウェイトコーディングモデルの中でSWE-Benchスコアで長らく1位を維持した。2026年韓国・日本のスタートアップが自前モデルを作る際に最もよくベースに採用する候補である。
4章 · MistralとMistral Large 2 — 欧州の応答
**Mistral 7B** (2023-10、[arXiv:2310.06825](https://arxiv.org/abs/2310.06825))はsliding window attentionとgrouped-query attentionを組み合わせて7BサイズでLlama 2 13Bに勝った最初の事例だった。2024年**Mistral Large 2** (123B)と2025年**Mistral Medium 3**がApache 2.0またはMistral Research Licenseで公開され、欧州発オープンウェイトの位置づけが固まった。**Mixtral 8x7B**、**Mixtral 8x22B**のsparse MoEはDeepSeek以前のMoE標準であり、**Codestral**は22Bコーディング専用で今も使われている。
5章 · Phiシリーズ — 「データの質がモデルの質」
**Phi-3 Technical Report** (2024-04、[arXiv:2404.14219](https://arxiv.org/abs/2404.14219))と**Phi-4** (2024-12、[arXiv:2412.08905](https://arxiv.org/abs/2412.08905))はMicrosoft Researchが主導したSLM(small language model)の流れの頂点だ。核心主張は単純で — **「textbook quality data」** のみで学習すれば3.8BモデルがGPT-3.5に勝てる。Phi-4は14BサイズでGPQAとMATHでLlama 3 70Bに追いつき、**Phi-4-reasoning**はo1-miniに近い推論能力を示し、SLMでも推論ができることを証明した。
6章 · Gemma 3とFalcon 3 — その他のオープンウェイト陣営
**Gemma 3 Technical Report** (2025-Q1)は1B・4B・12B・27Bサイズで、Gemini 2.0の一部技術(特にattentionバリエーションとdistillation)をオープンウェイトに持ち込んだ。128Kコンテキストとマルチモーダルが標準搭載されている。
**Falcon 3** (TII、UAE)と**Command R+** (Cohere)はそれぞれ30B以下で韓国語・日本語が弱い代わりに英語・アラビア語・多言語RAGに強みを持つ。**Yi-Lightning**(01.AI)、**GLM-4-9B**(Zhipu)は中国外市場ではあまり知られていないがChatbot Arena上位常連。
7章 · 商用モデルカード — GPT-4、Claude 4.7、Gemini 2.5
商用モデルは論文ではなく**モデルカード(System Card)** が情報源である。
- **GPT-4 Technical Report** (2023、[arXiv:2303.08774](https://arxiv.org/abs/2303.08774)) — アーキテクチャ詳細は非公開だが評価方法論と安全性手続きの基準線。
- **OpenAI o1 System Card** (2024-09) — 推論モデルの初の商用事例。RL + CoTを学習時点で統合。
- **OpenAI o3 / o4 System Card** (2025) — ARC-AGIで初めて人間平均を超えたモデル。
- **Anthropic Claude 4 / 4.5 / 4.7 Model Card** — Constitutional AIの後続とシコファンシー緩和、引用機能、コンピュータ使用などの能力カード。
- **Google Gemini 1.5 / 2.0 / 2.5 Technical Report** ([arXiv:2403.05530](https://arxiv.org/abs/2403.05530)) — 1M〜10Mトークンコンテキスト + ネイティブマルチモーダル。
商用モデルカードは「ベンチマーク数値」よりも**「評価方法論、安全性インターベンション、限界事例」** を見るために読む。
8章 · Mixture-of-Experts — Switch TransformerからDeepSeekMoEへ
MoEは2021年**Switch Transformer** ([arXiv:2101.03961](https://arxiv.org/abs/2101.03961))で再び脚光を浴び、**GShard**、**GLaM**、**ST-MoE**を経て2024年**DeepSeekMoE** ([arXiv:2401.06066](https://arxiv.org/abs/2401.06066))でさらに一段進化した。核心は二つで — **fine-grained expert segmentation**(専門家数を増やしてそれぞれを小さく)+ **shared expert isolation**(共通知識を別に処理)。DeepSeek-V3が256+1 expertを使う理由だ。
**Mixtral of Experts** ([arXiv:2401.04088](https://arxiv.org/abs/2401.04088))は8つのexpertのうちtop-2を活性化する構造で、最も多く引用されているsparse MoE実装である。**OLMoE**(Allen AI)は学習コードとデータ全体を公開した最初のMoE。
9章 · Attention革新 — MLA、GQA、Sliding Window、Mamba
**GQA: Grouped-Query Attention** ([arXiv:2305.13245](https://arxiv.org/abs/2305.13245)) — 複数のquery headがKV headを共有。Llama 2/3、Mistral、ほぼすべての現代モデルのデフォルト。
**MLA: Multi-head Latent Attention** ([arXiv:2405.04434](https://arxiv.org/abs/2405.04434)、DeepSeek-V2論文) — KVキャッシュを低ランク圧縮。同一コンテキストでメモリ80%節約。
**Sliding Window Attention** — Longformer ([arXiv:2004.05150](https://arxiv.org/abs/2004.05150))とMistral 7Bが採用。ローカルウィンドウ + グローバルトークン。
**Mamba / Mamba-2** ([arXiv:2312.00752](https://arxiv.org/abs/2312.00752)、[arXiv:2405.21060](https://arxiv.org/abs/2405.21060)) — SSM(State Space Model)ベース。attentionのO(N²)の代わりにO(N)。長いコンテキストでスループットが圧倒的。ハイブリッド(トランスフォーマー + Mambaブロック)が2025-2026年実験的に登場 — **Jamba**(AI21)、**Zamba2**(Zyphra)。
**RWKV-7** — attentionなしのRNNでトランスフォーマーを追いつこうとする試み。モバイル・組み込み候補。
10章 · 推論モデルの系譜 — CoT、ToT、Self-Consistency、GRPO
**Chain-of-Thought Prompting** ([arXiv:2201.11903](https://arxiv.org/abs/2201.11903)、Wei et al. 2022) — 「Let's think step by step.」の一行でGSM8K精度が2倍に跳ね上がる。
**Self-Consistency** ([arXiv:2203.11171](https://arxiv.org/abs/2203.11171)) — 複数回サンプリングして多数決。推論タスクで単一サンプル比+10~20%。
**Tree-of-Thoughts** ([arXiv:2305.10601](https://arxiv.org/abs/2305.10601)) — 思考プロセスをツリーで探索。Game of 24、創作で効果。
**Reflexion** ([arXiv:2303.11366](https://arxiv.org/abs/2303.11366)) — 失敗した試みをテキスト形式でメモリに残し次の試みで参照。
**OpenAI o1** (ブログ、2024-09) + **DeepSeek-R1 GRPO** — 学習時点でRLによりlong CoTを発現。2026年すべてのfrontierモデルが「thinking」モードを搭載した理由。
**Inference-Time Scaling Laws** ([arXiv:2408.03314](https://arxiv.org/abs/2408.03314)) — モデルサイズを大きくするより推論時間を増やす方が効率的な場合があるという結果。
推論時間スケーリングの一形態 — Best-of-N + verifier
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
tok = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
def best_of_n(prompt, n=16, verifier=None):
inputs = tok(prompt, return_tensors="pt")
candidates = []
for _ in range(n):
out = model.generate(
**inputs,
do_sample=True,
temperature=0.8,
max_new_tokens=512,
)
text = tok.decode(out[0], skip_special_tokens=True)
score = verifier(text) if verifier else len(text)
candidates.append((score, text))
return max(candidates, key=lambda x: x[0])[1]
11章 · RLHFの系譜 — InstructGPT、Constitutional AI、DPO
**InstructGPT** ([arXiv:2203.02155](https://arxiv.org/abs/2203.02155)、Ouyang et al. 2022) — RLHFの事実上の基準論文。PPO + 報酬モデル + KLペナルティの3段階レシピがここで定着した。
**Constitutional AI** ([arXiv:2212.08073](https://arxiv.org/abs/2212.08073)、Anthropic 2022) — 人間の選好の代わりに**AIが作成した憲章(constitution)** で自己批評。RLAIFの起源。
**DPO: Direct Preference Optimization** ([arXiv:2305.18290](https://arxiv.org/abs/2305.18290)、Rafailov et al. 2023) — 報酬モデルなしで選好データから直接学習。PPOの複雑度を取り除きつつ同等の性能。2024年以降事実上の標準。
**ORPO** ([arXiv:2403.07691](https://arxiv.org/abs/2403.07691)) — SFTと選好学習を一つの損失関数に統合。単一段階RLHF。
**KTO: Kahneman-Tversky Optimization** ([arXiv:2402.01306](https://arxiv.org/abs/2402.01306)) — ペア(preferred、rejected)の代わりに単一ラベル(good/bad)でも学習可能。ラベリングコスト削減。
**SimPO** ([arXiv:2405.14734](https://arxiv.org/abs/2405.14734)) — DPOのreferenceモデル依存性を除去。メモリ節約。
比較表は単純である。
| アルゴリズム | 報酬モデル | referenceモデル | ラベル形式 |
| --- | --- | --- | --- |
| PPO (RLHF) | 必要 | 必要 | ペア |
| DPO | 不要 | 必要 | ペア |
| ORPO | 不要 | 不要 | ペア + SFT |
| KTO | 不要 | 必要 | 単一 |
| SimPO | 不要 | 不要 | ペア |
12章 · エージェント — ReAct、Voyager、SWE-Agent、OS-Atlas
**ReAct** ([arXiv:2210.03629](https://arxiv.org/abs/2210.03629)) — Reasoning + Actingをインターリーブ。ほぼすべてのLLMエージェントフレームワークの基盤。
**Voyager** ([arXiv:2305.16291](https://arxiv.org/abs/2305.16291)) — Minecraftでの生涯学習(lifelong learning)エージェント。スキルライブラリを自動構築。
**SWE-Agent** ([arXiv:2405.15793](https://arxiv.org/abs/2405.15793)) — 人間が使うIDEの代わりに**agent-computer interface(ACI)** を設計。SWE-BenchでGPT-4を12.5% → 18.0%に引き上げた。
**OS-Atlas** ([arXiv:2410.23218](https://arxiv.org/abs/2410.23218)) — GUIエージェント向けのgroundingモデル。画面キャプチャ → 座標/アクション。
**Computer Useサーベイ** — Anthropic Claude Computer Use(2024-10)以降本格的な評価ベンチマーク(**OSWorld**、[arXiv:2404.07972](https://arxiv.org/abs/2404.07972))が登場。
ReActパターンの最小擬似コード
def react_agent(task, tools, llm, max_steps=10):
trajectory = [f"Task: {task}"]
for step in range(max_steps):
thought = llm(trajectory + ["Thought:"])
action = llm(trajectory + ["Action:"])
if action.startswith("Finish"):
return action
observation = tools.run(action)
trajectory.append(f"Thought: {thought}\nAction: {action}\nObservation: {observation}")
return "Max steps reached"
13章 · RAGの系譜 — オリジナルからGraphRAGまで
**RAG (Retrieval-Augmented Generation)** ([arXiv:2005.11401](https://arxiv.org/abs/2005.11401)、Lewis et al. 2020) — 検索 + 生成を結合したオリジナル。open-domain QAの標準。
**FiD: Fusion-in-Decoder** ([arXiv:2007.01282](https://arxiv.org/abs/2007.01282)) — デコーダで複数passageを融合。RAGより強力だがデコーダコンテキストコストが増加。
**RETRO** ([arXiv:2112.04426](https://arxiv.org/abs/2112.04426)、DeepMind) — 2Tトークンデータストアをモデル外部に置きchunk単位検索。
**ColBERT / ColBERTv2** ([arXiv:2004.12832](https://arxiv.org/abs/2004.12832)) — late interaction。トークンレベルでquery-documentマッチング、dense retrievalの精度標準。
**Self-RAG** ([arXiv:2310.11511](https://arxiv.org/abs/2310.11511)) — モデルが自ら「検索が必要か」を判断しself-reflectionトークンを生成。
**GraphRAG** ([arXiv:2404.16130](https://arxiv.org/abs/2404.16130)、Microsoft 2024) — 文書を知識グラフにしてcommunity summaryベースで検索。グローバル質問(要約、トレンド)に強い。
**Contextual Retrieval** (Anthropicブログ、2024-09) — chunkごとにコンテキストprefixをprependして埋め込み。検索失敗率49% → 35%に減少。
14章 · FlashAttention 1/2/3 — メモリ階層の再発見
**FlashAttention** ([arXiv:2205.14135](https://arxiv.org/abs/2205.14135)、Dao et al. 2022) — attentionをtilingしてSRAM内で処理。HBM I/Oを減らして7.6倍加速。
**FlashAttention-2** ([arXiv:2307.08691](https://arxiv.org/abs/2307.08691)) — ワーク分割を再設計。2x速度。ほとんどの学習コードがここに移行。
**FlashAttention-3** ([arXiv:2407.08608](https://arxiv.org/abs/2407.08608)) — Hopper(H100/H200)の非同期wgmma + TMAを活用。FP16で75% MFU、FP8で1.2 PFLOPS。
torchからFlashAttention呼び出し — 2026年標準
q = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
k = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
v = torch.randn(2, 8, 4096, 128, device="cuda", dtype=torch.bfloat16)
PyTorch 2.xのSDPAが自動的にFlashAttentionバックエンドを選択
with torch.backends.cuda.sdp_kernel(
enable_flash=True, enable_math=False, enable_mem_efficient=False
):
out = F.scaled_dot_product_attention(q, k, v, is_causal=True)
print(out.shape) # [2, 8, 4096, 128]
15章 · vLLMとSGLang — サービングインフラの標準
**vLLM PagedAttention** ([arXiv:2309.06180](https://arxiv.org/abs/2309.06180)、Kwon et al. 2023) — KVキャッシュをOSのページングのように管理。メモリフラグメンテーション90% → 4%に減少。HuggingFace TGI、NVIDIA Tritonよりスループット2-4倍。
**SGLang RadixAttention** ([arXiv:2312.07104](https://arxiv.org/abs/2312.07104)) — KVキャッシュをラディックスツリーで共有。システムプロンプトが重複するマルチターン / few-shotで5倍速い。
**Mixture-of-Depths** ([arXiv:2404.02258](https://arxiv.org/abs/2404.02258)、DeepMind 2024) — トークンごとにトランスフォーマーレイヤを動的にスキップ。同じ品質をより少ないFLOPSで。
**Speculative Decoding** ([arXiv:2211.17192](https://arxiv.org/abs/2211.17192)、Leviathan et al. 2022) — 小さなdraftモデルで複数トークンを先に生成し大きなモデルが検証。2-3x加速がベース。
vLLM標準サービング構成 — 2026年プロダクションパターン
docker run --gpus all -p 8000:8000 \
-v ~/models:/models \
vllm/vllm-openai:latest \
--model /models/Llama-3.3-70B-Instruct \
--tensor-parallel-size 4 \
--max-model-len 32768 \
--gpu-memory-utilization 0.92 \
--enable-prefix-caching \
--enable-chunked-prefill
16章 · 長いコンテキスト — RoPE、YaRN、LongLoRA
**RoPE: Rotary Positional Embedding** ([arXiv:2104.09864](https://arxiv.org/abs/2104.09864)) — Llama系列の位置エンコーディング標準。
**YaRN** ([arXiv:2309.00071](https://arxiv.org/abs/2309.00071)) — RoPEをNTK-awareにスケーリング。4K学習モデルを128Kに拡張。
**LongLoRA** ([arXiv:2309.12307](https://arxiv.org/abs/2309.12307)) — sparse local attention + LoRAで効率的なコンテキスト拡張。
**RingAttention** ([arXiv:2310.01889](https://arxiv.org/abs/2310.01889)) — デバイス間のKVをリングトポロジで通信。1M+コンテキストを学習可能にする。
**Activation Beacon** ([arXiv:2401.03462](https://arxiv.org/abs/2401.03462)) — コンテキストをbeaconトークンに圧縮。効率的な検索。
Gemini 1.5 Proの1Mトークン、Gemini 2.5の10Mトークンはこれらの技術の組み合わせの上にある。
17章 · コードLLM — StarCoder、DeepSeek Coder、Codestral
**StarCoder 2** ([arXiv:2402.19173](https://arxiv.org/abs/2402.19173)、BigCode 2024) — 619プログラミング言語、4T+トークン。重みと学習データ全体を公開。
**DeepSeek Coder V2** ([arXiv:2406.11931](https://arxiv.org/abs/2406.11931)) — 236B MoE、アクティブ21B。HumanEvalとMBPPでGPT-4 Turboと同等。V3は671B MoEでさらに強化。
**Codestral** (Mistral、2024-05) — 22B + 80言語 + 32Kコンテキスト。IDE統合用でよく使われる。
**Code Llama** ([arXiv:2308.12950](https://arxiv.org/abs/2308.12950)) — Llama 2ベースのコードバリエーション。Code Llama 70Bは一時オープンウェイトコーディング1位だった。
**Qwen2.5-Coder** (32B) — Qwenシリーズのコーディングバリエーション。SWE-Benchで長らくオープン1位。
18章 · 小さなモデル — SLMルネサンス
2024-2026年の大きな流れの一つは**「小さくてもよくできる」** である。
- **Phi-3.5 Mini** (3.8B) — モバイルでも動く強い汎用モデル。
- **Gemma 2B / 3 1B** — Edge用1Bサイズ。
- **Qwen2.5 3B / 7B** — 多言語SLMの標準。
- **Mistral 7B / Mistral Nemo 12B** — クラシックサイズ標準。
- **SmolLM2** ([arXiv:2502.02737](https://arxiv.org/abs/2502.02737)) — 360M・1.7Bで11Tトークン学習。Hugging Faceのデータカタログ(SmolLM-Corpus)も合わせて公開。
- **TinyLlama** ([arXiv:2401.02385](https://arxiv.org/abs/2401.02385)) — 1.1Bモデルを3Tトークンで学習。
2026年のモバイル・組み込みLLMはほぼこれらをベースにしている。
19章 · 評価 — MMLU、GSM8K、HumanEvalからSWE-Bench、OSWorldまで
伝統的ベンチマーク:
- **MMLU** ([arXiv:2009.03300](https://arxiv.org/abs/2009.03300)) — 57分野の多肢選択。
- **GSM8K** ([arXiv:2110.14168](https://arxiv.org/abs/2110.14168)) — 小学校数学。
- **MATH** ([arXiv:2103.03874](https://arxiv.org/abs/2103.03874)) — コンテスト数学。
- **HumanEval** ([arXiv:2107.03374](https://arxiv.org/abs/2107.03374)) — コーディング関数完成。
- **BIG-Bench Hard** ([arXiv:2210.09261](https://arxiv.org/abs/2210.09261)).
2024-2026新世代:
- **GPQA** ([arXiv:2311.12022](https://arxiv.org/abs/2311.12022)) — 博士レベルSTEM。
- **MMLU-Pro** ([arXiv:2406.01574](https://arxiv.org/abs/2406.01574)) — MMLUの答案シャッフル + より難しい問題。
- **ARC-AGI** (Chollet) — 一般知能測定。o3が初めて人間平均を通過。
- **SWE-Bench** ([arXiv:2310.06770](https://arxiv.org/abs/2310.06770)) + **SWE-Bench Verified** — 実際のGitHubイシュー解決。
- **OSWorld** ([arXiv:2404.07972](https://arxiv.org/abs/2404.07972)) — コンピュータ使用エージェント。
- **MMMU** ([arXiv:2311.16502](https://arxiv.org/abs/2311.16502)) — マルチモーダル多肢選択。
- **LMSYS Chatbot Arena** ([arXiv:2403.04132](https://arxiv.org/abs/2403.04132)) — 人が直接比較投票。ELO形式。
2026年frontierモデルはGSM8K・HumanEvalで飽和状態であり、意味のある指標はSWE-Bench・OSWorld・GPQA・ARC-AGIに移った。
20章 · 主要モデル比較表
| モデル | リリース | サイズ | MMLU | HumanEval | GSM8K | SWE-Bench |
| --- | --- | --- | --- | --- | --- | --- |
| Llama 3.1 70B | 2024-07 | 70B | 86.0 | 80.5 | 95.1 | 31.2 |
| Llama 3.3 70B | 2024-12 | 70B | 86.9 | 88.4 | 96.5 | 41.4 |
| DeepSeek-V3 | 2024-12 | 671B MoE | 88.5 | 89.0 | 89.3 | 42.0 |
| DeepSeek-R1 | 2025-01 | 671B MoE | 91.2 | 96.3 | 97.3 | 49.2 |
| Qwen2.5-72B | 2024-09 | 72B | 86.1 | 86.6 | 95.8 | 36.0 |
| Mistral Large 2 | 2024-07 | 123B | 84.0 | 92.0 | 93.0 | 32.0 |
| Phi-4 | 2024-12 | 14B | 84.8 | 82.6 | 80.4 | - |
| Gemma 3 27B | 2025-Q1 | 27B | 81.0 | 79.8 | 89.2 | 28.5 |
| GPT-4o | 2024-05 | ? | 88.7 | 90.2 | 95.8 | 33.2 |
| Claude 4.7 | 2026 | ? | 90.1 | 96.3 | 96.4 | 65+ |
| Gemini 2.5 Pro | 2025 | ? | 89.8 | 92.0 | 95.4 | 51.0 |
数字は各モデルカードの自己報告値またはLMSYS/Open LLM Leaderboard平均。比較自体よりも「世代ごとにどこが飽和し、どこが残っているか」を見る。
21章 · 安全性とアライメント — Constitutional AI、Sycophancy、Refusal
**Constitutional AI** ([arXiv:2212.08073](https://arxiv.org/abs/2212.08073))はRLHFで人間ラベルを減らしモデル自己批評で置き換える方向を開いた。
**Discovering Language Model Behaviors with Model-Written Evaluations** ([arXiv:2212.09251](https://arxiv.org/abs/2212.09251)) — sycophancy(おべっか)のような微妙なアライメント失敗をモデル自体で測定。
**Universal and Transferable Adversarial Attacks on Aligned Language Models** ([arXiv:2307.15043](https://arxiv.org/abs/2307.15043)、GCG attack) — 追加トークンでアライメントを破ることができることを体系的に証明。
**Jailbreak Survey** ([arXiv:2402.13457](https://arxiv.org/abs/2402.13457)) — 2024年までのjailbreak分類。
**Sleeper Agents** ([arXiv:2401.05566](https://arxiv.org/abs/2401.05566)、Anthropic) — 学習時にバックドアを埋め込むとsafety trainingで除去されないという結果。アライメントの限界を示した重要論文。
**Tamper-Resistant Safeguards** ([arXiv:2408.00761](https://arxiv.org/abs/2408.00761)) — オープンウェイトモデルで安全性が追加ファインチューニングでも破られないようにしようとする試み。
22章 · 韓国モデル — HyperCLOVA X、EXAONE 3.5、Kanana
**HyperCLOVA X Technical Report** ([arXiv:2404.01954](https://arxiv.org/abs/2404.01954)、Naver 2024) — 韓国語 + 英語のバイリンガル + 韓国文化・法律・医療ドメイン評価セット(KoBigBench、KMMLU)を同伴公開。韓国語LLMの事実上の基準レポート。
**EXAONE 3.5** (LG AI Research、2024-12) — 2.4B・7.8B・32B。英語・韓国語バイリンガル、32Kコンテキスト。Apache 2.0ではなくEXAONE AI Model Licenseだが研究目的での使用は可能。
**Kanana** (Kakao、2025) — 2B・8B・32B。韓国語 + 英語。KakaoTalk内部LLMバックボーン。
**KORAi / KORani / KoGPT / Polyglot-Ko** — その前世代の韓国語モデル。2025年から上記三つが事実上のメジャー。
**KMMLU** ([arXiv:2402.11548](https://arxiv.org/abs/2402.11548)) — 韓国語MMLU。韓国モデル評価の基本。
23章 · 日本モデル — Sakana、Stockmark、Swallow、PLaMo
**Sakana AI Evolutionary Optimization of Model Merging Recipes** ([arXiv:2403.13187](https://arxiv.org/abs/2403.13187)) — 進化アルゴリズムで多言語モデルを自動マージ。EvoLLM-JPがリリースされ日本語LLMの新方向を提示。
**Stockmark-100b** (Stockmark、2024) — 100B日本語・英語バイリンガルモデル。日本ビジネスドメインコーパス使用。
**Swallow** (東京工業大学、[arXiv:2404.17790](https://arxiv.org/abs/2404.17790)) — Llama 2/3を日本語コーパスでcontinual pretraining。
**PLaMo 2 / 100B** (Preferred Networks) — 日本語 + 英語 + コード。PFNの自前学習コーパス。
**NEC cotomi** — 日本語ビジネスドメインLLM。130Bと7Bバリエーション。
**Rakuten AI 7B**、**Karasu**、**Stable LM Japanese**など7Bサイズの日本語モデルも多数。
**JGLUE / Japanese MT-Bench** — 日本語評価標準。
24章 · データ — Dolma、RedPajama、FineWeb
オープン学習データセット三大巨頭。
- **Dolma** ([arXiv:2402.00159](https://arxiv.org/abs/2402.00159)、AI2) — 3Tトークン。OLMo学習に使用。
- **RedPajama-Data-v2** (Together AI、2023-10) — 30Tトークン。多言語 + 英語。
- **FineWeb** ([arXiv:2406.17557](https://arxiv.org/abs/2406.17557)、HuggingFace) — 15Tトークン + FineWeb-Edu 1.3Tトークンバリエーション。
**The Pile** ([arXiv:2101.00027](https://arxiv.org/abs/2101.00027)、EleutherAI) — 2021年の800GB。オープンLLMの出発点となったデータ。
Common Crawlとその上の精製パイプライン(CCNet、DataComp-LM、**TxT360**、**Nemotron-CC**)が2026年オープンデータ合理化の標準。
25章 · マルチモーダル — LLaVA、CogVLM、Qwen-VL、Pixtral
**LLaVA** ([arXiv:2304.08485](https://arxiv.org/abs/2304.08485)、2023) — Vicuna + CLIP visual encoder + projection。オープンマルチモーダルの始まり。
**LLaVA-1.5 / LLaVA-NeXT** — 解像度処理とマルチターン強化。
**Qwen-VL / Qwen2-VL** ([arXiv:2308.12966](https://arxiv.org/abs/2308.12966)、[arXiv:2409.12191](https://arxiv.org/abs/2409.12191)) — 任意の解像度、多言語OCR。Qwen2.5-VLは動画まで。
**Pixtral 12B** (Mistral、2024-09) — Pixtralのvision encoderは任意の解像度パッチ。
**Idefics 3** (HuggingFace) — オープンデータ + オープンウェイトマルチモーダル。
**Molmo** (AI2、[arXiv:2409.17146](https://arxiv.org/abs/2409.17146)) — ポインティング(座標指し示し)を学習タスクに。エージェントとの互換性が強い。
26章 · 読む順序 — 2026年エンジニアのための30本キュレーション
全部読む時間がなければこの順序で:
1. Llama 3 Technical Report — 現代LLM製作の全体像。
2. DeepSeek-V3 Technical Report — コスト効率学習の頂点。
3. DeepSeek-R1 — RLベース推論。
4. Mixtral of Experts — MoE標準。
5. DeepSeekMoE — fine-grained MoE。
6. GQA + MLA — attention効率の二軸。
7. FlashAttention-2 — 学習加速標準。
8. vLLM PagedAttention — サービング標準。
9. SGLang RadixAttention — キャッシュ共有。
10. CoT Prompting — 推論の出発点。
11. DPO — ポストトレーニング標準。
12. Constitutional AI — RLAIFの起源。
13. ReAct — エージェントの出発点。
14. SWE-Agent — コードエージェント標準。
15. OSWorld — コンピュータ使用評価。
16. RAGオリジナル — 検索結合の始まり。
17. ColBERTv2 — dense retrieval精度。
18. GraphRAG — グローバルRAG。
19. Self-RAG — 自己検索。
20. YaRN — RoPEスケーリング。
21. RingAttention — 長いコンテキスト学習。
22. Speculative Decoding — デコーディング加速。
23. Phi-3 / Phi-4 — SLMルネサンス。
24. SmolLM2 — オープンSLMデータ。
25. MMLU + GPQA — 評価基準。
26. SWE-Bench Verified — コード評価。
27. LMSYS Chatbot Arena — 人の選好。
28. Sleeper Agents — アライメントの限界。
29. HyperCLOVA X — 韓国語LLM基準。
30. Sakana EvoLLM — モデルマージ。
この順序で週に一本ずつ30週、または素早く30日で2026年のLLM全景がすべて頭に入る。
References
- arxiv.org — [https://arxiv.org/](https://arxiv.org/)
- Llama 3 Technical Report — [https://arxiv.org/abs/2407.21783](https://arxiv.org/abs/2407.21783)
- DeepSeek-V3 Technical Report — [https://arxiv.org/abs/2412.19437](https://arxiv.org/abs/2412.19437)
- DeepSeek-R1 — [https://arxiv.org/abs/2501.12948](https://arxiv.org/abs/2501.12948)
- Qwen2.5 Technical Report — [https://arxiv.org/abs/2412.15115](https://arxiv.org/abs/2412.15115)
- Mistral 7B — [https://arxiv.org/abs/2310.06825](https://arxiv.org/abs/2310.06825)
- Mixtral of Experts — [https://arxiv.org/abs/2401.04088](https://arxiv.org/abs/2401.04088)
- Phi-3 Technical Report — [https://arxiv.org/abs/2404.14219](https://arxiv.org/abs/2404.14219)
- Phi-4 — [https://arxiv.org/abs/2412.08905](https://arxiv.org/abs/2412.08905)
- Gemini 1.5 — [https://arxiv.org/abs/2403.05530](https://arxiv.org/abs/2403.05530)
- Switch Transformer — [https://arxiv.org/abs/2101.03961](https://arxiv.org/abs/2101.03961)
- DeepSeekMoE — [https://arxiv.org/abs/2401.06066](https://arxiv.org/abs/2401.06066)
- GQA — [https://arxiv.org/abs/2305.13245](https://arxiv.org/abs/2305.13245)
- MLA / DeepSeek-V2 — [https://arxiv.org/abs/2405.04434](https://arxiv.org/abs/2405.04434)
- Mamba — [https://arxiv.org/abs/2312.00752](https://arxiv.org/abs/2312.00752)
- Mamba-2 — [https://arxiv.org/abs/2405.21060](https://arxiv.org/abs/2405.21060)
- Chain-of-Thought — [https://arxiv.org/abs/2201.11903](https://arxiv.org/abs/2201.11903)
- Self-Consistency — [https://arxiv.org/abs/2203.11171](https://arxiv.org/abs/2203.11171)
- Tree-of-Thoughts — [https://arxiv.org/abs/2305.10601](https://arxiv.org/abs/2305.10601)
- Inference-Time Scaling — [https://arxiv.org/abs/2408.03314](https://arxiv.org/abs/2408.03314)
- InstructGPT — [https://arxiv.org/abs/2203.02155](https://arxiv.org/abs/2203.02155)
- Constitutional AI — [https://arxiv.org/abs/2212.08073](https://arxiv.org/abs/2212.08073)
- DPO — [https://arxiv.org/abs/2305.18290](https://arxiv.org/abs/2305.18290)
- ORPO — [https://arxiv.org/abs/2403.07691](https://arxiv.org/abs/2403.07691)
- KTO — [https://arxiv.org/abs/2402.01306](https://arxiv.org/abs/2402.01306)
- SimPO — [https://arxiv.org/abs/2405.14734](https://arxiv.org/abs/2405.14734)
- ReAct — [https://arxiv.org/abs/2210.03629](https://arxiv.org/abs/2210.03629)
- Voyager — [https://arxiv.org/abs/2305.16291](https://arxiv.org/abs/2305.16291)
- SWE-Agent — [https://arxiv.org/abs/2405.15793](https://arxiv.org/abs/2405.15793)
- OS-Atlas — [https://arxiv.org/abs/2410.23218](https://arxiv.org/abs/2410.23218)
- OSWorld — [https://arxiv.org/abs/2404.07972](https://arxiv.org/abs/2404.07972)
- RAG — [https://arxiv.org/abs/2005.11401](https://arxiv.org/abs/2005.11401)
- FiD — [https://arxiv.org/abs/2007.01282](https://arxiv.org/abs/2007.01282)
- RETRO — [https://arxiv.org/abs/2112.04426](https://arxiv.org/abs/2112.04426)
- ColBERT — [https://arxiv.org/abs/2004.12832](https://arxiv.org/abs/2004.12832)
- Self-RAG — [https://arxiv.org/abs/2310.11511](https://arxiv.org/abs/2310.11511)
- GraphRAG — [https://arxiv.org/abs/2404.16130](https://arxiv.org/abs/2404.16130)
- FlashAttention — [https://arxiv.org/abs/2205.14135](https://arxiv.org/abs/2205.14135)
- FlashAttention-2 — [https://arxiv.org/abs/2307.08691](https://arxiv.org/abs/2307.08691)
- FlashAttention-3 — [https://arxiv.org/abs/2407.08608](https://arxiv.org/abs/2407.08608)
- vLLM PagedAttention — [https://arxiv.org/abs/2309.06180](https://arxiv.org/abs/2309.06180)
- SGLang — [https://arxiv.org/abs/2312.07104](https://arxiv.org/abs/2312.07104)
- Speculative Decoding — [https://arxiv.org/abs/2211.17192](https://arxiv.org/abs/2211.17192)
- Mixture-of-Depths — [https://arxiv.org/abs/2404.02258](https://arxiv.org/abs/2404.02258)
- RoPE — [https://arxiv.org/abs/2104.09864](https://arxiv.org/abs/2104.09864)
- YaRN — [https://arxiv.org/abs/2309.00071](https://arxiv.org/abs/2309.00071)
- LongLoRA — [https://arxiv.org/abs/2309.12307](https://arxiv.org/abs/2309.12307)
- RingAttention — [https://arxiv.org/abs/2310.01889](https://arxiv.org/abs/2310.01889)
- Activation Beacon — [https://arxiv.org/abs/2401.03462](https://arxiv.org/abs/2401.03462)
- StarCoder 2 — [https://arxiv.org/abs/2402.19173](https://arxiv.org/abs/2402.19173)
- DeepSeek Coder V2 — [https://arxiv.org/abs/2406.11931](https://arxiv.org/abs/2406.11931)
- Code Llama — [https://arxiv.org/abs/2308.12950](https://arxiv.org/abs/2308.12950)
- MMLU — [https://arxiv.org/abs/2009.03300](https://arxiv.org/abs/2009.03300)
- GSM8K — [https://arxiv.org/abs/2110.14168](https://arxiv.org/abs/2110.14168)
- MATH — [https://arxiv.org/abs/2103.03874](https://arxiv.org/abs/2103.03874)
- HumanEval — [https://arxiv.org/abs/2107.03374](https://arxiv.org/abs/2107.03374)
- GPQA — [https://arxiv.org/abs/2311.12022](https://arxiv.org/abs/2311.12022)
- SWE-Bench — [https://arxiv.org/abs/2310.06770](https://arxiv.org/abs/2310.06770)
- MMMU — [https://arxiv.org/abs/2311.16502](https://arxiv.org/abs/2311.16502)
- LMSYS Chatbot Arena — [https://arxiv.org/abs/2403.04132](https://arxiv.org/abs/2403.04132)
- HyperCLOVA X — [https://arxiv.org/abs/2404.01954](https://arxiv.org/abs/2404.01954)
- KMMLU — [https://arxiv.org/abs/2402.11548](https://arxiv.org/abs/2402.11548)
- Sakana EvoLLM — [https://arxiv.org/abs/2403.13187](https://arxiv.org/abs/2403.13187)
- Swallow — [https://arxiv.org/abs/2404.17790](https://arxiv.org/abs/2404.17790)
- Sleeper Agents — [https://arxiv.org/abs/2401.05566](https://arxiv.org/abs/2401.05566)
- HuggingFace — [https://huggingface.co/](https://huggingface.co/)
- Meta AI Research — [https://ai.meta.com/research/](https://ai.meta.com/research/)
- DeepSeek — [https://www.deepseek.com/](https://www.deepseek.com/)
- Qwen — [https://qwenlm.github.io/](https://qwenlm.github.io/)
- Mistral AI — [https://mistral.ai/news/](https://mistral.ai/news/)
- OpenAI Research — [https://openai.com/research/](https://openai.com/research/)
- Anthropic Research — [https://www.anthropic.com/research](https://www.anthropic.com/research)
- Google DeepMind Research — [https://deepmind.google/research/](https://deepmind.google/research/)
- vLLM — [https://github.com/vllm-project/vllm](https://github.com/vllm-project/vllm)
- SGLang — [https://github.com/sgl-project/sglang](https://github.com/sgl-project/sglang)
현재 단락 (1/300)
2024年1月から2026年5月までの間、arXivの`cs.CL`と`cs.LG`には平均して週1,200本以上の論文が投稿された。LLMに直接関連するものだけ絞っても週300本、年1万5千本規模。...