DeepSeekモデル完全分析：MLA、MoE、強化学習ベース推論まで — 中国発オープンソースLLM革新のすべて

1. DeepSeek紹介
- 1.1 会社背景：ヘッジファンドからAI研究所へ
- 1.2 オープンソース哲学
2. DeepSeek-V1 / DeepSeek LLM（67B）
3. DeepSeek-V2（236B）：MLAとDeepSeekMoEの誕生
4. DeepSeek-V3（685B、37Bアクティブ）：効率性の極限
5. DeepSeek-R1：強化学習で推論能力を覚醒させる
6. DeepSeek-Coder：コーディング特化モデル
7. MLA vs MHA vs GQA vs MQA比較
8. 産業的影響
9. 限界と将来展望
参考資料

1. DeepSeek紹介

1.1 会社背景：ヘッジファンドからAI研究所へ

DeepSeek（深度求索）は2023年7月に中国杭州で設立されたAI研究企業である。設立者の**Liang Wenfeng（梁文锋）は浙江大学出身で、2016年に設立したクオンツヘッジファンドHigh-Flyer（幻方量化）**のCEOでもある。High-FlyerはAIベースのアルゴリズムトレーディングで中国最大規模のヘッジファンドの一つに成長した。

High-FlyerはトレーディングのためにGPUクラスターを保有しており、2023年4月にAGI研究所設立を宣言した後、同年7月にDeepSeekを独立法人として分社化した。

1.2 オープンソース哲学

DeepSeekの最も際立った特徴は完全なオープンソース戦略である。すべてのモデルの重みをMIT Licenseまたは商業利用可能なライセンスで公開し、すべてのモデルについて詳細な技術レポートをarXivに公開している。

2. DeepSeek-V1 / DeepSeek LLM（67B）

2024年1月に公開されたDeepSeekの最初の基盤モデルで、7Bと67Bの2つのサイズでリリースされた。論文の最も重要な貢献はスケーリング法則に関する独自の研究であった。

3. DeepSeek-V2（236B）：MLAとDeepSeekMoEの誕生

3.1 モデル仕様

項目	値
総パラメータ数	236B
アクティブパラメータ数（トークンあたり）	21B
コンテキスト長	128K
学習データ	8.1Tトークン
MoE構造	2 Shared Experts + 160 Routed Experts（6個アクティブ）
Attention	Multi-head Latent Attention（MLA）

3.2 Multi-head Latent Attention（MLA）

MLAはKV Cacheを93.3%圧縮しながら、従来のMulti-head Attention（MHA）以上の性能を達成する。KV Head数を減らすのではなく、KVを低次元潜在ベクトルに共同圧縮するアプローチを採用する。

ステップ1：Down-Projection（圧縮）

$c_t^{KV} = W^{DKV} h_t$

ステップ2：Up-Projection（復元）

$k_t^C = W^{UK} c_t^{KV}, \quad v_t^C = W^{UV} c_t^{KV}$

キャッシュに保存するのは元のK、Vベクトルではなく、圧縮された潜在ベクトル $c_t^{KV}$ である。

3.3 DeepSeekMoE

Fine-Grained Expert Segmentation： Expertをより細かく分割し、アクティブ化されるExpertの組み合わせを大幅に多様化する。

Shared Expert Isolation： 一部のExpertをすべてのトークンに対して常にアクティブなShared Expertとして指定し、共通知識を担当させる。

4. DeepSeek-V3（685B、37Bアクティブ）：効率性の極限

4.1 モデル仕様

項目	値
総パラメータ数	671B
アクティブパラメータ数	37B
学習データ	14.8Tトークン
MoE構造	1 Shared Expert + 256 Routed Experts（8個アクティブ）
学習GPU時間	2.788M H800 GPU hours
学習コスト（推定）	$5.576M

4.2 FP8混合精度学習

DeepSeek-V3は公開されている最初の大規模モデルFP8学習事例である。統一E4M3フォーマット、Fine-Grained Quantization、FP32 Accumulationにより、BF16対比相対精度損失を0.25%未満に抑えた。

4.3 補助損失なしロードバランシング

各Expertに動的に調整されるバイアス項を付与するBias-Based Dynamic Balancingにより、モデルの学習目標を損なわずにロードバランシングを達成する。

4.4 ベンチマーク結果

ベンチマーク	DeepSeek-V3	GPT-4o	Claude 3.5 Sonnet
MMLU	88.5	87.2	88.7
MATH-500	90.2	76.6	78.3
AIME 2024	39.2	15.7	-
Codeforces	51.6	23.0	17.5

APIコストはGPT-4o対比約9分の1と、圧倒的なコスト競争力を持つ。

5. DeepSeek-R1：強化学習で推論能力を覚醒させる

5.1 R1-Zero：純粋な強化学習の驚くべき結果

SFTなしにDeepSeek-V3 Baseモデルに直接RLを適用。精度報酬とフォーマット報酬のみを使用し、モデルは自己検証、自己反省、戦略転換などの高度な推論パターンを自発的に発展させた（「Aha Moment」）。

5.2 GRPO（Group Relative Policy Optimization）

Critic Modelを排除し、グループ内相対的報酬を使用してPolicyを最適化。PPO対比メモリ効率をほぼ半分に削減。

5.3 ベンチマーク結果

ベンチマーク	DeepSeek-R1	OpenAI o1-1217
AIME 2024（Pass@1）	79.8%	79.2%
MATH-500（Pass@1）	97.3%	96.4%
SWE-Bench Verified	49.2%	48.9%

5.4 蒸留：小さなモデルへの推論能力移転

R1-Distill-Qwen-32BはAIME 2024で**72.6%**を達成し、OpenAI o1-mini（63.6%）を大幅に上回った。

6. DeepSeek-Coder：コーディング特化モデル

DeepSeek-Coder V2はHumanEvalで**90.2%**を記録し、GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Proをすべて上回った。

7. MLA vs MHA vs GQA vs MQA比較

方式	KV Cache（相対サイズ）	性能影響
MHA	100%（基準）	最大（基準）
MQA	~1.6%	性能低下あり
GQA（8グループ）	~12.5%	若干の低下
MLA	~6.7%	低下なし / 若干の向上

8. 産業的影響

2025年1月27日、NVIDIAの株価は17%暴落し、約**$589B**の時価総額が消失 — 米国株式市場史上最大の単日時価総額損失を記録した。

DeepSeekの成功は米国の対中国技術制裁戦略にも疑問を投げかけ、H800 GPUだけで世界最高水準のモデルを構築できることを実証した。

9. 限界と将来展望

現在の限界： 安全性/アラインメントの懸念、多言語性能の偏差、長文推論の非効率、リアルタイム知識の不在、ハルシネーション。

将来展望： MLAアーキテクチャの普及、GRPOのLLM RL標準化、コスト効率的な学習の重要性拡大、マルチモーダル統合の深化。

参考資料

DeepSeek-AI. "DeepSeek LLM: Scaling Open-Source Language Models with Longtermism." arXiv:2401.02954, 2024.
DeepSeek-AI. "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model." arXiv:2405.04434, 2024.
DeepSeek-AI. "DeepSeek-V3 Technical Report." arXiv:2412.19437, 2024.
DeepSeek-AI. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." arXiv:2501.12948, 2025.