Skip to content
Published on

DeepSeekモデル完全分析:MLA、MoE、強化学習ベース推論まで — 中国発オープンソースLLM革新のすべて

Authors
  • Name
    Twitter

1. DeepSeek紹介

1.1 会社背景:ヘッジファンドからAI研究所へ

DeepSeek(深度求索)は2023年7月に中国杭州で設立されたAI研究企業である。設立者の**Liang Wenfeng(梁文锋)は浙江大学出身で、2016年に設立したクオンツヘッジファンドHigh-Flyer(幻方量化)**のCEOでもある。High-FlyerはAIベースのアルゴリズムトレーディングで中国最大規模のヘッジファンドの一つに成長した。

High-FlyerはトレーディングのためにGPUクラスターを保有しており、2023年4月にAGI研究所設立を宣言した後、同年7月にDeepSeekを独立法人として分社化した。

1.2 オープンソース哲学

DeepSeekの最も際立った特徴は完全なオープンソース戦略である。すべてのモデルの重みをMIT Licenseまたは商業利用可能なライセンスで公開し、すべてのモデルについて詳細な技術レポートをarXivに公開している。


2. DeepSeek-V1 / DeepSeek LLM(67B)

2024年1月に公開されたDeepSeekの最初の基盤モデルで、7Bと67Bの2つのサイズでリリースされた。論文の最も重要な貢献はスケーリング法則に関する独自の研究であった。


3. DeepSeek-V2(236B):MLAとDeepSeekMoEの誕生

3.1 モデル仕様

項目
総パラメータ数236B
アクティブパラメータ数(トークンあたり)21B
コンテキスト長128K
学習データ8.1Tトークン
MoE構造2 Shared Experts + 160 Routed Experts(6個アクティブ)
AttentionMulti-head Latent Attention(MLA)

3.2 Multi-head Latent Attention(MLA)

MLAはKV Cacheを93.3%圧縮しながら、従来のMulti-head Attention(MHA)以上の性能を達成する。KV Head数を減らすのではなく、KVを低次元潜在ベクトルに共同圧縮するアプローチを採用する。

ステップ1:Down-Projection(圧縮)

ctKV=WDKVhtc_t^{KV} = W^{DKV} h_t

ステップ2:Up-Projection(復元)

ktC=WUKctKV,vtC=WUVctKVk_t^C = W^{UK} c_t^{KV}, \quad v_t^C = W^{UV} c_t^{KV}

キャッシュに保存するのは元のK、Vベクトルではなく、圧縮された潜在ベクトルctKVc_t^{KV}である。

3.3 DeepSeekMoE

Fine-Grained Expert Segmentation: Expertをより細かく分割し、アクティブ化されるExpertの組み合わせを大幅に多様化する。

Shared Expert Isolation: 一部のExpertをすべてのトークンに対して常にアクティブなShared Expertとして指定し、共通知識を担当させる。


4. DeepSeek-V3(685B、37Bアクティブ):効率性の極限

4.1 モデル仕様

項目
総パラメータ数671B
アクティブパラメータ数37B
学習データ14.8Tトークン
MoE構造1 Shared Expert + 256 Routed Experts(8個アクティブ)
学習GPU時間2.788M H800 GPU hours
学習コスト(推定)$5.576M

4.2 FP8混合精度学習

DeepSeek-V3は公開されている最初の大規模モデルFP8学習事例である。統一E4M3フォーマット、Fine-Grained Quantization、FP32 Accumulationにより、BF16対比相対精度損失を0.25%未満に抑えた。

4.3 補助損失なしロードバランシング

各Expertに動的に調整されるバイアス項を付与するBias-Based Dynamic Balancingにより、モデルの学習目標を損なわずにロードバランシングを達成する。

4.4 ベンチマーク結果

ベンチマークDeepSeek-V3GPT-4oClaude 3.5 Sonnet
MMLU88.587.288.7
MATH-50090.276.678.3
AIME 202439.215.7-
Codeforces51.623.017.5

APIコストはGPT-4o対比約9分の1と、圧倒的なコスト競争力を持つ。


5. DeepSeek-R1:強化学習で推論能力を覚醒させる

5.1 R1-Zero:純粋な強化学習の驚くべき結果

SFTなしにDeepSeek-V3 Baseモデルに直接RLを適用。精度報酬とフォーマット報酬のみを使用し、モデルは自己検証、自己反省、戦略転換などの高度な推論パターンを自発的に発展させた(「Aha Moment」)。

5.2 GRPO(Group Relative Policy Optimization)

Critic Modelを排除し、グループ内相対的報酬を使用してPolicyを最適化。PPO対比メモリ効率をほぼ半分に削減。

5.3 ベンチマーク結果

ベンチマークDeepSeek-R1OpenAI o1-1217
AIME 2024(Pass@1)79.8%79.2%
MATH-500(Pass@1)97.3%96.4%
SWE-Bench Verified49.2%48.9%

5.4 蒸留:小さなモデルへの推論能力移転

R1-Distill-Qwen-32BはAIME 2024で**72.6%**を達成し、OpenAI o1-mini(63.6%)を大幅に上回った。


6. DeepSeek-Coder:コーディング特化モデル

DeepSeek-Coder V2はHumanEvalで**90.2%**を記録し、GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Proをすべて上回った。


7. MLA vs MHA vs GQA vs MQA比較

方式KV Cache(相対サイズ)性能影響
MHA100%(基準)最大(基準)
MQA~1.6%性能低下あり
GQA(8グループ)~12.5%若干の低下
MLA~6.7%低下なし / 若干の向上

8. 産業的影響

2025年1月27日、NVIDIAの株価は17%暴落し、約**$589B**の時価総額が消失 — 米国株式市場史上最大の単日時価総額損失を記録した。

DeepSeekの成功は米国の対中国技術制裁戦略にも疑問を投げかけ、H800 GPUだけで世界最高水準のモデルを構築できることを実証した。


9. 限界と将来展望

現在の限界: 安全性/アラインメントの懸念、多言語性能の偏差、長文推論の非効率、リアルタイム知識の不在、ハルシネーション。

将来展望: MLAアーキテクチャの普及、GRPOのLLM RL標準化、コスト効率的な学習の重要性拡大、マルチモーダル統合の深化。


参考資料

  1. DeepSeek-AI. "DeepSeek LLM: Scaling Open-Source Language Models with Longtermism." arXiv:2401.02954, 2024.
  2. DeepSeek-AI. "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model." arXiv:2405.04434, 2024.
  3. DeepSeek-AI. "DeepSeek-V3 Technical Report." arXiv:2412.19437, 2024.
  4. DeepSeek-AI. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." arXiv:2501.12948, 2025.