- Authors
- Name
- 1. DeepSeek紹介
- 2. DeepSeek-V1 / DeepSeek LLM(67B)
- 3. DeepSeek-V2(236B):MLAとDeepSeekMoEの誕生
- 4. DeepSeek-V3(685B、37Bアクティブ):効率性の極限
- 5. DeepSeek-R1:強化学習で推論能力を覚醒させる
- 6. DeepSeek-Coder:コーディング特化モデル
- 7. MLA vs MHA vs GQA vs MQA比較
- 8. 産業的影響
- 9. 限界と将来展望
- 参考資料
1. DeepSeek紹介
1.1 会社背景:ヘッジファンドからAI研究所へ
DeepSeek(深度求索)は2023年7月に中国杭州で設立されたAI研究企業である。設立者の**Liang Wenfeng(梁文锋)は浙江大学出身で、2016年に設立したクオンツヘッジファンドHigh-Flyer(幻方量化)**のCEOでもある。High-FlyerはAIベースのアルゴリズムトレーディングで中国最大規模のヘッジファンドの一つに成長した。
High-FlyerはトレーディングのためにGPUクラスターを保有しており、2023年4月にAGI研究所設立を宣言した後、同年7月にDeepSeekを独立法人として分社化した。
1.2 オープンソース哲学
DeepSeekの最も際立った特徴は完全なオープンソース戦略である。すべてのモデルの重みをMIT Licenseまたは商業利用可能なライセンスで公開し、すべてのモデルについて詳細な技術レポートをarXivに公開している。
2. DeepSeek-V1 / DeepSeek LLM(67B)
2024年1月に公開されたDeepSeekの最初の基盤モデルで、7Bと67Bの2つのサイズでリリースされた。論文の最も重要な貢献はスケーリング法則に関する独自の研究であった。
3. DeepSeek-V2(236B):MLAとDeepSeekMoEの誕生
3.1 モデル仕様
| 項目 | 値 |
|---|---|
| 総パラメータ数 | 236B |
| アクティブパラメータ数(トークンあたり) | 21B |
| コンテキスト長 | 128K |
| 学習データ | 8.1Tトークン |
| MoE構造 | 2 Shared Experts + 160 Routed Experts(6個アクティブ) |
| Attention | Multi-head Latent Attention(MLA) |
3.2 Multi-head Latent Attention(MLA)
MLAはKV Cacheを93.3%圧縮しながら、従来のMulti-head Attention(MHA)以上の性能を達成する。KV Head数を減らすのではなく、KVを低次元潜在ベクトルに共同圧縮するアプローチを採用する。
ステップ1:Down-Projection(圧縮)
ステップ2:Up-Projection(復元)
キャッシュに保存するのは元のK、Vベクトルではなく、圧縮された潜在ベクトルである。
3.3 DeepSeekMoE
Fine-Grained Expert Segmentation: Expertをより細かく分割し、アクティブ化されるExpertの組み合わせを大幅に多様化する。
Shared Expert Isolation: 一部のExpertをすべてのトークンに対して常にアクティブなShared Expertとして指定し、共通知識を担当させる。
4. DeepSeek-V3(685B、37Bアクティブ):効率性の極限
4.1 モデル仕様
| 項目 | 値 |
|---|---|
| 総パラメータ数 | 671B |
| アクティブパラメータ数 | 37B |
| 学習データ | 14.8Tトークン |
| MoE構造 | 1 Shared Expert + 256 Routed Experts(8個アクティブ) |
| 学習GPU時間 | 2.788M H800 GPU hours |
| 学習コスト(推定) | $5.576M |
4.2 FP8混合精度学習
DeepSeek-V3は公開されている最初の大規模モデルFP8学習事例である。統一E4M3フォーマット、Fine-Grained Quantization、FP32 Accumulationにより、BF16対比相対精度損失を0.25%未満に抑えた。
4.3 補助損失なしロードバランシング
各Expertに動的に調整されるバイアス項を付与するBias-Based Dynamic Balancingにより、モデルの学習目標を損なわずにロードバランシングを達成する。
4.4 ベンチマーク結果
| ベンチマーク | DeepSeek-V3 | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMLU | 88.5 | 87.2 | 88.7 |
| MATH-500 | 90.2 | 76.6 | 78.3 |
| AIME 2024 | 39.2 | 15.7 | - |
| Codeforces | 51.6 | 23.0 | 17.5 |
APIコストはGPT-4o対比約9分の1と、圧倒的なコスト競争力を持つ。
5. DeepSeek-R1:強化学習で推論能力を覚醒させる
5.1 R1-Zero:純粋な強化学習の驚くべき結果
SFTなしにDeepSeek-V3 Baseモデルに直接RLを適用。精度報酬とフォーマット報酬のみを使用し、モデルは自己検証、自己反省、戦略転換などの高度な推論パターンを自発的に発展させた(「Aha Moment」)。
5.2 GRPO(Group Relative Policy Optimization)
Critic Modelを排除し、グループ内相対的報酬を使用してPolicyを最適化。PPO対比メモリ効率をほぼ半分に削減。
5.3 ベンチマーク結果
| ベンチマーク | DeepSeek-R1 | OpenAI o1-1217 |
|---|---|---|
| AIME 2024(Pass@1) | 79.8% | 79.2% |
| MATH-500(Pass@1) | 97.3% | 96.4% |
| SWE-Bench Verified | 49.2% | 48.9% |
5.4 蒸留:小さなモデルへの推論能力移転
R1-Distill-Qwen-32BはAIME 2024で**72.6%**を達成し、OpenAI o1-mini(63.6%)を大幅に上回った。
6. DeepSeek-Coder:コーディング特化モデル
DeepSeek-Coder V2はHumanEvalで**90.2%**を記録し、GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Proをすべて上回った。
7. MLA vs MHA vs GQA vs MQA比較
| 方式 | KV Cache(相対サイズ) | 性能影響 |
|---|---|---|
| MHA | 100%(基準) | 最大(基準) |
| MQA | ~1.6% | 性能低下あり |
| GQA(8グループ) | ~12.5% | 若干の低下 |
| MLA | ~6.7% | 低下なし / 若干の向上 |
8. 産業的影響
2025年1月27日、NVIDIAの株価は17%暴落し、約**$589B**の時価総額が消失 — 米国株式市場史上最大の単日時価総額損失を記録した。
DeepSeekの成功は米国の対中国技術制裁戦略にも疑問を投げかけ、H800 GPUだけで世界最高水準のモデルを構築できることを実証した。
9. 限界と将来展望
現在の限界: 安全性/アラインメントの懸念、多言語性能の偏差、長文推論の非効率、リアルタイム知識の不在、ハルシネーション。
将来展望: MLAアーキテクチャの普及、GRPOのLLM RL標準化、コスト効率的な学習の重要性拡大、マルチモーダル統合の深化。
参考資料
- DeepSeek-AI. "DeepSeek LLM: Scaling Open-Source Language Models with Longtermism." arXiv:2401.02954, 2024.
- DeepSeek-AI. "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model." arXiv:2405.04434, 2024.
- DeepSeek-AI. "DeepSeek-V3 Technical Report." arXiv:2412.19437, 2024.
- DeepSeek-AI. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." arXiv:2501.12948, 2025.