- Authors

- Name
- Youngju Kim
- @fjvbn20031
はじめに
2025年第1四半期(だいいちしはんき)は、AI研究史上(けんきゅうしじょう)最も激動(げきどう)の時期でした。HuggingFace Daily Papersでは、オープンソースTTSシステムから100万トークンコンテキスト実験(じっけん)まで、高評価(こうひょうか)の論文(ろんぶん)が爆発的に増加しました。
本記事(ほんきじ)は2部構成(こうせい)です。Part 1ではHuggingFaceの2025年3月トレンディング論文TOP 10をレビューし、Part 2では2025年を定義(ていぎ)した10大マクロ研究トレンドを具体的な数値と開発者への実践的示唆(しさ)とともに整理します。
Part 1:HuggingFaceトレンディング論文 TOP 10
1. MOSS-TTS(961アップボート)
商用システムを凌駕するオープンソースTTS
MOSS-TTSは961アップボートで週間最高評価(さいこうひょうか)を獲得(かくとく)しました。DoubaoやGemini 2.5 Proの音声品質(おんせいひんしつ)を人間評価(にんげんひょうか)で上回る、完全オープンソースのテキスト音声変換(へんかん)システムです。
主な貢献(こうけん):
- 完全オープンな重み(おもみ)とトレーニングコード -- 高品質TTS研究では稀(まれ)な取り組み
- 多言語対応(たげんごたいおう) -- 英語、中国語、日本語、韓国語で自然な韻律(いんりつ)
- 低遅延(ていちえん)ストリーミング アーキテクチャでリアルタイムアプリケーション対応
- 自然さの指標(しひょう)でDoubao TTSとGemini 2.5 Pro音声を上回る人間評価
開発者への示唆: MOSS-TTSは、商用API費用が禁止的(きんしてき)な音声アプリケーションにおいて本番運用(ほんばんうんよう)可能です。オープンな重みにより、ドメイン固有(こゆう)の音声データでのファインチューニングが容易(ようい)です。
2. Nemotron-Cascade 2(NVIDIA)
IMO/IOI/ICPC金メダル級のMoEアーキテクチャ
NVIDIAがリリースしたNemotron-Cascade 2は、総パラメータ数30Bながら推論時(すいろんじ)のアクティブパラメータはわずか3BのMixture-of-Expertsモデルです。同品質(どうひんしつ)の密(みつ)なモデルと比較して約20分の1のパラメータしか使用しないにもかかわらず、IMO(国際数学オリンピック)、IOI(国際情報オリンピック)、ICPC(国際大学対抗プログラミングコンテスト)ベンチマークで金メダル級の性能を達成(たっせい)しました。
アーキテクチャの特徴(とくちょう):
- カスケードルーティング -- レイヤー間でエキスパート選択(せんたく)を連鎖(れんさ)させる新しいルーティング機構(きこう)
- 30B総パラメータ / 3Bアクティブ の分割で極限的効率性(こうりつせい)を実現
- IMO、IOI、ICPCの問題セットで金メダル級スコア
- 同等の密な30Bモデルと比較して推論コストは約10分の1
開発者への示唆: コンシューマーハードウェア上で強力な推論モデルを展開するMoEアプローチの有効性(ゆうこうせい)が検証(けんしょう)されました。競技数学を解ける3Bアクティブパラメータモデルは、オンデバイスAIにとって重要なマイルストーンです。
3. Memento-Skills(UCL)-- エージェントがエージェントを設計
HLEベンチマークで+116.2%改善
ユニバーシティ・カレッジ・ロンドン(UCL)の研究者(けんきゅうしゃ)が発表したMemento-Skillsは、AIエージェントが自律的(じりつてき)にサブエージェントスキルを設計・改善するフレームワークです。HLE(Hard Language Evaluation)ベンチマークでベースラインから+116.2%の改善を達成しました。
コアメカニズム:
- メタエージェントがタスク失敗(しっぱい)を観察し、対処するための新しいスキルモジュールを生成
- スキルは永続メモリバンクに保存(ほぞん)され、将来のタスクで構成される
- 各スキルはプロンプトとコードのペアで自己完結(じこかんけつ)しており、問題間で再利用可能
- 創発的(そうはつてき)なカリキュラム学習行動を実証
開発者への示唆: スキル設計における人間の介入(かいにゅう)なしに、時間とともに自己改善するエージェントシステムへの道筋を示しています。メモリバンクの概念(がいねん)は本番エージェントアーキテクチャに直接適用可能です。
4. ReactMotion(107アップボート)-- リスナージェスチャー生成
リアルな非言語応答の生成
ReactMotionは、人間-AIインタラクションにおいて見過ごされがちな問題、すなわち話者に対する適切なリスナージェスチャー(うなずき、首の傾き、手の動き)の生成に取り組んでいます。107アップボートを獲得し、時間的に一貫した(いっかんした)ジェスチャーシーケンスを生成する拡散(かくさん)ベースモデルを提案しています。
技術的アプローチ:
- 話者の音声とテキストを条件とする拡散モデル
- リスナーの全身モーションキャプチャデータを生成
- 新しいクロスアテンション機構による時間的一貫性の維持
- 人間の審査員(しんさいん)による自然さと適切さの評価
開発者への示唆: アバターシステム、ビデオ会議、バーチャルアシスタントの具現化(ぐげんか)に関連します。クロスモーダル条件付けアプローチは、他の反応的生成タスクにも拡張(かくちょう)可能です。
5. H-EmbodVis(82アップボート)-- 生成モデルにおける3D事前知識
2D生成に3D理解を注入
H-EmbodVisは、生成画像モデルに3D空間事前知識を埋め込む手法(しゅほう)を提案しています。2D画像を生成するモデルが3D幾何学的(きかがくてき)情報に明示的にアクセスできる場合、物理的にもっともらしい出力を生成できるという知見(ちけん)がコアです。
主な結果:
- 生成シーンの物理的一貫性改善(正確な影、反射、遮蔽(しゃへい))
- 深度マップと法線マップのクロスアテンション条件付けによる3D事前知識の注入
- 既存の拡散パイプラインと互換性(ごかんせい)のあるプラグインモジュール
- 空間推論ベンチマークでの大幅な改善
開発者への示唆: EC、ゲーム、建築ビジュアライゼーション向けの画像生成に取り組むチームにとって、この技術はフル3Dレンダリングパイプラインを必要とせずに不自然さを軽減(けいげん)します。
6-10. 注目論文
6. Cubic Discrete Diffusion -- 立方格子構造(りっぽうこうしこうぞう)上で動作する新しい離散拡散フレームワーク。テキストのトークンレベル生成を改善し、特定のベンチマークで自己回帰ベースラインを上回るパープレキシティスコアを実証。
7. EffectErase -- 動画からフィルター、オーバーレイ、後処理エフェクトを除去するシステム。元のコンテンツを保存しながらエフェクトを除去。フォレンジック分析とコンテンツ復元(ふくげん)に有用。
8. LVOmniBench -- マルチモーダルモデルの長時間動画理解を評価する包括的ベンチマーク。30分を超える動画での時間推論、キャラクタートラッキング、プロット理解をテスト。
9. VTC-Bench -- 生成された動画説明が視覚的コンテンツを正確に反映しているかを評価する動画テキスト一貫性ベンチマーク。動画キャプショニングモデルのハルシネーション問題に対処。
10. SAMA -- 効率的な長コンテキスト処理のためのスケーラブル適応メモリアーキテクチャ。フルアテンションとスパースアテンションの中間的アプローチを提供。
Part 2:2025年AI研究を定義した10大トレンド
トレンド1:推論モデルの純粋RL化
DeepSeek-R1が強化学習のみで推論を学習できることを証明
2025年前半(ぜんはん)で最も重要な研究成果はDeepSeek-R1でした。連鎖的思考(れんさてきしこう)データの教師あり微調整(びちょうせい)なしに、純粋な強化学習だけで強力な推論能力を生み出せることを実証しました。
主な数値:
- AIME 2024: 79.8%の正解率(o1レベルの性能に匹敵(ひってき))
- Natureに掲載 -- AI推論研究にとって画期的(かっきてき)
- 従来のPPOの代わりにGRPO(Group Relative Policy Optimization)を使用
- キュレーションされた連鎖的思考トレーニングデータ不要
開発者への重要性:
- 推論能力は高価な人間アノテーションに依存(いぞん)しなくなった
- GRPOはPPOより大幅に安価(あんか)(別の批評家(ひひょうか)モデル不要)
- 報酬シグナルだけでドメイン固有の推論モデルをトレーニング可能に
- Nature掲載は主流科学的検証を示す
トレンド2:MoEスケーリングがデフォルトに
DeepSeek V3、Llama 4、Nemotron -- すべてMoEに賭ける
2025年のすべての主要モデルリリースがMoEアーキテクチャを採用(さいよう)しました。実験的段階から標準的実践(ひょうじゅんてきじっせん)へと移行しました。
主な展開:
- DeepSeek V3: 671B総パラメータ、37Bアクティブ、256エキスパート
- Llama 4 Maverick: 高性能バリアント向けMoEベースアーキテクチャ
- Nemotron-Cascade 2: カスケードルーティングによる30B/3B
- エキスパート数は初期MoEの8から本番モデルの256以上にスケール
MoEが勝利した理由:
- トレーニング計算量は総パラメータに比例するが、推論コストはアクティブパラメータに比例
- 推論コストの比例的増加なしにはるかに大きな総モデル容量が可能
- 負荷分散(ふかぶんさん)とルーティングが安定したトレーニングに十分成熟
- ハードウェア(GPUメモリ)の制約により密なスケーリングはますます非現実的に
開発者への示唆: モデルをデプロイする場合、MoEは推論コンピュート1ドルあたり大幅に優れた品質を提供します。MoE対応のサービングインフラが重要になることを予想してください。
トレンド3:動画向けDiffusion Transformer
Wan 2.1/2.2 MoE DiTとOpen-Soraが動画生成を前進
動画生成は純粋なU-Netアーキテクチャから Diffusion Transformer(DiT)へと移行し、MoEバリアントが登場しました。
主な展開:
- Wan 2.1と2.2: AlibabaがMoEベースDiTモデルを動画生成向けにリリース
- Open-Sora: 約20万ドルの計算コストでSoraライクな動画生成を再現
- DiTアーキテクチャはU-Netアプローチより優れた時間的一貫性を実現
- MoE統合により計算量の比例的増加なしにモデル容量をスケール可能
アーキテクチャの進化(しんか):
- 2023年: U-Netベースの動画拡散(Stable Video Diffusion)
- 2024年: 密なDiT(Sora、内部)
- 2025年: MoE DiT(Wan 2.2、Open-Sora 2.0)
開発者への示唆: 動画生成がアクセス可能になりつつあります。Open-Soraの20万ドルのトレーニングコストは、スタートアップが動画モデルをファインチューニングできることを意味します。DiT+MoEの組み合わせが支配的(しはいてき)アーキテクチャになる可能性が高いです。
トレンド4:100万トークンコンテキストの現実
コンテキストの10-20%のみが効果的に利用
モデルが100万トークンのコンテキストウィンドウを宣伝するようになりましたが、2025年の研究はその実際の有用性について不都合な真実(しんじつ)を明らかにしました。
主な知見:
- 有効利用率(ゆうこうりようりつ): 長いコンテキストのトークンのうち10-20%のみが出力に有意義な影響を与える
- Lost in the Middle問題は依然として存在: 長いコンテキストの中間に配置された情報は取得信頼性が低い
- ほとんどの実用的タスクで約10万トークンを超えると取得精度が急激に低下
- ベンチマーク性能と実世界での有用性のギャップが依然大きい
実践的(じっせんてき)示唆:
- 長コンテキストモデルでもRAG(検索拡張生成)は依然として不可欠
- チャンキング戦略はコンテキスト長より重要
- ハイブリッドアプローチ(RAG + 適度なコンテキスト)がほとんどのタスクで純粋な長コンテキストを上回る
- 100万トークン入力のトークンコストは大きく、しばしば無駄
開発者への示唆: 100万トークンをプロンプトに盲目的に詰め込まないでください。関連するチャンクを選択する検索パイプラインを設計し、長コンテキストは全体的なドキュメント理解(例:書籍全体の要約)が本当に必要なタスクに主に使用してください。
トレンド5:効率的推論のブレークスルー
QuantSpec、NVFP4、W4A4KV4が限界を押し広げる
推論効率の研究が2025年に複数の実践的ブレークスルーを生み出しました。
主な結果:
- QuantSpec: 投機的デコーディングと量子化(りょうしか)の組み合わせで2.5倍のスループット改善を達成
- NVFP4: NVIDIAのFP4量子化フォーマットがKVキャッシュメモリを50%削減
- W4A4KV4: 4ビット重み、4ビット活性化、4ビットKVキャッシュ -- ほとんどのベンチマークでほぼ無損失の品質を達成
- PagedAttention(vLLM由来)がメモリ効率的サービングのデファクトスタンダードに
実践的影響:
- 以前は4x A100 GPUを必要としたモデルが単一GPUで実行可能に
- KVキャッシュ圧縮でバッチサイズを2-4倍に増加可能
- Time-to-first-tokenで50-70%のレイテンシ削減
- これらの技術はvLLM、TensorRT-LLM、SGLangに既に統合
開発者への示唆: LLMを本番で提供している場合、これらの量子化技術を活用するための推論スタックのアップグレードは、現在最もROIの高い最適化の一つです。
トレンド6:AIエージェントのパイプラインからモデルネイティブへの成熟
固定パイプラインから学習されたエージェント行動へ
2025年は、パイプラインベースのエージェント(ハードコードされたツールシーケンス)からモデルネイティブエージェント(モデル自体がいつどのようにツールを使うかを学習)への移行を記録しました。
進化のタイムライン:
- 2023年: Chain-of-Thoughtプロンプティング + 手動ツールオーケストレーション
- 2024年: 固定ツール定義(ていぎ)によるReActスタイルの推論-行動ループ
- 2025年: モデルネイティブツール使用、永続メモリ、自己改善スキル(Memento-Skills)
主な展開:
- Memento-Skills(UCL)が自身のサブスキルを設計するエージェントを実証
- ファンクションコーリングが全主要モデルAPIでネイティブに
- マルチエージェント協調フレームワークの成熟(CrewAI、AutoGen、LangGraph)
- エージェント評価ベンチマークの形式化(AgentBench、GAIA)
残存する課題:
- 監視なしの自律運用(じりつうんよう)には信頼性が依然不十分
- エラー回復メカニズムが原始的
- 複雑なタスクにおけるエージェントループ(複数LLM呼び出し)のコストが高い
開発者への示唆: 明示的なフォールバックメカニズムとHuman-in-the-loopチェックポイントを持つエージェントを構築してください。技術は強力ですが、重要システムでの完全自律デプロイにはまだ十分な信頼性がありません。
トレンド7:RLHF代替手法の台頭
GRPO、DPO、RLAIFがアライメントコストを劇的に削減
従来のRLHF(人間フィードバックからの強化学習)パイプライン -- 高価で複雑で不安定 -- がより単純な代替手法に置き換えられつつあります。
主な手法:
- GRPO(Group Relative Policy Optimization): DeepSeek-R1で使用、批評家モデルを完全に排除
- DPO(Direct Preference Optimization): RLHFを単純な分類損失(ぶんるいそんしつ)に変換
- RLAIF(RL from AI Feedback): AI生成の選好データを比較1件あたり約0.01ドルで使用
- RLTHF(RL from Teacher Human Feedback): ハイブリッド教師-学生アプローチで6-7%改善を達成
コスト比較:
- 従来のRLHF: 別の報酬モデル + PPOトレーニングループ + 人間アノテーターが必要
- DPO: 選好ペアによる単一トレーニングパス、別の報酬モデル不要
- RLAIF: 人間アノテーターをLLM審査員に置き換え、コストを100倍以上削減
開発者への示唆: モデルをファインチューニングする場合、DPOが最も摩擦の少ない出発点です。本番のアライメントには、RLAIFが魅力的なコスト品質トレードオフを提供します。GRPOは推論固有のタスクで調査する価値があります。
トレンド8:小型マルチモーダルモデルの躍進
MiniCPM-V 8BがGPT-4Vと主要ベンチマークで同等
マルチモーダル機能に大規模モデルが必要という前提が2025年に覆(くつがえ)されました。
主な結果:
- MiniCPM-V 8B(OpenBMB): OCRBench、ChartQA、DocVQAでGPT-4Vに匹敵
- InternVL2シリーズ: 様々なスケールで強力な視覚-言語性能
- 小型マルチモーダルモデルがオンデバイスデプロイで実用的に
- ドメイン固有データでのマルチモーダルモデルのファインチューニングが大きな改善を生む
重要な理由:
- 視覚-言語AIはクラウド専用デプロイに限定されなくなった
- 8Bパラメータモデルがコンシューマーやモバイルデバイスで実行可能
- ドメイン固有のマルチモーダルファインチューニングが小規模チームにもアクセス可能
- エッジデプロイメントがプライバシー保護型の視覚AIアプリケーションを可能に
開発者への示唆: ドキュメント理解、チャート分析、またはビジュアルQAタスクについては、高価なAPI呼び出しをデフォルトにする前にMiniCPM-VとInternVL2を評価してください。品質ギャップは劇的に縮小しました。
トレンド9:コード生成が新たな高みへ
Claude 4とCodexが新しいベンチマークを樹立
コード生成モデルは2025年に目覚ましい性能向上を達成しました。
主なベンチマーク:
- Claude 4: SWE-Bench Verifiedで77.2%(リポジトリレベルのバグ修正)
- Codex(OpenAI): 精度向上とともに40%高速なコード補完
- DeepSeek-Coder-V2: コード生成における強力なオープンソース代替
- マルチファイル編集とクロスリポジトリ理解が標準機能に
実践的な進歩(しんぽ):
- モデルが関数レベルの補完だけでなくリポジトリレベルのタスクを確実に処理
- テスト生成品質がCI/CDパイプラインで有用なレベルに向上
- コードレビュー支援が有意義に生産的に
- IDE統合(Cursor、Windsurf、Claude Code)が大幅に成熟
開発者への示唆: AI支援コーディングは生産性の閾値(いきち)を超えました。ツールはもはや新奇なものではなく、真の生産性倍増装置です。特定の開発ワークフロー向けの効果的なプロンプティングパターンの習得に時間を投資してください。
トレンド10:動画生成 -- 印象的だが信頼性に課題
Sora 2が64%、Veo 3.1、物理シミュレーションは依然不安定
動画生成は注目を集めましたが、重大な限界も露呈(ろてい)しました。
主なベンチマーク:
- Sora 2: VBench(標準化された動画品質ベンチマーク)で64%
- Veo 3.1(Google DeepMind): 視覚的品質は強いが時間的一貫性に弱点
- Kling 2.0とRunway Gen-4: 競争力のある商用製品
- オープンソース代替(Open-Sora、CogVideo)がギャップを縮小
根強い問題:
- 物理シミュレーションは依然として不安定: オブジェクトがまだ互いを通過し、重力が一貫しない
- 時間的一貫性は生成動画の5-10秒を超えると劣化
- シーン間のキャラクター一貫性は依然として大きな課題
- 大規模な本番利用には生成コストが依然として法外
開発者への示唆: 動画生成はクリエイティブなプロトタイピング、短尺コンテンツ、コンセプトビジュアライゼーションに適しています。物理的正確さや長時間の一貫性を必要とする本番動画パイプラインにはまだ十分な信頼性がありません。
Part 3:開発者のための5つの重要ポイント
1. MoEが新しいデフォルトアーキテクチャに
2025年のすべての重要なモデルリリースがMixture-of-Expertsを使用しました。これはトレンドではなく、パラダイムシフトです。インフラをそれに応じて計画してください -- MoEモデルは密なモデルとは異なるメモリと計算プロファイルを持ちます。
2. 推論は純粋RLでトレーニング可能
DeepSeek-R1は、連鎖的思考推論が強化学習のみから出現できることを証明しました。これは、大規模なアノテーション作業なしに、ドメイン固有タスク(法律推論、医療診断(いりょうしんだん)、財務分析(ざいむぶんせき))向けのカスタム推論モデルが実現可能であることを意味します。
3. 長コンテキストは必要だが十分ではない
100万トークンのコンテキストウィンドウは、検索と活用が改善されるまではマーケティング機能です。まずRAGパイプラインを構築し、全体的なドキュメント理解から真に恩恵を受けるタスクの補助として長コンテキストを使用してください。
4. 推論効率は競争優位性
素朴なデプロイメントと最適化されたもの(量子化、投機的デコーディング、PagedAttentionを使用)の間のギャップはコストとレイテンシで4-10倍になり得ます。これはより良いモデルへの切り替えよりも大きな改善であることが多いです。
5. オープンソースがアクセシビリティの戦いに勝利
MOSS-TTS、DeepSeek、Nemotron、およびオープンウェイトモデルの普及により、AI開発の参入障壁はかつてないほど低くなっています。差別化要因はもはやモデルへのアクセスではなく、それを適用するスキルです。
クイズ
Q1. DeepSeek-R1はPPOの代わりにどのRLアルゴリズムを使用しましたか?
回答: GRPO(Group Relative Policy Optimization)。PPOとは異なり、GRPOは別の批評家モデルの必要性を排除し、トレーニングをよりシンプルで費用対効果の高いものにします。
Q2. Nemotron-Cascade 2の推論時にアクティブなパラメータ数はいくつですか?
回答: 30B中3Bのアクティブパラメータ。この約10:1の総パラメータとアクティブパラメータの比率は、カスケードMoEルーティングメカニズムによって達成されています。
Q3. 2025年の研究によると、100万トークンコンテキストのうち効果的に利用されている割合は?
回答: わずか10-20%。研究では、非常に長いコンテキストのほとんどのトークンがモデル出力に有意義な影響を与えず、Lost in the Middle問題が持続していることが示されました。
Q4. QuantSpecが達成するスループット改善はどれくらいですか?
回答: 2.5倍のスループット改善。QuantSpecは投機的デコーディングと量子化を組み合わせて、ほぼ無損失の出力品質を維持しながらこの高速化を達成します。
Q5. Sora 2のVBenchでのスコアはいくつでしたか?
回答: 64%。生成動画の品質としては印象的ですが、物理シミュレーション、5-10秒を超える時間的一貫性、シーン間のキャラクター一貫性には依然として重大な課題が残っています。
参考文献
- MOSS-TTS: Open-Source Text-to-Speech System (HuggingFace Daily Papers, March 2025)
- NVIDIA Nemotron-Cascade 2: Efficient MoE Reasoning (arXiv, 2025)
- Memento-Skills: Self-Improving Agent Architectures (UCL, 2025)
- ReactMotion: Diffusion-Based Listener Gesture Generation (arXiv, 2025)
- H-EmbodVis: 3D Priors for Generative Models (arXiv, 2025)
- DeepSeek-R1: Incentivizing Reasoning in LLMs via RL (Nature, 2025)
- DeepSeek-V3 Technical Report (DeepSeek AI, 2025)
- Llama 4 Model Card (Meta AI, 2025)
- Wan 2.1/2.2: MoE Diffusion Transformers for Video (Alibaba, 2025)
- Open-Sora: Democratizing Video Generation (HPC-AI Tech, 2025)
- Lost in the Middle: How Language Models Use Long Contexts (Stanford, 2024; updated 2025)
- QuantSpec: Speculative Decoding with Quantization (arXiv, 2025)
- NVFP4: FP4 Inference for Large Language Models (NVIDIA, 2025)
- W4A4KV4: Ultra-Low Precision LLM Serving (arXiv, 2025)
- PagedAttention: Efficient Memory Management for LLMs (vLLM, 2024; widely adopted 2025)
- GRPO: Group Relative Policy Optimization (DeepSeek AI, 2025)
- DPO: Direct Preference Optimization (Rafailov et al., 2024; mainstreamed 2025)
- RLAIF: Reinforcement Learning from AI Feedback (Google DeepMind, 2024)
- MiniCPM-V: Efficient Multimodal LLM (OpenBMB, 2025)
- Claude 4 System Card (Anthropic, 2025)
- Codex: Next-Generation Code Model (OpenAI, 2025)
- Sora 2 Technical Report (OpenAI, 2025)
- Veo 3.1: Video Generation (Google DeepMind, 2025)
- VBench: Comprehensive Benchmark for Video Generation (arXiv, 2024)
- Cubic Discrete Diffusion (arXiv, 2025)
- EffectErase: Video Effect Removal (arXiv, 2025)
- LVOmniBench: Long Video Understanding Benchmark (arXiv, 2025)
- VTC-Bench: Video-Text Consistency Benchmark (arXiv, 2025)
- SAMA: Scalable Adaptive Memory Architecture (arXiv, 2025)