Skip to content
Published on

オープンソースLLM 2026 完全ガイド - Llama 4 · DeepSeek V3 + R1 · Qwen 3 · Mistral Large 2 · Phi-4 · Gemma 3 · Falcon 3 徹底分析

Authors

プロローグ — 2024年の差はどう消えたか

2024年春、「オープンソースLLM」という言葉には小さなため息が混じっていた。Llama 2 70BをGPT-4と比較するのは、7Bモデルが13Bより良いという慰めで終わる種類の比較だった。MMLUの1つの数字が10点落ち、コード生成はしばしば崩れ、韓国語・日本語は初日から半分しか動かなかった。私たちはクローズドAPIを呼びながら「いつかは」と言っていた。

2026年春、その差はほぼ消えた。MetaがLlama 4 Scout・Maverick・Behemothでネイティブマルチモーダルと1000万トークンコンテキストを投げ、DeepSeekがV3 671BとR1でコストカーブを破壊し、AlibabaがQwen 3でApache 2.0の旗をさらに深く刺し、MistralがLarge 2とPixtral・Codestral・Ministralでラインを細分化し、MicrosoftがPhi-4 14Bで「小さなモデルも合成データで最後まで行ける」という命題を証明した。Google Gemma 3は単一GPUで動くマルチモーダル128Kコンテキストでエッジの可能性を再描画した。Falcon 3とFalcon Mambaはハイブリッドアーキテクチャで別の道を開いた。Allen AI OLMo 2とTülu 3はデータ・コード・チェックポイントまで全公開して「本当のオープン」の基準線を新たに引いた。

この記事はそのすべてのモデル・ライセンス・推論スタック・ローカル・国家モデルを1枚の地図に束ねる。韓国のHyperCLOVA XとKananaとEXAONE 3.5、日本のELYZAとPLaMoとSakana、中国のYiとInternLMとMiniCPM、そしてvLLM・SGLang・llama.cpp・MLX・exllamav2・TGIといった推論エンジンまで。ライセンスマップ — Apache 2.0、MIT、Llama Community License、Gemma Terms、Mistral Research vs Commercial — も最後に整理する。


1章 · 2026年オープンソースLLMの地図 — 3軸と5カテゴリ

2026年のオープンソースLLM市場を1枚の地図に描くと、まず3つの軸が見える。

軸1 — ライセンスの自由度。Apache 2.0 / MITのように商業・再配布すべて無制限のモデル(Qwen 3、Mistral 7B / Mixtral、DeepSeek R1、OLMo 2、Phi-4)、Llama Community Licenseのように月間7億MAU未満なら商業可能なモデル(Llama 4、Llama 3.3)、Gemma Termsのように使用ポリシーに縛られるモデル(Gemma 3)、Mistral Research Licenseのように研究・非商用のみ無料のモデル(Mistral Large 2)、CC-BY-NCのように非商用のみ許可するモデル(Cohere Command R+)。同じ「オープン」でも、法務が見る色は異なる。

軸2 — アーキテクチャとサイズ。デンス(dense)トランスフォーマー(Llama 3.3 70B、Mistral Large 2 123B、Qwen 2.5 72B、Phi-4 14B、Gemma 3 27B)、MoE(Mixture of Experts)(Llama 4 Maverick 400B / 17Bアクティブ、Llama 4 Behemoth 2T、DeepSeek V3 671B / 37Bアクティブ、Mixtral 8x7B / 8x22B)、ハイブリッド(Falcon Mamba 7BのSSM結合)、推論専用(R1、R1-Distill)。同じ「70B」という数字でも、MoEの17BアクティブとデンスのフルB全体はGPUメモリカーブが完全に異なる。

軸3 — 学習データの公開度。重みのみ公開(weights-open):Llama、Qwen、Mistral、DeepSeekのほとんど。重み+コード+データ+チェックポイントまで公開(fully-open):Allen AI OLMo 2、Tülu 3、Together RedPajama。EleutherAI Pythia、BigScience BLOOMの系譜がここにある。本当に再現可能な科学が必要ならfully-openが答え。

5つのカテゴリがその上に重なる。

  1. フラッグシップ汎用(general flagship) — Llama 4 Maverick、DeepSeek V3、Qwen 3、Mistral Large 2
  2. 小型高効率(small-and-mighty) — Phi-4 14B、Gemma 3 4B / 12B / 27B、Llama 3.2 1B / 3B、Ministral 3B / 8B、MiniCPM 3.0
  3. コード専門(code) — Qwen 2.5 Coder、Codestral 25.01、DeepSeek Coder V2、Llama Code 3
  4. 推論専門(reasoning) — DeepSeek R1、R1-Distill-Qwen-32B、QwQ-32B、Marco-o1
  5. マルチモーダル(multimodal) — Llama 4 Scout / Maverick(ネイティブ)、Pixtral 12B / Large、Gemma 3(vision)、Qwen 2.5 VL、NVLM

地図の核心は — 1つの正解モデルは存在しないということ。ライセンス、サイズ、ドメイン、インフラが交わるその座標で、毎回違う選択肢が現れる。


2章 · Meta Llama 4 — Scout、Maverick、Behemoth

Metaは2025年4月にLlama 4ファミリーを投げ、その時点からオープンソースフラッグシップの基準が再描画された。3モデルが1束。

Llama 4 Scout — 109B総パラメータ、17BアクティブのMoE。16 expert。ネイティブマルチモーダル(テキスト+画像)。**1000万トークンコンテキスト(10M)**が核心の武器。単一H100 80GB 1枚にINT4量子化で入るよう設計。長いコードベース全体、本1冊、複数PDFを一度にコンテキストに入れる。

Llama 4 Maverick — 400B総、17BアクティブのMoE。128 expert。1Mコンテキスト。マルチモーダル。フラッグシップ推論・コーディング・創作でGPT-4o・Gemini 2.0 Proと同じ領域で戦う。LMSYS Chatbot Arenaで2桁ELO差で他のオープンモデルを引き離した。

Llama 4 Behemoth — 約2兆(2T)総パラメータ、288Bアクティブ。学習中の巨大モデルでMaverick・Scoutのdistillation teacher役割。Metaが直接「STEMベンチマークでGPT-4.5・Claude 3.7 Sonnetと競争する」と明示。

3モデルすべてLlama Community License 4の下で配布される。月間アクティブユーザー7億人以下の事業者は商業使用可能、それ以上は別途ライセンス必要。EUデータ保護規制の影響でEU居住者・企業は別途追加の使用制限条項が付く。

学習インフラは32K H100から始めてBehemothはそれ以上。FP8 mixed precision、MoEのルーター学習安定化のための新技法(MetaP)が適用された。データセットは30兆(30T)トークンを超えると言われ、200以上の言語をカバー。

Llama 4の核心決定:MoE全面採用ネイティブマルチモーダルコンテキスト長の跳躍。前世代のデンス70B / 405B構造を捨ててMoEに行った。画像入力は外部エンコーダではなく、early-fusion方式で同じモデル内で処理される。


3章 · Llama 3.3 70B — デンスベースラインの最後のピーク

Llama 4以前、Metaが2024年12月に投げたLlama 3.3 70B Instructはデンストランスフォーマーの最後のピーク。405Bの性能を70Bに圧縮したことが核心。

スペック要約 — 70Bパラメータ、デンス、128Kコンテキスト、英語中心だが8つの主要言語をサポート。グループ化クエリアテンション(GQA)、RoPE位置エンコーディング、RMSNorm。

性能座標 — MMLU 86.0、IFEval 92.1、HumanEval 88.4、MATH 77.0。405Bと比較して5点以内の差で追従し、GPUメモリは1/6水準で動く。4-bit量子化すれば単一H100 80GB 1枚に十分に入る。

デプロイ親和性 — デンス構造のためvLLM・TGI・llama.cppで最も安定して動く。MoEのルーティングオーバーヘッドがなくlatencyの一貫性が高い。推論システム的に「予測可能なモデル」という価値が大きい。

2026年時点でもLlama 3.3 70Bは依然としてプロダクションのデフォルト。Llama 4 Scoutがマルチモーダルと長いコンテキストを持ってきたが、単純テキスト作業・低遅延・予測可能なコストが必要なら3.3 70Bに回帰するケースが多い。Llama 3.2の1B / 3Bはエッジ・モバイル、Llama 3.2 Vision 11B / 90Bはマルチモーダル補助。

ライセンスは同じくLlama Community License。Hugging Faceから直接受けるか、Together・Fireworks・DeepInfra・Replicate・Groqのようなホスティングプロバイダでトークン単価で使える。


4章 · DeepSeek V3 — 671B MoEと、コストの衝撃

DeepSeek-V3は2024年12月に公開され、その瞬間にオープンソースLLM経済学の座標が変わった。核心の数字1つで十分 — 約557万ドル(5.6M USD)。その費用で671Bパラメータ、37BアクティブのMoEモデルを学習完了したという事実が、GPT-4クラス学習に1億ドル以上を使っていた業界に衝撃を与えた。

アーキテクチャ — 671B総、トークンあたり37Bアクティブ。256 routed expert + 1 shared expert。Multi-head Latent Attention(MLA)でKVキャッシュを圧縮。Multi-Token Prediction(MTP) objectiveで学習効率向上。FP8 mixed precisionで学習。

学習インフラ — 2048個のH800 GPU(中国輸出規制対応SKU)。14.8兆(14.8T)トークン。事前学習264万GPU時間 + コンテキスト拡張11.9万GPU時間 + 事後学習5千GPU時間 = 約278万GPU時間。H800の1時間あたり2ドルで計算するとその合計は約557万ドル。

性能座標 — MMLU 88.5、MMLU-Pro 75.9、GPQA-Diamond 59.1、HumanEval 65.2、MATH 90.2、AIME 2024 39.2。英語・中国語両方に強く、数学とコーディングが特に固い。

ライセンス — DeepSeek独自のライセンス(MIT派生)。商業使用許可。重みはHugging Faceのdeepseek-ai/DeepSeek-V3から直接ダウンロード。

V3の真のインパクトはコスト。同じ規模を同じ費用で学習できる可能性が閉じた仮定を破り、「巨大モデル学習はビッグテックの専有物」という命題を崩した。その後、すべてのオープンソース学習レポートで「DeepSeek対比コスト効率」という基準線が新しく生まれた。


5章 · DeepSeek R1 + R1-Distill — 推論モデルのオープンベースライン

DeepSeek-R1は2025年1月に公開された。V3がコストを揺らしたなら、R1は推論モデルカテゴリのクローズド独占を破った。OpenAI o1・o3ラインが持っていたchain-of-thought推論をオープンウェイトで同じ領域に引きずり込んだ。

学習レシピ — DeepSeek-R1-ZeroはSFTなしの純粋RL(GRPO: Group Relative Policy Optimization)のみで推論を学習。R1はcold-start SFT後にRLを経て、精度と可読性を両方掴んだ。Aha moment — モデルが自発的に「待って、もう一度考えてみよう」と推論経路を修正する行動がRL中に出現。

性能座標 — AIME 2024 79.8、MATH-500 97.3、Codeforces 96.3 percentile、GPQA-Diamond 71.5。OpenAI o1と同じ領域で戦う。

MITライセンス — DeepSeek-R1は重み・コード両方MITライセンスで解放。商業使用、再配布、派生モデルすべて自由。オープンソース推論モデル史上、最も自由なライセンスの1つ。

R1-Distillシリーズ — R1の推論データをdistillationしてより小さなベースモデルに移したライン。

  • DeepSeek-R1-Distill-Qwen-1.5B / 7B / 14B / 32B
  • DeepSeek-R1-Distill-Llama-8B / 70B

R1-Distill-Qwen-32BはAIME 2024 72.6、MATH-500 94.3を記録。単一H100 1枚に入る32BでOpenAI o1-miniクラスの推論を行うという事実が核心。ローカル推論モデルの基準が一気に上がった。

2026年時点でR1とR1-Distillはすべてのオープンソース推論実験の出発点。Hugging Face Open-R1プロジェクトがR1の学習レシピを完全オープンに再現しようと試みており、その上に多数の派生が積み上がっている。


6章 · Alibaba Qwen 3 / Qwen 2.5 — Apache 2.0の深さ

AlibabaのQwenシリーズはオープンソースLLM市場で最大のライセンス自由陣営。Apache 2.0で重みを公開する決定がすべての違いを生む。

Qwen 3 — 2025年リリース。デンスとMoE両方を包括するラインアップ。

  • デンス:0.5B / 1.8B / 4B / 7B / 14B / 32B / 72B
  • MoE:30B総 / 3Bアクティブ、235B総 / 22Bアクティブ

Qwen 2.5 — 2024年9月リリース。0.5Bから72Bまで7段階のデンスモデル。18兆トークン学習。128Kコンテキスト(7B以上)。29以上の言語対応。

Qwen 2.5 Coder — コード専門ライン。1.5B / 3B / 7B / 14B / 32B。HumanEval 92.7(32B)、BigCodeBench、LiveCodeBenchでオープンコードモデル最上位。GitHub Copilotの代替セルフホスティングオプションとして最も頻繁に挙げられる。

Qwen 2.5 Math — 数学専門。1.5B / 7B / 72B。MATHベンチマーク最上位。

Qwen 2.5 VL — マルチモーダル。3B / 7B / 72B。画像・動画・文書理解。

QwQ-32B — 推論専門。R1と直接競争するオープン推論モデル。AIME 50.0+。

Qwenの位置は明確。同じサイズでライセンス自由度が最高のモデルであること。LlamaがCommunity Licenseに縛られる時、QwenはApache 2.0。Mistral Large 2がResearch Licenseで非商用のみ許す時、同クラスのQwen 72Bは同じライセンス自由で商業使用可能。法務的にQwenは決定の摩擦が最も低い。

中国語・アジア言語の強さは自然な副産物。同サイズLlama対比、韓国語・日本語品質も一段階高い場合が多い。


7章 · Mistral Large 2 — 123Bと、ライセンスの2つの顔

Mistral AIはフランスの誇りであり、オープンウェイト陣営のもう1つの軸。Mistral Large 2(Mistral-Large-Instruct-2407、2024年7月)は123Bデンスモデルで、128Kコンテキスト、80以上の言語対応。

性能座標 — MMLU 84.0、MATH 71.5、HumanEval 92.0、MultiPL-E多言語コードベンチマークで強さ。リリース時点でオープンウェイトモデルの中でLLM Arena ELOトップ5に入った。

ライセンスの2つの顔 — Mistral Large 2はMistral Research License下で配布される。研究・非商用使用は無料、商業使用は別途Mistral Commercial License購入が必要。Apache 2.0ではなく、Llama Community Licenseより1段階制限的。Hugging Faceから重みを受けられるが、プロダクションで収益が出ればライセンス協議が必須。

Pixtral — Mistralのマルチモーダルライン。

  • Pixtral 12B(Apache 2.0) — 12Bパラメータのオープンマルチモーダルモデル
  • Pixtral Large(124B、Research License) — Large 2の上にビジョンエンコーダを載せたフラッグシップマルチモーダル

Codestral 25.01 — コード専門モデル。80以上のプログラミング言語。Fill-in-the-middle(FIM)強さ。32Kコンテキスト。

Ministral 3B / 8B — エッジ専用。モバイル・オンデバイス推論。Apache 2.0陣営よりライセンス制約があるが、同サイズLlama 3.2と比較可能な品質。

Mistral 7B / Mixtral 8x7B / 8x22B — 2023~2024年のフラッグシップ。今もApache 2.0で生きている資産。MixtralのSMoE(Sparse MoE)アーキテクチャはその後のすべてのオープンMoEの参照設計。

Mistralはライセンス面で明確な2トラックを運営する — 小さなモデル・過去モデルはApache 2.0で解放してコミュニティ信頼を維持し、フラッグシップはResearch / Commercialに分離して収益モデルを掴む。使用決定では常に売上閾値とライセンス条項を同時に見る。


8章 · Microsoft Phi-4 — 合成データで最後まで行く14B

Microsoft Phiシリーズの核心仮説は単純 — 「データ品質はモデルサイズを圧倒する」。Phi-4(2024年12月)は14Bデンスパラメータでその仮説を最も遠くまで押し進めた結果物。

スペック — 14Bデンスパラメータ、16Kコンテキスト、9.8兆トークン学習。学習データのほとんどが**合成(synthetic)**データで、より大きなモデル(GPT-4クラス)が生成した推論・数学・コードの例を精製して使う。

性能座標 — MMLU 84.8、MATH 80.4、HumanEval 82.6、GPQA 56.1。14Bで70B級の一部ベンチマークと同等で戦う。特に推論・数学で際立つ。

ライセンスMITライセンス。重み・商業使用すべて自由。Llama Community Licenseより一段階自由で、Mistral Research Licenseより二段階自由。

Phi-4ライン拡張 — Phi-4-mini、Phi-4-multimodal、Phi-3.5-MoEなど。小さなモデル + 合成データの価値チェーンを拡張。

Phi-4の価値は2つ。(1) 単一GPU 24GBに4-bit量子化で入って、ローカル推論・オンプレ展開のデフォルトになる。(2) 合成データ学習レシピの公開 — どのようにデータを生成・フィルタ・精製したかの詳細が他の小型モデル学習に直接インスピレーションを与える。

Phiシリーズの限界も明確 — 多言語が弱い。英語中心の合成データで学習されたため、韓国語・日本語・中国語品質は同サイズQwen 2.5に及ばない。英語単独ドメイン、または小さなfine-tuneベースとして使うときにPhi-4のコスパが光る。


9章 · Google Gemma 3 — マルチモーダルが単一GPUに入った日

Google Gemma 3は2025年3月に発売され、その時点から「単一GPUに入るマルチモーダル」が新たなベースラインになった。

ラインアップ — 1B / 4B / 12B / 27B。Gemma 3 27Bがフラッグシップ。

核心機能の束

  • マルチモーダル — 4B以上はビジョンエンコーダ内蔵。画像入力可能。
  • 128Kコンテキスト — 27Bモデル基準。1Bは32K。
  • 140以上の言語対応 — 多言語コアが固い。
  • 関数呼び出し(function calling) — 構造化出力とツール呼び出し。
  • 量子化フレンドリー — 4-bit GGUFで単一RTX 4090に27Bが入る。

性能座標 — Gemma 3 27B:MMLU 76.9、MATH 50.0、HumanEval 71.9、LMSYS Arena ELO 1338。同クラス27Bで最上位。同じ27BでLlama 3.1 70Bの一部領域を追従する。

ライセンスGemma Terms of Use。使用ポリシー(Acceptable Use Policy)に縛られるが、商業使用は許可。Apache 2.0より少し狭く、Llama Community Licenseと似たレベル。

Gemma 3の価値はそのサイズとマルチモーダルの結合。27Bでビジョン・マルチ言語・128Kコンテキストがすべて入って、単一GPUオンプレ展開のデフォルトマルチモーダルになる。4Bはより軽いエッジ・ロボティクスシナリオ。

Gemma 2(2024年6月、9B / 27B)は依然として軽量ベースとして生きており、PaliGemma 2はビジョン専用バリエーション、CodeGemma 2はコード専門バリエーションに分岐する。


10章 · TII Falcon 3 / Falcon Mamba — ハイブリッドの道

アラブ首長国連邦Technology Innovation Institute(TII)のFalconシリーズは2023年Falcon 40Bで一度話題になり、2024年12月Falcon 3(1B / 3B / 7B / 10Bデンス)でラインアップを再整備した。

Falcon 3 — Apache 2.0ライセンス。14兆トークン学習。32Kコンテキスト。MMLU 71+(10B)。多言語。英語・アラビア語・フランス語・スペイン語・ポルトガル語の1次サポート。

Falcon Mamba 7B — 核心。純粋なMamba State-Spaceアーキテクチャで7Bトランスフォーマーと競争する初めてのモデル。トランスフォーマーのquadratic attentionの代わりにSSM(State Space Model)のlinear scalingを使う。長いコンテキストでメモリと時間複雑度がトランスフォーマー対比ずっと有利。

Falcon 3 7B-Hybrid — Mamba + Transformerハイブリッド。時間・メモリ効率とトランスフォーマーの精度を同時に狙う。

Falconの位置は2つに絞れる。(1) アラビア語・中東圏LLMの旗 — アラビア語の学習比重が他のグローバルモデルより圧倒的に高い。(2) Mamba / SSM実験の最大のオープンベース — Mistral・Llamaがトランスフォーマー正統を守る時、Falcon MambaがSSM陣営の旗を立てた。

ベンチマーク絶対性能はLlama 3.3・Qwen 2.5に及ばないが、新しいアーキテクチャを試みたい研究者には出発点として最も頻繁に挙げられる。


11章 · Allen AI OLMo 2 + Tülu 3 — 「本物のオープン」のベースライン

オープンソースLLMの中でも、「本当に全部公開されたか」の基準は別にある。重みだけ公開したweights-openモデルと、重み・コード・データ・中間チェックポイントまで全公開したfully-openモデルは学術的価値が異なる。その基準線がAllen Institute for AIのOLMo。

OLMo 2(2024年11月) — 7B / 13Bパラメータ。5兆トークンの学習データ全体が公開(Dolma 2)、コード全体公開、学習中間チェックポイント数百個公開、学習ログ・評価スクリプト公開。Apache 2.0。

Tülu 3(2024年11月) — OLMo 2の上に適用された事後学習(post-training)レシピ。SFT + DPO + PPOの全パイプラインがコード・データまで公開。Llama 3.1 70Bの上に適用したTülu 3 70BはGPT-4o-miniと同じ領域で戦う。

OLMo・Tüluの価値は再現可能性。他のオープンウェイトモデルは「こう出た」という結果だけを見せるが、OLMoは「このデータ、このコード、このハイパーパラメータで同じく再学習できる」という科学を提供する。学習動力学(training dynamics)研究、scaling law検証、事前学習データ効果分析 — これらの研究はfully-openモデルなしではほぼ不可能。

同じfully-open陣営の他の資産

  • EleutherAI Pythia(2023) — 13個のチェックポイントスケールのGPT-NeoXベース。学習動力学研究の標準データセット。
  • BigScience BLOOM(2022) — 176B多言語。学習データROOTS公開。
  • Together RedPajama — Llama事前学習データセットオープン再現。
  • Stability AI StableLM — 重み・一部コード公開。現在は活動鈍化。

商業プロダクションのベースラインは普通Llama 4・Qwen 3・Mistralだが、研究・教育・再現可能性が重要ならOLMo・Tüluラインが答え。


12章 · 韓国モデル — HyperCLOVA X、Kanana、EXAONE 3.5、VARCO、Luxia、Solar

韓国語LLMの風景は2026年時点で豊富。韓国語単独で見ればグローバルモデルより国家モデルが一段階先んじる領域が多い。

Naver HyperCLOVA X — Naverのフラッグシップ。HCX-003、HCX-005のようなクローズドAPIとHyperCLOVA X SEEDのようなオープンラインを分離運営。韓国語の自然さ・文化的文脈理解で最高評価。

Kakao Kanana — Kakao Brainのオープンライン。Kanana 1.5 8B / 32B。Kakao Brainの長年のLLM資産(KoGPTなど)の上に積み上げた韓国語特化。Apache 2.0陣営に近くライセンス自由度が高い。

LG AI Research EXAONE 3.5 — 2024年12月。2.4B / 7.8B / 32Bの3段階。英語・韓国語バランス、関数呼び出し、長いコンテキスト(32K)対応。EXAONE Deepで推論専門バリエーションも運営。LGの社内応用(LG U+、LG生活健康、LG電子)に直接入る。

NCsoft VARCO 13B / VARCO LLM — NCsoftのゲーム・コンテンツドメイン特化。キャラクターセリフ、シナリオ、マルチターン会話の強み。

Saltlux Luxia / Saltlux LLM — Saltluxのエンタープライズ韓国語LLM。金融・法律・公共ドメイン適合度。

Upstage Solar 10.7B — 2023~2024年の核心資産。depth up-scaling技法で10.7Bを学習。韓国語・英語両強。一部の重みはOpenAccessライセンスで公開。Upstage Solar Mini、Solar Proでライン拡張。

KIST・ETRI・KORANI・国立国語院モデル — 学界・政府側で韓国語データ・モデル資産を別途蓄積。

選択の核心は(1) 韓国語の自然さの絶対水準、(2) 国内クラウド・データ主権要件(Naver Cloud、KT Cloud、NCloud)、(3) ライセンスの商業フレンドリー度。グローバルモデルでは足りない韓国語ドメインが明確に存在する。


13章 · 日本モデル — ELYZA、PLaMo、rinna、Stockmark、Sakana

日本のオープンソースLLM陣営も豊富。

ELYZA-japanese-Llama-2/3 — ELYZAがLlamaベースに日本語追加事前学習・SFTを載せたライン。7B / 13B / 70B。日本市場の事実上標準の日本語Llamaバリエーション。

PFN PLaMo — Preferred NetworksのPLaMoシリーズ。PLaMo-13B、PLaMo β、PLaMo Lite。日本語単独学習路線。自前のデータ・自前のインフラ。

rinna — rinnaの日本語モデルライン。RWKVベースの日本語モデル、Japanese GPT、Bilingual GPT、Llamaバリエーション。日本語音声・キャラクター応用に強さ。

Stockmark LLM — Stockmarkの日本ビジネスニュース・市場情報ドメイン特化。100B日本語ニュースデータの上で学習。

Sakana AI — 東京拠点。evolutionary model merging — 進化アルゴリズムで複数モデルを自動マージするメタ技法。EvoLLM-JPなど日本語マージモデル公開。単一モデルよりマージ・進化技法が武器。

ABEJA QwenJP、CyberAgent CALM2、Lightblue Karasuなど — 日本スタートアップ陣営のベースバリエーション。

日本は韓国と似て(1) ローカル日本語の自然さ、(2) データ主権・メイド・イン・ジャパン政策、(3) アニメ・マンガ・ゲームドメイン特化が決定的。


14章 · 中国モデル — Yi、InternLM、MiniCPM、Baichuan

中国オープンソースLLMはQwen・DeepSeek以外にも多層的。

Yi 1.5(01.AI) — 6B / 9B / 34B。Apache 2.0。英語・中国語バランスの強み。カイフー・リー(Kai-Fu Lee)の01.AIから発売。

InternLM 2.5(Shanghai AI Lab) — 7B / 20B。1MトークンコンテキストバリエーションInternLM2-Wqxなど。推論・ツール呼び出しの強み。様々なバリエーション(InternVLマルチモーダルなど)運営。

MiniCPM 3.0(OpenBMB / 清華) — 4B / 8B。エッジLLMに特化。モバイル推論、量子化フレンドリー、多言語。同サイズLlama対比一部ベンチマーク優位。

Baichuan 3 / Baichuan-M1 / Baichuan2 — Baichuan AI。医療・法律・金融など垂直ドメイン特化バリエーション。学校データ・試験データ学習の強み。

01.AI Yi-VL、InternVL、MiniCPM-V — 中国陣営のマルチモーダルライン。Qwen 2.5 VLと共にオープンマルチモーダルの半分。

ChatGLM(智谱 / Zhipu) — GLMシリーズ。GLM-4、ChatGLM3。英語・中国語バランス。

中国モデルの共通特徴 — (1) 中国語の自然さ最上位、(2) 速いラインアップ回転(四半期ごとに一段階アップデート)、(3) 相対的に自由なライセンス(Apache 2.0または独自バリエーション)。

米国政府の一部export control規制とは別に、商業使用自体に制限がないモデルが多い。多国籍企業のグローバル展開でポリシー・法務検討は別件だが、重みライセンス自体は自由。


15章 · 推論スタック — vLLM、SGLang、llama.cpp、MLX、TGI

重みを受けても推論(inference)エンジンがなければ活用できない。2026年オープンソース推論スタックは多層化された。

vLLM — UC Berkeley LMSYSのGPUサービングエンジン。PagedAttentionでKVキャッシュをページ単位で管理、処理量(throughput)最上位。Llama・Qwen・Mistral・Phiほぼすべてのオープンモデル対応。事実上のGPUサービング標準。OpenAI互換APIサーバー内蔵。

SGLang — もう1つの高性能サービングエンジン。RadixAttentionでプロンプトprefixキャッシングが極端に良い。構造化生成(JSON・正規表現ベースdecoding)の強み。vLLMの強力なライバル。

Hugging Face TGI(Text Generation Inference) — HF独自のサービング。Inference Endpointsのバックエンド。安定したプロダクションデフォルト。

TensorRT-LLM(NVIDIA) — NVIDIAの公式推論エンジン。ビルド時間が長いが、同じGPUで最大throughput・最低latency。プロダクションNVIDIA環境の頂点。

llama.cpp — Georgi GerganovのC / C++推論。GGUFフォーマットで量子化(2 / 3 / 4 / 5 / 6 / 8-bit)多様。CPU・CUDA・ROCm・Metal・Vulkanバックエンド。Apple Silicon・一般PC・ラズベリーパイまで行く汎用性。Ollama・LM Studio・LocalAIがすべてその上に積み上がる。

Apple MLX — Apple Silicon専用機械学習フレームワーク。M3 Max / M4 Ultraで70BモデルまでINT4で回せる。mlx-examplesにLlama・Qwen・Mistral移植が多数。

exllamav2 / exllamav3 — turboderpのGPU推論。GPTQ・EXL2量子化フォーマット専用。単一GPUで量子化モデルのlatencyがvLLM対比低い場合がある。ローカル・小規模ワークロードに最適。

Ollama — llama.cppの上のユーザーフレンドリーラッパー。ollama run llama3.3:70b-instruct-q4_K_Mの1行でモデルダウンロード・実行。ローカル・オンデバイスワークフローの一般人入口。

LMDeploy / OpenLLM / Ray Serve / Triton Inference Server — その他のプロダクションサービングオプション。

選択の基準 — クラウドGPU大規模サービングならvLLMまたはSGLang、NVIDIA単一インスタンス最適化ならTensorRT-LLM、ローカル・オンデバイスならllama.cpp / Ollama、Apple SiliconならMLX、単一RTX 4090最適化ならexllamav2


16章 · ホスティングプロバイダ — Together、Fireworks、Groq、DeepInfra、Replicate

重みを直接扱わずトークン単価で使うならホスティングプロバイダが答え。

Together.ai — オープンソースLLMホスティングで最も広いカタログ。Llama・Qwen・Mistral・DeepSeek・Falcon・Gemmaほぼすべてある。OpenAI互換API。fine-tuningサービス(Together Tune)も提供。

Fireworks.ai — 高性能サービングに特化。Function calling・structured output・低latency。Llama・Mistral・DeepSeekラインアップ中心。

Groq — **LPU(Language Processing Unit)**独自チップ上で圧倒的なトークン生成速度。Llama・Mixtral・Gemma限定。トークン/秒単位で最も速いホスティング。

DeepInfra — コスパ最強。同クラスモデル価格が最も低い。Llama・Qwen・Mistral・DeepSeekカタログ。

Replicate — マルチモーダル・画像生成モデルと組み合わせたカタログ。LLMも扱うがビジョン・オーディオモデルと一緒に使う時の強み。

OpenRouter — 複数のホスティングプロバイダを1つのAPIにルーティング。価格・latency・可用性ベースの自動ルーティング。

HuggingFace Inference Endpoints / Serverless Inference — HFの公式サービング。Pro加入でより大きなモデル使用可能。

Cerebras Inference — Cerebrasウェハスケールチップ上の速い推論。Llama中心。

SambaNova Cloud — SambaNovaの独自RDUチップベース。

選択の基準 — カタログの広さはTogether速さはGroq / Cerebras価格はDeepInfraマルチプロバイダルーティングはOpenRouterプロダクション安定性はFireworks / Together


17章 · 量子化 — GGUF、GPTQ、AWQ、FP8、INT4

重みそのままは大きすぎる。70Bはfp16で140GB、INT4で35GB。ローカル推論のためには量子化フォーマットを知る必要がある。

GGUF(llama.cpp) — 最も汎用。Q2_K / Q3_K_S/M/L / Q4_K_S/M / Q5_K_S/M / Q6_K / Q8_0多様。Q4_K_Mが品質・サイズバランスのデフォルト。Hugging FaceのTheBloke・bartowski・mradermacherなどのコミュニティ量子化ハブ。

GPTQ — グループ量子化(group-wise quantization)。4-bitがデフォルト。exllamav2がメインランタイム。GPU専用。

AWQ(Activation-aware Weight Quantization) — MITの量子化アルゴリズム。活性値分布を見て重要な重みを保存。vLLM・llama.cpp・exllamav2が全部対応。

EXL2 — exllamav2専用。可変ビット(2.5~8bpw)で同じモデルサイズ内でより柔軟な分配。単一GPUメモリに正確に合わせるfine-tuningに強い。

FP8 — H100・H200・MI300などの新世代GPUのネイティブ。学習・推論両方FP8。DeepSeek V3が学習からFP8を使った。

INT4(BitsAndBytes) — Tim Dettmersの量子化。Hugging Face Transformers統合。fine-tuning時のベースモデルメモリ削減(QLoRA)。

bf16 / fp16 — 量子化なしの絶対ベースライン。

選択の基準 — ローカルCPU / Apple SiliconはGGUFローカルGPU単一はEXL2 / GPTQvLLMサービングはAWQまたはGPTQH100 / H200サービングはFP8品質絶対優先はbf16


18章 · ベンチマーク — MMLU、GPQA、HumanEval、IFEval、Arena

オープンソースモデルを比較する時に出会うベンチマークの束。

MMLU(Massive Multitask Language Understanding) — 57ドメイン、選択式。学部レベルの一般知識。最上位モデルは88+。飽和状態で信頼度が次第に下がる。

MMLU-Pro — MMLU後続。より難しく、選択肢10個。推論比重が高い。

GPQA-Diamond — Graduate-level Physics、Chemistry、Biology。大学院レベル。人間の専門家でも60-70%。最上位モデル70+。

HumanEval — Python関数コーディング、164問題。飽和状態(90+)。

BigCodeBench — HumanEvalの後続。実際のライブラリ使用・多段階コード。より現実的。

LiveCodeBench — 時間別に更新される新しいコーディング問題。データ汚染防止。

MATH — 数学コンペ。5段階難易度。最上位モデル80+。

AIME(American Invitational Math Exam) — 推論モデルの標準ベンチマーク。o1・R1が際立つ。

IFEval(Instruction Following) — 指示追従。フォーマット・長さ・言語のような明示的指示。

MT-Bench — マルチターン会話。GPT-4が審判。

LMSYS Chatbot Arena — 実ユーザーのブラインド比較。ELOランキング。最も信頼される総合指標。

ArenaHard — Arenaの難易度フィルタリングバリエーション。

韓国語:HAERAE、KoBEST、KMMLU(50韓国語ドメイン)。日本語:JMMLU、JGLUE。中国語:C-Eval、CMMLU。

比較の罠 — 同じベンチマークスコアでもprompt format、few-shot数、評価コードが違えばスコアが5-10点揺れる。モデルカードのスコアをそのまま信じるよりlm-evaluation-harnessOpenCompassなどの標準ツールで直接測定するのが安全。


19章 · Fine-tuning — LoRA、QLoRA、DPO、GRPO

重みを受けたら自分のドメインに合わせてfine-tuneするのが次の段階。

SFT(Supervised Fine-Tuning) — 最も基本。(入力、出力)ペアで一般的な重み更新。transformers + trlのSFTTrainerが標準。

LoRA(Low-Rank Adaptation) — MicrosoftのPEFT技法。全体の重みの代わりにlow-rankアダプターのみ学習。70Bモデルも8x A100の1ノードで学習可能。アダプターは通常数十MB。

QLoRA — Tim Dettmersのバリエーション。ベースモデルを4-bit量子化したままLoRAアダプターを学習。単一24GB GPUで70B fine-tuneが可能。

DPO(Direct Preference Optimization) — Rafailovのalignment技法。PPOのreward model + RL段階を直接preference lossに置き換える。SFT後の次の段階として広く使われる。

ORPO / KTO / IPO / SimPO — DPOのバリエーション。preferenceデータ形態と損失関数が少しずつ異なる。

GRPO(Group Relative Policy Optimization) — DeepSeek R1のRL技法。PPOのreward modelなしでグループ内の相対報酬で学習。推論モデル学習のデフォルト。

RLAIF / Constitutional AI — RLHFの人間ラベリングの代わりにAIが直接比較データを生成。コスト削減。

ツールの束 — Hugging Face transformers + peft + trl + accelerate + deepspeedが標準スタック。axolotl、unsloth、llama-factoryのようなhigh-levelラッパーがその上に積み上がる。unslothはLoRA・QLoRA学習速度を2-5倍引き上げるカーネル最適化で最近最も人気。

データ合成 — Magpie、Distilabel、Argillaなどのツールがfine-tune用合成データセット生成を自動化。Phi-4の合成データ学習レシピがこの方向のモデル。


20章 · マルチモーダル — Llama 4 Vision、Pixtral、Qwen 2.5 VL、NVLM、MiniCPM-V

2026年時点でオープンマルチモーダルLLMは本軌道に乗った。

Llama 4 Scout / Maverick — ネイティブマルチモーダル。early-fusionで画像・テキストが同じトランスフォーマー内で処理される。別途ビジョンエンコーダが外部から適用されるLLaVA方式と構造的に異なる。

Pixtral 12B / Pixtral Large — Mistralのマルチモーダル。可変解像度入力対応。Pixtral 12BはApache 2.0、LargeはResearch License。

Qwen 2.5 VL — Alibaba。3B / 7B / 72B。動画入力まで対応する珍しいオープンモデル。文書OCR・チャート理解の強み。

NVLM(NVIDIA) — NVIDIAのオープンマルチモーダル。デコーダ専用・cross attention 2つのバリエーション。

MiniCPM-V — OpenBMBのエッジマルチモーダル。モバイル・オンデバイスのビジョン・言語。

InternVL 2.5 — Shanghai AI Lab。1Bから78Bまで。動画・OCR・チャートの強み。

LLaVAシリーズ、CogVLM、Yi-VL — その他様々なオープンマルチモーダルバリエーション。

Gemma 3 Vision — Gemma 3 4B+基本内蔵。

Phi-4 Multimodal — Microsoftのマルチモーダルバリエーション。

比較の基準 — (1) 解像度と動的解像度対応(高解像度文書OCRに決定的)、(2) 動画入力対応、(3) チャート・表・数式理解(数値的vision)、(4) 言語別OCR(韓・中・日・アラビア語などの非ラテンスクリプト)。


21章 · ライセンスマップ — Apache 2.0、MIT、Llama、Gemma、Mistral

オープンソースLLMライセンスを売上と法務の視点から5段階に縮めると。

Tier 1 — 完全自由:Apache 2.0、MIT、BSD。商業・再配布・派生すべて自由。Qwen 2.5 / Qwen 3、Mistral 7B / Mixtral、DeepSeek R1、OLMo 2、Phi-4、Falcon 3、Pixtral 12B

Tier 2 — 使用ポリシー条件付き:Llama Community License(月間7億MAU閾値)、Gemma Terms(Acceptable Use Policy)、Apple OpenELMライセンス。Llama 3.x / Llama 4、Gemma 2 / Gemma 3

Tier 3 — 研究自由、商業は別途ライセンス:Mistral Research License。Mistral Large 2、Pixtral Large、Codestral(商業は別途購入)。

Tier 4 — 非商用のみ:CC-BY-NC、OpenRAIL-Mの一部。Cohere Command R+(CC-BY-NC)

Tier 5 — クローズドAPI:重み非公開、トークン単価のみ。GPT-4o、Claude、Gemini。

法務が見る色は明確 — Tier 1はほぼ摩擦なし、Tier 2は使用ポリシー検討(軍事・生体認証など禁止ドメインの確認)、Tier 3は商業ライセンス協議必要、Tier 4は売上発生時使用不可。

OpenRAIL-M、RAIL、Hugging Face's BigScience BLOOM Licenseなどの「Responsible AI License」バリエーションも1つの束。Apache 2.0より使用ポリシー条項が1行多い。

選択の基本 — 売上が出るプロダクションならTier 1優先、Llamaフレンドリーツールエコシステムが決定的ならTier 2受容、Mistral品質が必須ならTier 3ライセンス協議準備、非商用研究・社内ツールはTier 4可能


22章 · 選択マトリックス — 何をいつ使うか

これまで見たすべてのモデルを1つの表で整理。

シナリオ1位2位備考
英語汎用フラッグシップLlama 4 MaverickDeepSeek V3MoE
英語単純作業・低コストLlama 3.3 70BMistral Large 2デンス
韓国語最上位Naver HCX / KananaQwen 2.5 72B国家ドメイン
日本語最上位ELYZA-Llama-3Qwen 2.5 72B-
中国語最上位Qwen 2.5 72BYi 1.5 34B-
推論・数学DeepSeek R1QwQ-32BMITライセンス
コード生成Qwen 2.5 Coder 32BCodestral 25.01FIM
単一H100 24GBPhi-4 14BGemma 3 12B Q4-
マルチモーダル単一GPUGemma 3 27BQwen 2.5 VL 7B-
マルチモーダルフラッグシップLlama 4 MaverickQwen 2.5 VL 72Bネイティブ
モバイル・エッジLlama 3.2 3BPhi-4-miniQ4
ライセンス完全自由が必要Qwen 3 / Qwen 2.5Mistral 7BApache 2.0
学術再現OLMo 2 + Tülu 3Pythiafully-open
速いトークン生成Llama on GroqLlama on CerebrasLPU
Apple SiliconローカルLlama 3.3 70B(MLX)Gemma 3 27B(MLX)M3 / M4
5千ドルGPU 1台学習QLoRA Llama 70BLoRA Qwen 32Bunsloth
1万GPU事前学習Llama 4フル学習OLMo 2再学習-

質問分岐。

  1. 商業使用か、非商用・研究か? -> 商業ならTier 1-2、非商用ならTier 4まで開かれる。
  2. 単一GPUに入らないといけないか? -> 24GBならPhi-4・Gemma 3 12B・Llama 3.2、80GBならLlama 3.3 70B(Q4)。
  3. 推論・数学か、汎用か? -> 推論ならR1・QwQ、汎用ならLlama 4・Qwen 3。
  4. 韓・中・日言語ならグローバルvs国家のどちらがより良いか? -> 韓国語は普通Naver / Kakao / LG、中国語はQwen、日本語はELYZA。
  5. 再現可能な学問が必要か? -> OLMo 2 + Tülu 3。

23章 · 罠とよくある誤解

オープンソースLLMを運営しながらよく直面する罠。

罠1 — 「オープン」の定義が曖昧。重み公開 = オープンか?データ・コード・チェックポイントまで = オープンか?この定義の違いが学術的再現性と直結する。fully-openはOLMo・Tülu・Pythia・BLOOM程度に限定される。

罠2 — ライセンスの罠。Llamaが「オープン」と聞いてそのままサービスに刺したが、売上が閾値を超えると別途ライセンス協議が必要。Mistral Large 2が「非商用」と聞いて社内ツールに使ったが、そのツールが外部顧客に露出するとライセンス違反。Apache 2.0とLlama Community LicenseとMistral Research Licenseは同じ「オープン」ではない

罠3 — ベンチマーク = 実力の等価。MMLU 88と89の違いは測定ノイズ内。ArenaHard・LMSYS Arena ELOがより信頼可能。実際の使用シナリオで直接テストする必要がある。

罠4 — 量子化はタダではない。Q4_K_Mは通常1-2点の損失、Q3_K_Sは5-10点の損失。推論シナリオでは量子化損失がより大きく現れる。量子化ビットが低いほどhallucination・計算エラー可能性↑。

罠5 — fine-tuneは万能ではない。小さなドメインデータでfine-tuneするとベースモデルの一般能力が壊れるcatastrophic forgettingが頻発。RAGが答えの場合がfine-tuneが答えの場合より多い

罠6 — コンテキスト長 ≠ 有効コンテキスト。1Mコンテキストモデルでもneedle-in-a-haystack精度はコンテキスト後半で落ちる。RULER、LongBenchなどの長いコンテキストベンチマークで実際の性能確認が必要。

罠7 — マルチGPU分散は単純ではない。Tensor ParallelはGPU間のfast interconnect(NVLink)が必須。PCIeだけではthroughputが落ちる。Pipeline Parallelは一部のモデル形態でのみ効果。

罠8 — 「DeepSeekコスト557万ドル」引用の誤解。その数字は最後の事前学習1回のGPU時間コスト。インフラ減価、人件費、失敗した学習、アルゴリズムR&Dコストは抜けている。本当の総コストはその5~10倍。

罠9 — 韓・日・中モデルがグローバルモデルより自国語が無条件に良いわけではない。Llama 4・Qwen 3が多言語データを圧倒的に多く使いながら国家モデルとのギャップが縮んだ領域がある。ドメイン・文体別に実際のテストが答え。

罠10 — 「fully open」モデルは常に正解ではない。OLMo・Pythiaは学術的価値は絶対的だが絶対性能はLlama・Qwenに及ばない。プロダクションvs学術は別の軸。


24章 · 結論 — 1枚の地図、5つの分岐

2026年春、オープンソースLLMの風景を1段落に縮めると。

フラッグシップはLlama 4 Maverick・DeepSeek V3・Qwen 3・Mistral Large 2推論はDeepSeek R1とR1-Distill・QwQ-32BコードはQwen 2.5 Coder・Codestral単一GPUマルチモーダルはGemma 3 27B合成データのコスパはPhi-4 14B新アーキテクチャはFalcon Mamba学術再現はOLMo 2 + Tülu 3韓国語はNaver HCXとKakao KananaとLG EXAONE 3.5日本語はELYZAとPLaMoとrinna中国語はQwen・Yi・InternLM・MiniCPM

推論スタックはvLLM・SGLangがGPUサービングの標準llama.cpp・MLX・exllamav2がローカルの標準Together・Fireworks・Groq・DeepInfraがホスティングの標準。ライセンスはApache 2.0 / MITが摩擦なしLlama Community / Gemma Termsが使用ポリシー条件付きMistral Researchが非商用限定

2年前の「オープンソースはクローズドの影」という命題は消えた。2026年春、オープンソースLLMはクローズドと同じ領域で同じベンチマークで同じユーザーに答えを投げている。その答えをどの座標で受けるか — ライセンス、サイズ、ドメイン、インフラが交わるその座標がすなわちワークフローの半分だ。


References