Skip to content

필사 모드: LLM サービング & ローカル推論 2026 — vLLM / llama.cpp / MLX / Ollama / LM Studio / SGLang / TGI 徹底比較

日本語
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 「モデルをどこで動かすか」が再び重要になった

2023 年には誰もが OpenAI API を使っていた。2024 年に Anthropic・Google・Mistral が参入し、問いは「どの API か」だった。2025 年以降、問いは再び **「どこで動かすか」** に戻った。モデルサイズが小さくなり(8B・30B・70B)、量子化が良くなり(Q4_K_M でも実用的)、ノートに 200GB のメモリが搭載され(M4 Max 128GB・M3 Ultra 192GB)、クラウドのトークン価格が週単位で変動するなか、同じモデルを **API・専用サービング・ローカル** のどこで回すかが、コスト・遅延・ガバナンスを決めるようになった。

問題は **選択肢が増えすぎた** ことだ。vLLM・SGLang・TGI・llama.cpp・MLX・llamafile・Ollama・LM Studio・GPT4All・KTransformers・MLC LLM・Triton・TensorRT-LLM・Modular MAX — それぞれ異なる質感を持ち、異なるワークロードに向き、互いに重なってもいる。さらにクラウド側からは Together・Fireworks・Groq・Cerebras・SambaNova・Lepton(NVIDIA が 2025 年に買収)が「API を呼ぶだけで上手に回す」という質感で参入した。

この記事は 2026 年 5 月時点でその地図を描く。誰が何を上手にやるか、どのワークロードにどの陣営が向くか、そして韓国・日本のモデル生態系とどう交わるかまで。

第 1 章 · 2026 年の LLM サービング地図 — 3 陣営

まずは大局。2026 年の LLM サービング・推論市場はおおむね **3 陣営** に分かれる。

陣営 A · データセンター / 高スループットサービング

エンタープライズ・SaaS・研究所の本番サービング。数十〜数千 RPS、複数ユーザ、GPU クラスタ。

- **vLLM** — PagedAttention の事実上の標準

- **SGLang** — 構造的生成と RadixAttention

- **TGI(Text Generation Inference)** — Hugging Face の運用フレンドリーなサーバ

- **NVIDIA Triton + TensorRT-LLM** — NVIDIA エコシステムのフルスタック

- **Modular MAX** — Mojo チームの新陣営

- **KTransformers** — long-context・MoE 最適化

陣営 B · ローカル / シングルユーザ

ノート・ワークステーション・ホームサーバ。1 RPS 未満、シングルユーザ、プライバシー重視。

- **llama.cpp** — C++ コア、GGUF フォーマット、CPU/GPU 二刀流

- **MLX(Apple)** — Apple Silicon 専用

- **llamafile(Mozilla)** — 単一の実行バイナリ

- **Ollama** — llama.cpp をラップした最も簡単なローカル LLM

- **LM Studio** — GUI ファーストのローカル

- **GPT4All** — コミュニティ主導のデスクトップチャット

- **MLC LLM** — モバイル・Web GPU・多様なハードウェア

陣営 C · クラウドサービング SaaS

「モデルを選んで API を呼ぶだけ」— 自前 GPU 運用の負担なし。

- **Together AI** — OSS モデルホスティングの兄貴分

- **Fireworks AI** — 高スループット、強力なカスタムファインチューン

- **Groq** — LPU(Language Processing Unit)自社チップ、超低遅延

- **Cerebras** — wafer スケールエンジン、巨大な単一チップ

- **SambaNova** — RDU 自社チップ

- **Lepton AI** — 2025 年に NVIDIA が買収、NVIDIA のクラウドスタックに統合

各陣営は **異なる前提** の下で作られた。データセンター: 「GPU は高いから稼働率を絞り出そう」。ローカル: 「自分のノートで動かそう」。クラウド SaaS: 「GPU 運用は忘れてトークン単価だけ見よう」。だから同じ問題に見えても、上手に解く人が皆違う。

第 2 章 · vLLM — PagedAttention の標準

**vLLM** は 2023 年に UC Berkeley(Sky Computing Lab)で始まった OSS 推論サーバだ。2024 年に独立 OSS 組織 vLLM Project になり、2025 年からは Linux Foundation 配下の PyTorch Foundation に合流して、**OSS LLM サービングの事実上の基準** になった。

中核の発明は **PagedAttention**。KV cache を OS のページテーブルのようにブロック単位で管理し、メモリの断片化をなくし、複数同時リクエストの KV cache を同じ GPU に効率よく載せられるようにしたのが出発点だ。結果として単純な batching に対し 2〜4 倍のスループットが普通に出る。

2026 年の vLLM の現状:

- **continuous batching** — 異なるトークン位置にあるリクエストが同じバッチに乗る。

- **prefix caching** — 同じシステムプロンプトや few-shot が繰り返される場合に KV を再利用。

- **speculative decoding** — draft model でトークンを先読みし検証。

- **chunked prefill** — 長い prefill を細かく分けて decode と並行。

- **disaggregated serving** — prefill と decode を別の GPU に分離(P/D split)。

- **multi-modal** — vision-language モデルもファーストクラス市民。

- **tool use と structured output** — 関数呼び出しと JSON スキーマ強制。

典型的な vLLM サービング:

pip install vllm

vllm serve meta-llama/Llama-3.3-70B-Instruct \

--tensor-parallel-size 4 \

--max-model-len 32768 \

--enable-prefix-caching \

--enable-chunked-prefill

これで OpenAI 互換 HTTP サーバが 8000 ポートに立ち、クライアントは OpenAI SDK をそのまま使えばよい。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

resp = client.chat.completions.create(

model="meta-llama/Llama-3.3-70B-Instruct",

messages=[{"role": "user", "content": "こんにちは"}],

)

print(resp.choices[0].message.content)

いつ vLLM か: 複数ユーザの本番サービング、OSS モデル、NVIDIA(または AMD ROCm・Intel Gaudi・TPU)GPU が利用可能、スループットとコスト効率が優先。シングルユーザのノートにはオーバーキル。

第 3 章 · llama.cpp — gguf、CPU/GPU 二刀流

**llama.cpp** は Georgi Gerganov が 2023 年に始めた C/C++ 推論エンジンだ。「外部依存なしに 1 つのバイナリで LLM を動かそう」という野心から始まり、2026 年には **ローカル・組み込み LLM 推論のベースレイヤー** になった。Ollama・LM Studio・llamafile・GPT4All のようなユーザフレンドリーなツールはほぼすべて内部で llama.cpp を使っている。

中核の質感:

- **CPU 推論が本当に実用的** — AVX/AVX2/AVX-512・ARM NEON 最適化、M シリーズでは Metal・Accelerate も。

- **GPU バックエンドが豊富** — CUDA・Metal・Vulkan・SYCL・OpenCL・ROCm・Kompute。Vulkan サポートにより事実上ほぼすべての現代 GPU で動く。

- **GGUF フォーマット** — `Q4_K_M`・`Q5_K_M`・`Q8_0`・`IQ3_XXS` など多様な量子化段階、1 ファイルに重み・メタデータ・tokenizer すべてが入る。

- **メモリマップロード** — モデルファイルを mmap で読むため cold start が速く、同じモデルを複数プロセスで共有可能。

`llama-server` で OpenAI 互換サーバを立てられる。

./llama-server \

--model models/Llama-3.3-70B-Q4_K_M.gguf \

--n-gpu-layers 99 \

--ctx-size 8192 \

--host 0.0.0.0 --port 8080

2026 年の llama.cpp の長所・短所:

- 長所: どこでも動く、量子化の標準 GGUF が豊富、依存がほぼゼロ(C++ のみ)、モバイル・組み込みにも入る、コミュニティが量子化バリアントや perf パッチを速く出す。

- 短所: 複数ユーザのスループットでは vLLM/SGLang に劣る(リクエスト batching が後発・素朴)、MoE や long-context 最適化は KTransformers/vLLM の方が速い。

いつ llama.cpp か: 個人・少人数ローカル、組み込み・エッジ、GGUF 量子化を活用したい、「1 バイナリで終わらせたい」質感。

第 4 章 · MLX(Apple) — Apple Silicon 推論

**MLX** は 2023 年 12 月に Apple ML Research が公開した OSS の配列・機械学習フレームワークだ。NumPy + PyTorch に似た API を持ち、**Apple Silicon の unified memory をファーストクラス市民として扱う**。M1/M2/M3/M4 シリーズでは CPU と GPU が同じメモリを見て、MLX はその上でデータコピーなしに計算を流す。

2026 年の MLX の現状:

- **mlx-lm** — Hugging Face Hub のモデルを 1 行で取得して推論・ファインチューン。

- **MoE・long-context 加速** — Mistral・Qwen・Llama 系の MoE モデルが速く動く。

- **量子化** — 4-bit・8-bit・6-bit・grouped quantization が組み込み。

- **分散** — 複数の Mac を束ねて大きなモデルを推論(MLX distributed)。M3 Ultra 192GB 2 台で 405B モデルを動かす、のように。

- **mlx-vlm** — vision-language モデル対応。

典型的な MLX の使い方:

pip install mlx mlx-lm

mlx_lm.generate \

--model mlx-community/Llama-3.3-70B-Instruct-4bit \

--prompt "Apple Silicon で LLM を動かす理由は" \

--max-tokens 200

Python から直接:

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Llama-3.3-70B-Instruct-4bit")

text = generate(model, tokenizer, prompt="こんにちは", max_tokens=200)

print(text)

なぜ MLX がますます重要か:

- **M3 Ultra 192GB・M4 Max 128GB** が 70B〜405B モデルを量子化後に収められるノート・デスクトップとして定着した。NVIDIA H100 80GB 1 枚に入らないモデルが unified memory には入る。

- **開発者ノートで prototype → サーバへ移住** — MLX で作り、同じ GGUF や別フォーマットで vLLM/llama.cpp サーバに載せるワークフローが普及。

- **ファインチューンが可能** — LoRA/QLoRA が Apple Silicon で動く。CUDA なしで本当にファインチューンができる。

短所: Apple Silicon 専用。複数ユーザのサービングは vLLM ほど洗練されていない。

いつ MLX か: Mac でのローカル LLM 開発・ファインチューン・prototype、M シリーズのノート・デスクトップに縛られたワークロード。

第 5 章 · llamafile(Mozilla) — 単一バイナリ

**llamafile** は 2023 年 11 月に Mozilla(Mozilla Innovation Group)が公開したプロジェクトだ。中核アイデア: **モデルの重み + 推論エンジン + tokenizer を 1 つの実行ファイルに束ね、どの OS・CPU アーキでもダブルクリックで動く LLM** を作る。

技術的トリックは Justine Tunney(Cosmopolitan libc も同じ人)が書いた **Actually Portable Executable(APE)** フォーマットだ。1 つのファイルが Linux 上は ELF、macOS 上は Mach-O、Windows 上は PE として動き、さらに FreeBSD/OpenBSD/NetBSD でも動く。そこに llama.cpp 推論エンジンと GGUF の重みを束ねた。

典型的な使い方:

curl -L -o llava-v1.5.llamafile \

https://huggingface.co/Mozilla/llava-v1.5-7B-llamafile/resolve/main/llava-v1.5-7b-q4.llamafile

chmod +x llava-v1.5.llamafile

./llava-v1.5.llamafile

これで OpenAI 互換 HTTP サーバが立ち、同じファイルを Mac/Linux/Windows に移してもそのまま動く。2026 年現在も Mozilla が LLaMA・Mistral・Phi・Gemma・Qwen など主要 OSS モデルの llamafile バリアントを Hugging Face に出し続けている。

なぜ llamafile が意義深いか:

- **配布の摩擦をほぼゼロ** にした — 非技術者・教室・オフライン環境・「一度ダウンロードしてネットを切って使う」に本当に良い。

- **アーカイブ的意味** — 5 年後も同じファイルが動く見込み(APE フォーマット + 自己完結する重み)。

- **CPU 推論も最適化** — Justine Tunney が SIMD matmul カーネルを手書きしたため、同じモデルが普通の llama.cpp より CPU で速いことが多い。

短所: 単一ファイルサイズの制限(以前は 4GB、2024 年以降は ZipAlign・外部重みで回避)、本番サービングは質感が違う。

いつ llamafile か: 非技術者ユーザに LLM を「渡す」状況、オフライン配布、教室・ワークショップ、アーカイブ。

第 6 章 · Ollama — 最も簡単なローカル LLM

**Ollama** は 2023 年 6 月に始まったローカル LLM ランタイムだ。内部では llama.cpp を使うが、**Docker のように綺麗な UX**(モデルを `pull`・`run`・`push`、Modelfile でカスタマイズ)を被せ、2026 年現在 **ローカル LLM の事実上のデフォルトエントリポイント** になった。

インストール(Mac/Linux/Windows)

curl -fsSL https://ollama.com/install.sh | sh

モデルを取得してすぐチャット

ollama run llama3.3

バックエンドサーバモード

ollama serve

別のターミナルから API 呼び出し

curl http://localhost:11434/api/generate -d '{

"model": "llama3.3",

"prompt": "こんにちは",

"stream": false

}'

2026 年の Ollama の現状:

- **OpenAI 互換エンドポイント** — `/v1/chat/completions` も同時に立ち、既存クライアントコードが差し替えられる。

- **Modelfile** — Dockerfile のような形式でシステムプロンプト・温度・LoRA を束ね「自分のモデル」にできる。

- **GGUF 直接インポート** — Hugging Face の任意の GGUF を持ってこられる。

- **multi-modal** — LLaVA・MoonDream・Llama 3.2 Vision のような vision モデル対応。

- **GPU 自動検出** — Metal・CUDA・ROCm を自動で拾う。

- **Ollama Cloud** — 2025 年からクラウドホスティングも開始 — ローカルで始め、負荷が増えたらクラウドへ。

魅力はシンプルさだ。「Mac にインストールして 5 分以内に量子化された 70B モデルとチャット」が本当に成立する。結果として LangChain・LlamaIndex・n8n・VS Code 拡張など、ほぼすべての OSS LLM ツールが「Ollama 互換」をデフォルトで備えている。

短所: 複数ユーザのスループット・高度な batching は vLLM/SGLang に劣る。Modelfile DSL が薄い。モデルライブラリが Ollama Hub に寄りがち(GGUF インポートは可能)。

いつ Ollama か: 個人のノート・ホームサーバ・「5 分で始めたい」とき、OSS ツールとの即時連携。

第 7 章 · LM Studio / GPT4All — GUI オプション

CLI よりも GUI を好むユーザのための陣営。

LM Studio

2023 年に始まったデスクトップアプリ(Mac/Windows/Linux)。モデル検索・ダウンロード・チャット・サーバモードが 1 つの .app に収まる。Hugging Face Hub から GGUF モデルを検索・フィルタ・ダウンロードし、チャット UI でそのまま使うか、OpenAI 互換のローカルサーバを立てるかができる。

2026 年の LM Studio:

- **llama.cpp + MLX バックエンド** — Apple Silicon では MLX、それ以外では llama.cpp。

- **モデル互換性表示** — RAM/VRAM に収まるかをモデルカードに事前表示。

- **ローカルサーバ** — 1 トグルで OpenAI 互換サーバ。

- **multi-model loading** — 一度に複数モデルロード。

- **structured output・tool use** — JSON スキーマ・function calling。

ライセンス変更で商用利用が無料になった(個人・企業ともに)ため、社内デモ・POC で頻繁に使われる。

GPT4All

2023 年初頭に Nomic AI が始めた OSS プロジェクト。デスクトップアプリ + Python SDK + モデルライブラリ。「どんなノートでも動く LLM」をモットーに、CPU 推論と小モデル(3B・7B・13B)に強い。ローカル文書検索(LocalDocs)のような RAG 機能がデスクトップアプリに統合されている。

2026 年の GPT4All:

- デスクトップ chat UX が綺麗で、Windows・Mac・Linux で均等に磨かれている。

- 企業向け GPT4All Enterprise(有料)で社内配備ツールを併売。

- 「Nomic Atlas」の embedding・可視化と結びついた質感。

LM Studio と GPT4All の 1 行比較: LM Studio は「Hugging Face モデル探索に強い GUI」、GPT4All は「デスクトップ chat + LocalDocs RAG に強い GUI」。

いつ GUI か: 非技術者ユーザ、デモ・教育・社内ツール、「マウスで完結したい」とき。

第 8 章 · SGLang — 構造的生成

**SGLang** は LMSYS・UCB・Stanford 共同で 2024 年初頭に公開された推論システムだ。vLLM と同じ「高スループットサービング」陣営だが、**構造的生成** と **RadixAttention** という 2 枚のカードを持って入ってきた。

RadixAttention

PagedAttention が「メモリ断片化」を解いたとすれば、RadixAttention は **複数リクエスト間の prefix を radix tree で共有する**。同じシステムプロンプトを使う 1000 リクエストがあれば、その部分の KV cache は 1 回だけ計算され自動的に共有される。agentic ワークロード(同じツール仕様や few-shot が繰り返される)で効果が大きい。

Frontend DSL — 構造的生成

SGLang は Python DSL で LLM 呼び出しを書くが、**分岐・反復・並列・制約** がファーストクラスだ。

@sgl.function

def multi_turn_question(s, question):

s += sgl.system("You are a helpful assistant.")

s += sgl.user(question)

s += sgl.assistant(sgl.gen("answer", max_tokens=256))

s += sgl.user("Was that answer correct?")

s += sgl.assistant(sgl.gen("verification", choices=["yes", "no"]))

state = multi_turn_question.run(question="What is the capital of France?")

print(state["answer"], state["verification"])

`sgl.gen(..., choices=...)` や JSON スキーマ制約は backend で constrained decoding により強制される。つまりモデルが「yes」/「no」以外のトークンを出せない。

2026 年の SGLang の強み:

- **agentic・tool-calling ワークロードでは vLLM 比のスループット優位がしばしば観測される**(ベンチマークはワークロード依存)。

- **DeepSeek・Qwen・Llama などの MoE モデル最適化** が速く入ってくる。

- **OpenAI 互換サーバ** も併せて提供され、既存クライアント互換。

- **disaggregated serving・speculative decoding** も最近入った。

いつ SGLang か: structured output・tool use がヘビーなワークロード、prefix が頻繁に共有される agentic サービング、vLLM と一緒に候補にして自分のワークロードでベンチ。

第 9 章 · TGI(Hugging Face) — 運用フレンドリー

**TGI(Text Generation Inference)** は Hugging Face が作った推論サーバだ。2022 年末に始まり、2026 年には vLLM/SGLang ほど学術的話題性はないが、**運用フレンドリー** な機能で地位を確立した。

- **Hugging Face Hub と直結** — `--model-id` 1 行で Hub のモデルを取得・サーブ。

- **OpenAI 互換 + Messages API** — 標準インターフェース。

- **continuous batching・flash attention・paged KV** — 中核の加速はすべて入っている。

- **safetensors・BitsAndBytes・AWQ・GPTQ・EETQ・FP8** — 量子化対応が広い。

- **Hugging Face Inference Endpoints のバックエンド** — ホスティングサービスをそのままセルフホストするという質感。

- **Grafana メトリクス・OpenTelemetry trace** 組み込み。

docker run --gpus all -p 8080:80 \

-v $PWD/models:/data \

ghcr.io/huggingface/text-generation-inference:latest \

--model-id meta-llama/Llama-3.3-70B-Instruct \

--quantize bitsandbytes-nf4

ライセンスは 2024 年に一時 HFOIL に制限されたあと、Apache 2.0 に戻った経緯がある。2026 年現在は再び自由な OSS。

いつ TGI か: Hugging Face Hub への依存が強いチーム、Hugging Face Endpoints とのモード統一、「運用メトリクス・標準 docker コンテナ」の質感を好むとき。

vLLM/SGLang vs TGI を 1 行で: 学術的な加速イノベーションは vLLM/SGLang から先に出て、TGI の強みは「運用化」。

第 10 章 · KTransformers(Tsinghua) — long-context 最適

**KTransformers** は清華大学(Tsinghua University)MADSys 研究室から 2024 年に公開された推論フレームワークだ。焦点は明確 — **コンシューマ GPU 1 枚で巨大 MoE モデルを動かすこと**。

中核のトリック:

- **expert offloading** — MoE モデルの expert 重みを CPU RAM に置き、活性化されたときだけ GPU に持ってくる。

- **CPU SIMD 加速(AMX・AVX-512)** — sparse activation を CPU で効率的に回す。

- **long-context 最適化** — chunked prefill と local-global attention の組み合わせ。

- **DeepSeek・Qwen MoE 特化** — 671B DeepSeek-V3/R1 級モデルを 24GB のコンシューマ GPU + 大容量 RAM(192GB〜512GB)で動かすデモが話題になった。

DeepSeek-V3 を RTX 4090 + 大きなシステム RAM で

git clone https://github.com/kvcache-ai/ktransformers

cd ktransformers

pip install -e .

python -m ktransformers.local_chat \

--model_path /path/to/DeepSeek-V3-GGUF \

--gguf_path /path/to/DeepSeek-V3-GGUF \

--cpu_infer 32

なぜ KTransformers が意義深いか:

- 2025 年の DeepSeek-V3/R1、2026 年の Qwen3-MoE のような巨大 MoE モデルが OSS で出てきて、**これを個人がどう動かすか** が実際の課題になった。KTransformers はその答えの一つ。

- **GPU 1 枚 + 大容量 RAM** の組み合わせで H100 クラスタなしに巨大モデルを動かす。

短所: 複数ユーザサービング・スループットは vLLM の方が良い。インストール・チューニングの学習コストがある。

いつ KTransformers か: 巨大 MoE モデルをシングルユーザで動かしたいが GPU クラスタがないとき、long-context ワークロード。

第 11 章 · NVIDIA Triton + TensorRT-LLM — データセンター標準

NVIDIA 陣営のフルスタック。この 2 つは一対のように一緒に使われることが多い。

TensorRT-LLM

NVIDIA の OSS LLM 推論ライブラリ。PyTorch モデルを **TensorRT エンジン**(NVIDIA 専用 IR)にコンパイルし、FP16・INT8・INT4・FP8・NVFP4 のような NVIDIA が推す精度で加速する。Hopper(H100/H200)や Blackwell(B100/B200・GB200)の新命令を素早く活用するのが強み。

- **in-flight batching・paged KV・speculative decoding・chunked prefill** — vLLM の加速はすべてある。

- **FP8/FP4 加速** — Hopper/Blackwell で大きなスループット向上。

- **multi-GPU・multi-node** — Tensor・Pipeline・Expert parallel すべてフル対応。

Triton Inference Server

NVIDIA の汎用推論サーバ。LLM だけでなく vision・tabular・custom モデルまで multi-framework で 1 つのサーバから出す。TensorRT-LLM バックエンド経由で LLM サービングモードで使うこともでき、**TensorRT-LLM の OpenAI 互換サーバ**(`trtllm-serve`)を直接立てることもできる。

モデルを TensorRT-LLM エンジンにビルド

trtllm-build --checkpoint_dir ./llama3-70b \

--output_dir ./engines/llama3-70b \

--gemm_plugin auto \

--max_batch_size 32

trtllm-serve で起動(OpenAI 互換)

trtllm-serve ./engines/llama3-70b --port 8000

vLLM vs TensorRT-LLM を 1 行で: vLLM は OSS、多様な GPU(NVIDIA・AMD・Intel・TPU)対応、入りやすい。TensorRT-LLM は NVIDIA 専用だが NVIDIA GPU の最後の一滴まで絞り出す(特に FP8/FP4)。本番ではこの 2 つを並べて自分のワークロードでベンチするチームが多い。

いつ TensorRT-LLM/Triton か: NVIDIA Hopper/Blackwell GPU クラスタ、本番でスループット・レイテンシが絶対的、運用チームが NVIDIA エコシステムに慣れている。

第 12 章 · Modular MAX(Mojo チーム) — 新陣営

**Modular** は Chris Lattner(LLVM・Swift・Clang の原作者)が 2022 年に創業した会社だ。**Mojo**(Python 互換を狙う高性能システム言語)と **MAX**(Modular Accelerated Xecution、AI 推論プラットフォーム)を作る。2024 年から MAX の OSS 化を始め、2026 年には **NVIDIA・AMD・Intel・Apple まで同じ 1 つのグラフコンパイラで推論する** という質感で位置づいた。

中核アイデア:

- **Mojo で書かれたカーネル** — Python のように書いて C/CUDA レベルの性能。matmul や attention のような中核カーネルを Mojo で書くと複数アクセラレータにコンパイル可能。

- **MAX Engine** — グラフコンパイラ。PyTorch/ONNX モデルを受け、NVIDIA/AMD/Apple GPU に最適化。

- **MAX Serve** — OpenAI 互換 LLM サーバ。

- **ハードウェア lock-in 解消** — 「CUDA なしでも NVIDIA GPU で速く」がスローガン。

pip install modular

max serve --model-path meta-llama/Llama-3.3-70B-Instruct

2026 年の Modular の位置:

- **NVIDIA・AMD GPU の両方で vLLM 競合圏のスループット** が一部ワークロードで出始めた。

- 一部クラウド(Lambda・かつての Lepton)でバックエンド採用。

- 学術・OSS コミュニティでの採用は vLLM/SGLang ほどではないが、**「Mojo + MAX」が次世代陣営として認知されている**。

短所: Mojo の OSS 化が段階的でコミュニティはまだ小さい。モデル互換性・機能幅は vLLM の方が広い。

いつ MAX か: AMD GPU で vLLM の ROCm バックエンドより速い道を探したいとき、Mojo 生態系を早期採用したいとき、NVIDIA 一辺倒の lock-in を避けたいとき。

第 13 章 · 量子化 — GGUF / AWQ / GPTQ / FP8

サービングフレームワークを選ぶ際に切り離せない 1 つの軸が **量子化フォーマット** だ。2026 年現在の主流 5 つ。

GGUF(llama.cpp 系)

- llama.cpp が作った統合フォーマット。重み + メタデータ + tokenizer を 1 ファイル。

- 量子化段階が豊富 — `Q2_K`・`Q3_K_S/M/L`・`Q4_K_S/M`・`Q5_K_S/M`・`Q6_K`・`Q8_0`・`IQ2_XXS`・`IQ3_XXS`・`IQ4_XS`。

- 実務推奨: 7B〜70B では `Q4_K_M` が品質・サイズのスイートスポットという合意が多い。より小さくは `IQ3_XXS`(2〜3-bit imatrix)、より大きくは `Q5_K_M`・`Q6_K`。

- どこで動くか: llama.cpp・Ollama・LM Studio・llamafile・KTransformers。

AWQ(Activation-aware Weight Quantization)

- 2023 年 MIT Han Lab 論文。activation 分布を見て重要な重みを保持しつつ 4-bit に量子化。

- 品質維持が良いと評価され、GPU 推論に最適化されている。

- どこで: vLLM・SGLang・TGI・TensorRT-LLM すべてが AWQ をファーストクラスでサポート。

GPTQ

- 2022 年 ETH Zürich 論文。layer-wise OBS(Optimal Brain Surgeon)で 4-bit 量子化。

- AWQ より早く出て一時は標準だった。2026 年には AWQ にシェアの一部を譲った雰囲気だが、今も広く使われる。

- どこで: vLLM・SGLang・TGI・AutoGPTQ。

FP8

- 8-bit 浮動小数点。Hopper(H100)・Ada(L40S)で初めてハードウェアとして入り、Blackwell では FP4 まで。

- 「量子化」と呼ばれるが、**訓練に近い数値精度** を保つと評される。大規模本番でスループットが大幅に上がる。

- どこで: TensorRT-LLM・vLLM・SGLang の FP8 経路。

NVFP4 / MXFP4

- 2024〜2025 年に NVIDIA・OCP(Open Compute)で標準化された 4-bit 浮動小数点。Blackwell GPU の新命令と結びつく。

- 2026 年には一部の本番モデルが NVFP4/MXFP4 サービングへ移り始めた。

**1 行のおすすめ**:

- ノート・ローカル → GGUF `Q4_K_M`

- vLLM/SGLang に OSS 70B を載せるとき → AWQ 4-bit(または GPTQ)

- H100 本番 → FP8

- B100/B200 → NVFP4 / FP8 ミックス

第 14 章 · クラウドサービング SaaS — Together / Fireworks / Groq / Cerebras / Lepton

自前 GPU 運用が負担のチームのための陣営。**OSS モデルを 1 つの API で呼ぶ** 質感。

Together AI

OSS モデルホスティングの兄貴分。Llama・Mistral・Qwen・DeepSeek など 200+ モデルを OpenAI 互換 API で。ファインチューン・dedicated endpoint・dedicated deployment まで。学術との協業(RedPajama や Stripedhyena などのモデル共同学習)も強み。

Fireworks AI

高スループットと関数呼び出し・structured output 品質で評価されている。自社学習・ファインチューンツールも強力。Mixture-of-Experts と long-context に最適化された推論スタックを併売。

Groq

自社チップ **LPU(Language Processing Unit)**。巨大 SRAM・決定論的(deterministic)実行で同じモデルを **圧倒的低遅延**(秒間数百トークン)でサーブ。OSS Llama・Mixtral が中心、モデル幅は限定的だが速度ではほぼ常にトップ候補。

Cerebras

**wafer スケールエンジン** — ウェハ 1 枚が 1 チップ(WSE-3 で約 4 兆トランジスタ)。巨大な単一チップなので H100 クラスタ比でモデル分割・通信オーバヘッドが少ない。inference cloud で高速スループットを謳い、一部の政府・研究所用の巨大学習にも使われる。

SambaNova

自社チップ **RDU(Reconfigurable Dataflow Unit)**。データフロー アーキテクチャで LLM の dense・sparse ワークロードに最適。エンタープライズ・政府市場が中心。

Lepton AI(NVIDIA 買収、2025)

Jia Yangqing(Caffe の原作者、Meta・Alibaba)らが創業したクラウド推論プラットフォーム。NVIDIA が 2025 年に買収し、**NVIDIA のクラウド生態系における推論レイヤー** に入った。NVIDIA DGX Cloud・NIM(NVIDIA Inference Microservices)と統合され、「NVIDIA が直接運用する OSS モデル推論」の質感で定着しつつある。

1 行比較

- 最速(低遅延) → **Groq**(または Cerebras)

- OSS モデル幅最大 → **Together**

- ファインチューン・structured output 品質 → **Fireworks**

- 巨大モデル単一チップ → **Cerebras**・**SambaNova**(エンタープライズ)

- NVIDIA 生態系統合 → **Lepton(NVIDIA)** + NIM

第 15 章 · 韓国 / 日本 — Upstage Solar / KT Mi:dm / Sakana / NTT つづみ / ELYZA

英語圏モデルだけ見ていると半分を見落とす。韓国・日本の OSS・半 OSS モデル陣営も 2026 年に確固たる位置を得た。

韓国

- **Upstage Solar** — Upstage が作る Solar シリーズ(Solar 10.7B・Pro モデルなど)。小サイズで韓国語・英語両方の性能が良いと評価され、MoE・long-context バリアントが活発。Hugging Face との協業、AWS Marketplace 進出など enterprise チャネルを強くつかんだ。

- **KT Mi:dm(믿:음)** — KT が作る韓国語大規模モデル。2024 年から公開・拡張され、2026 年には数十億パラメータの韓国語特化ラインナップで定着。政府・金融・通信のような規制産業で on-prem 採用が増えている。

- **NAVER HyperCLOVA X** — 直接の OSS は限定的だが、NAVER Cloud Platform と束ねられ韓国エンタープライズ市場の大きな軸。multi-modal や HCX-DASH のような小型バリアントも活発。

- **LG ExaOne** — LG AI Research の ExaOne ラインナップ。一部バリアントが Hugging Face で OSS 公開。

これらのモデルは **vLLM・SGLang・llama.cpp** の fork やブランチで、韓国語 tokenizer や specific カーネル向けのパッチと共に回っている。OSS 互換性はモデルごとに異なり、ライセンス(研究用・商用限定・完全 OSS)も分かれるので導入前にライセンス確認は必須。

日本

- **Sakana AI** — David Ha・Llion Jones(Transformer 共同著者)らが創業。「evolutionary model merging」で知られるラインナップ、日本語特化小型モデルや vision モデルを OSS で公開。2025 年 NVIDIA・政府支援とともに日本 AI ラインの象徴的企業。

- **NTT つづみ** — NTT の日本語特化 LLM。on-prem・国内データ residency のようなガバナンス要求が大きい政府・通信市場で採用。

- **ELYZA** — 東京大学発スタートアップ。Llama・Qwen など OSS ベースに日本語 continued pretraining を施し、ELYZA-japanese-Llama など OSS シリーズを継続的に公開。2024 年に KDDI 子会社化後も OSS ラインを維持。

- **Preferred Networks PLaMo** — PLaMo 100B のような日本発 OSS ベースモデルライン。

運用観点では韓・日のモデルは概ね **ローカルサービング(llama.cpp・Ollama・vLLM)** と **OSS ホスティング(Together・Fireworks ほか各地のクラウド)** どちらでも動く GGUF・safetensors バリアントを一緒に出すのが標準になった。政府・銀行のような規制産業は **on-prem vLLM/TGI** がほぼデフォルトの選択。

第 16 章 · 誰が何を選ぶべきか

これまでの 12 陣営を **状況別の推奨** にまとめる。

個人 / 趣味

- **Mac ノート** → MLX または LM Studio(MLX バックエンド)。量子化は `Q4_K_M` または 4-bit MLX。

- **Windows/Linux ノート** → Ollama または LM Studio。量子化は GGUF。

- **5 分で始める** → Ollama の 1 行インストール。

- **GUI 派** → LM Studio。

- **非技術者に渡す** → llamafile。

スタートアップ(10〜50 名)

- **API から始め、コスト爆発時に自前サービングへ** — 最初は Together・Fireworks・OpenAI・Anthropic の API。トークンコストが月 5,000 ドルを超えたら vLLM セルフホストを比較。

- **セルフホスト開始点** → vLLM on AWS/GCP/Azure GPU(H100・L40S)。OSS モデルは AWQ・FP8。

- **agentic・tool use ヘビー** → SGLang を候補に。

- **ローカル prototype + クラウド本番** → Mac で MLX/Ollama で作り、同じモデルを vLLM サーバに載せて本番。

エンタープライズ(規制産業・金融・政府)

- **on-prem サービング** → vLLM または TGI。NVIDIA Triton + TensorRT-LLM も NVIDIA ラインなら。

- **韓国語特化** → Upstage Solar / KT Mi:dm / HyperCLOVA X on vLLM。

- **日本語特化** → ELYZA / Sakana / つづみ on vLLM または NTT 内部スタック。

- **運用メトリクス・標準化** → TGI または Triton(既に NVIDIA)。

- **モデル多様性(LLM + vision + tabular)** → Triton(multi-framework)。

データセンター / ハイパースケール

- **NVIDIA H100/B100 フルスタック** → TensorRT-LLM + Triton(あるいは trtllm-serve)。FP8/NVFP4。

- **OSS ファースト・多様なアクセラレータ** → vLLM(NVIDIA・AMD・Intel・TPU 同時対応)。

- **structured / agentic** → SGLang。

- **シングルユーザ巨大 MoE** → KTransformers。

ハードウェア lock-in 回避

- **NVIDIA・AMD・Apple まで一緒に** → vLLM(幅広い)または Modular MAX(コンパイラ)。

- **Apple のみ** → MLX。

- **CPU 中心 / 組み込み** → llama.cpp。

エピローグ — モデルはコモディティになり、インフラが差別化要因

2023 年には「どのモデルを使うか」が問いだった。2026 年には **「どこで、どう動かすか」** が問いだ。モデルは豊富になり(OSS 70B・MoE 巨大モデルまで)、価格は時間単位で変動し、量子化品質は 1 年前とは別水準になり、GPU 1 枚がノートに刺さる時代になった。

この記事の結論はシンプルだ — **自分のワークロードで直接ベンチせよ**。スループット・遅延・コスト・運用複雑さはワークロードごとに違って出るので、推奨より測定が常に正しい。そして、その測定のための 12 陣営が 2026 年にすべて OSS で揃っているということが、もしかするとこの記事の本当のメッセージかもしれない。

今やるべきは GPU を速く回すことではなく、**どの陣営が自分たちの問題に合うかを 1 週間以内に決めること** だ。

参考 / References

- vLLM — [github.com/vllm-project/vllm](https://github.com/vllm-project/vllm) / [docs.vllm.ai](https://docs.vllm.ai/)

- vLLM PagedAttention 論文 — ["Efficient Memory Management for Large Language Model Serving with PagedAttention"](https://arxiv.org/abs/2309.06180)

- llama.cpp — [github.com/ggerganov/llama.cpp](https://github.com/ggerganov/llama.cpp)

- MLX(Apple) — [github.com/ml-explore/mlx](https://github.com/ml-explore/mlx) / [ml-explore.github.io/mlx](https://ml-explore.github.io/mlx/build/html/index.html)

- mlx-lm — [github.com/ml-explore/mlx-lm](https://github.com/ml-explore/mlx-lm)

- llamafile(Mozilla) — [github.com/Mozilla-Ocho/llamafile](https://github.com/Mozilla-Ocho/llamafile)

- Justine Tunney "LLaMA Now Goes Faster on CPUs" — [justine.lol/matmul](https://justine.lol/matmul/)

- Ollama — [ollama.com](https://ollama.com/) / [github.com/ollama/ollama](https://github.com/ollama/ollama)

- LM Studio — [lmstudio.ai](https://lmstudio.ai/)

- GPT4All(Nomic AI) — [gpt4all.io](https://www.nomic.ai/gpt4all) / [github.com/nomic-ai/gpt4all](https://github.com/nomic-ai/gpt4all)

- SGLang — [github.com/sgl-project/sglang](https://github.com/sgl-project/sglang) / [lmsys.org/blog/2024-01-17-sglang](https://lmsys.org/blog/2024-01-17-sglang/)

- TGI(Hugging Face) — [github.com/huggingface/text-generation-inference](https://github.com/huggingface/text-generation-inference)

- KTransformers(Tsinghua) — [github.com/kvcache-ai/ktransformers](https://github.com/kvcache-ai/ktransformers)

- MLC LLM — [github.com/mlc-ai/mlc-llm](https://github.com/mlc-ai/mlc-llm) / [llm.mlc.ai](https://llm.mlc.ai/)

- NVIDIA TensorRT-LLM — [github.com/NVIDIA/TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM)

- NVIDIA Triton Inference Server — [github.com/triton-inference-server/server](https://github.com/triton-inference-server/server)

- Modular MAX — [docs.modular.com/max](https://docs.modular.com/max/) / [modular.com](https://www.modular.com/)

- AWQ paper — ["AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration"](https://arxiv.org/abs/2306.00978)

- GPTQ paper — ["GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers"](https://arxiv.org/abs/2210.17323)

- FP8 Formats for Deep Learning — [arxiv.org/abs/2209.05433](https://arxiv.org/abs/2209.05433)

- Together AI — [together.ai](https://www.together.ai/)

- Fireworks AI — [fireworks.ai](https://fireworks.ai/)

- Groq — [groq.com](https://groq.com/)

- Cerebras — [cerebras.ai](https://www.cerebras.ai/)

- SambaNova — [sambanova.ai](https://sambanova.ai/)

- Lepton AI(NVIDIA 買収、2025) — [news.crunchbase.com Lepton coverage](https://news.crunchbase.com/ai/nvidia-acquires-lepton-jia/) / [lepton.ai](https://www.lepton.ai/)

- NVIDIA NIM — [nvidia.com/en-us/ai/](https://www.nvidia.com/en-us/ai/)

- Upstage Solar — [upstage.ai](https://www.upstage.ai/) / [huggingface.co/upstage](https://huggingface.co/upstage)

- KT Mi:dm — [kt.com AI](https://www.kt.com/) / [huggingface.co/KT-AI](https://huggingface.co/KT-AI)

- NAVER HyperCLOVA X — [clova.ai](https://clova.ai/) / [ncloud.com HyperCLOVA X](https://www.ncloud.com/product/aiService/clovastudio)

- LG ExaOne — [lgresearch.ai exaone](https://www.lgresearch.ai/exaone) / [huggingface.co/LGAI-EXAONE](https://huggingface.co/LGAI-EXAONE)

- Sakana AI — [sakana.ai](https://sakana.ai/)

- NTT つづみ — [group.ntt tsuzumi](https://group.ntt/en/newsrelease/2023/11/01/231101a.html)

- ELYZA — [elyza.ai](https://elyza.ai/) / [huggingface.co/elyza](https://huggingface.co/elyza)

- Preferred Networks PLaMo — [preferred.jp](https://www.preferred.jp/en/) / [huggingface.co/pfnet](https://huggingface.co/pfnet)

현재 단락 (1/325)

2023 年には誰もが OpenAI API を使っていた。2024 年に Anthropic・Google・Mistral が参入し、問いは「どの API か」だった。2025 年以降、問いは再び ...

작성 글자: 0원문 글자: 22,040작성 단락: 0/325