필사 모드: ローカルAI & オンデバイスLLM 2026 完全ガイド — Ollama · LM Studio · Jan · Msty · Open WebUI · GPT4All · AnythingLLM · Faraday 徹底解説
日本語第1章 · なぜ2026年のローカルAIなのか
3年前、「ローカルLLM」と言えば7Bモデルを4-bit量子化してRTX 3090に押し込み、GPT-3.5の半分くらいの品質が得られる趣味の世界だった。2026年5月の風景は全くの別物だ。
- **M4 Max MacBook Pro 128GBモデル**でLlama 4 Scout 109B MoEが毎秒24トークン動く
- **RTX 5090 24GB**はDeepSeek R1 Distill 32Bを毎秒12トークンで処理する
- **iPhone 16 Pro**はApple Intelligenceの3BモデルをOSが自動的に呼び出す
- **Snapdragon X Elite**ノートはPhi Silica 3.8BをNPUで動かす
ローカルAIが魅力的な4つの理由はシンプルだ。
1. **プライバシー** — 入力が会社の外に出ない。GDPR、HIPAA、韓国PIPA、日本のAPPI、すべて解決
2. **コスト** — APIの請求書がない。電気代だけだ(それもノートなら無視できる)
3. **オフライン** — 飛行機、地下、カフェWi-Fi — インターネットなしでも動く
4. **実験** — 新モデルが発表されたら5分以内に試せる。fine-tuning、LoRA、RAGも自由
本稿は2026年5月時点、**デベロッパがデスクトップ / ノート / モバイルでLLMを動かそうとするとき知るべきすべて**を整理する。ランタイム、GUI、バックエンド、量子化フォーマット、推奨モデル、運用ノウハウまで。
第2章 · ハードウェア — VRAMとユニファイドメモリの時代
ローカルLLMの最初の関門はメモリだ。一般的なガイドライン。
| モデルサイズ | 精度 | 推奨VRAM/RAM | 備考 |
| --- | --- | --- | --- |
| 3B | INT4 | 4GB | モバイル / 低スペックノート |
| 7B | INT4 (Q4_K_M) | 8GB | RTX 3060、M1/M2 8GB |
| 7B | INT8 | 12GB | RTX 3060 12GB、M2 16GB |
| 13B | INT4 | 12〜14GB | RTX 4070、M2 24GB |
| 32B | INT4 | 22〜24GB | RTX 4090、M3 Max 36GB |
| 70B | INT4 | 42〜48GB | RTX 5090デュアル、M2 Ultra 64GB |
| 70B | INT8 | 80GB+ | A100 80GB、M3 Ultra 192GB |
| 405B | INT4 | 240GB+ | マルチGPUノード、M3 Ultra 192GB 2台クラスタリング |
NVIDIA vs Apple Silicon
NVIDIA陣営は**PCIe + GDDR**が強み。トークン生成がGPU単独なので速度が圧倒的。RTX 5090は32GB GDDR7で32Bモデル推論におけるトークンあたり遅延が最短だ。
一方Apple Siliconは**ユニファイドメモリ(Unified Memory)**が武器。M3 Ultra Mac Studioは192GB UMAで70Bモデルを16-bitでも動かす。NVIDIAで同等構成にはH100 80GBが2枚必要だ(価格比較自体が成り立たない)。
- **M4 Max 128GB** — 109B MoEモデルまで — 約7,000USD
- **M3 Ultra 192GB** — 70BモデルBF16 — 約9,500USD
- **RTX 5090 24GB** — 32BモデルQ4 — 約2,200USD + 別途システム
選択基準は明快だ。**70B+モデルを頻繁に動かしノートで使うならMac**、**32B以下 + コスパ + ゲーム兼用ならNVIDIA**。
第3章 · Ollama — 最も愛されるローカルランタイム
[Ollama](https://ollama.com/)は2023年Y Combinator W24バッチ出身の会社だ。MITライセンス、llama.cppの上に乗せたCLI / REST API + モデルレジストリが核。2026年5月時点でGitHubスター145,000+。
インストールと初実行
macOS
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
デーモン起動
ollama serve
モデルのダウンロード & 実行
ollama run llama3.3:70b-instruct-q4_K_M
7Bを素早く
ollama run qwen2.5:7b-instruct
`ollama run`の1行でモデルダウンロード → 量子化抽出 → 推論サーバー起動 → チャット開始。他のランタイムが5ステップでやることを1行でやる。
Modelfile — Dockerfileのようなモデル定義
FROM llama3.3:70b-instruct-q4_K_M
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM """
あなたは韓国語データエンジニアリングアシスタントです。SQLとPySparkを優先します。
"""
ollama create yj-de -f Modelfile
ollama run yj-de
独自のシステムプロンプト + パラメータをモデルとしてパッケージできる。会社単位で標準プロンプトを共有するときに強力。
Ollama REST API
curl http://localhost:11434/api/chat -d '{
"model": "llama3.3:70b-instruct-q4_K_M",
"messages": [{"role": "user", "content": "Linuxメモリキャッシュポリシー説明して"}],
"stream": false
}'
OpenAI互換モードもあるので、langchain、llamaindex、OpenAI SDKすべてbase URLを変えるだけでそのまま動く。
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
resp = client.chat.completions.create(
model="qwen2.5:14b-instruct",
messages=[{"role": "user", "content": "こんにちは"}]
)
Ollamaモデルレジストリ
`ollama pull`一行で取得。2026年5月の主要モデルタグ。
ollama pull llama3.3:70b-instruct-q4_K_M
ollama pull deepseek-r1:32b-distill-q4_K_M
ollama pull qwen3:14b-instruct
ollama pull phi4:14b
ollama pull gemma3:27b-instruct
ollama pull mistral-small:22b
ollama pull mixtral:8x7b-instruct-q4_K_M
ollama pull deepseek-coder-v2:16b-lite-instruct
ollama pull minicpm3:4b
ollama pull llava:34b
Ollamaの限界
- GUIが貧弱(別途クライアント必要 — Open WebUI、Mstyなど)
- マルチGPU分散は限定的(vLLMが圧倒)
- Fine-tuningツールなし — 別途unsloth / axolotlが必要
- メモリ管理が粗い — 同時に2モデルロードするとOOM頻発
それでも**「5分以内にローカルLLMを一度動かしてみたい」**の答えは2026年もOllamaだ。
第4章 · LM Studio — GUI中心のデスクトップ
[LM Studio](https://lmstudio.ai/)はElement Labs(サンフランシスコ)が作ったデスクトップアプリ。無料だがクローズドソース。macOS / Windows / Linux全対応。
強み
- **モデルブラウザ** — Hugging Face検索をアプリ内で。モデルカード、量子化オプション、メモリ推定まで1画面
- **チャットUI** — マルチセッション、プロンプトテンプレート、停止 / 再生成ボタン
- **ローカルサーバー** — OpenAI互換APIをワンクリックで公開
- **MLXアクセラレーション** — Apple Siliconでllama.cppより30〜50%速いMLXバックエンドを自動選択
- **ハードウェアプロファイラー** — GPU / CPU分割比率をスライダーで
シナリオ
ラップトップで2つのモデルを並べて比較評価を頻繁にする人に最適。OllamaはCLIなので毎回`ollama run`を打つが、LM Studioはグラフィカルインターフェースで1セッション内でモデルをトグルできる。
弱み
- クローズドソース — 企業導入時セキュリティ審査の負担
- モデルディレクトリが標準化されていない — Ollamaモデルと互換なし、別途ダウンロードが必要
- macOSはApple Silicon専用ビルド。Intel Macサポート終了
- Linuxビルドはしばしば1〜2リリース遅れる
第5章 · Jan — 真のオープンソースデスクトップ
[Jan](https://jan.ai/)はHomebrew Researchが運営する100%オープンソース(AGPL-3.0)のデスクトップLLMアプリ。Electron + TypeScript。2026年5月時点でGitHubスター28,000+。
特徴
- **プラグインマーケット** — 機能をモジュールでオン/オフ(RAG、ウェブ検索、コードインタプリタ)
- **複数バックエンド** — llama.cpp、MLX、TensorRT、vLLM互換 — 1アプリで全部選べる
- **クラウドモデル混在** — OpenAI / Anthropic / Mistral / Groq APIキーを入れれば同じUIでクラウドも — 「今日はClaude、昨日はローカル」式にトグル
- **データ主権** — すべてのチャットログがローカルSQLite。分析 / エクスポート自由
使用シナリオ
- 「デスクトップにChatGPTのようなインターフェースが必要だが、OpenAIに依存したくない」
- 「ローカルとクラウドを1画面で比較」
- 「エンタープライズ — 社内ポリシー上クローズドソースのデスクトップアプリは禁止」
Jan API
JanもOpenAI互換APIを提供する。
デフォルトポート
curl http://localhost:1337/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.3-70b-q4",
"messages": [{"role": "user", "content": "hello"}]
}'
第6章 · Msty — クローズドソースの強者
[Msty](https://msty.app/)は1人開発者が作ったデスクトップアプリ。個人利用無料、チームライセンス有料。macOS / Windows / Linux。クローズドソースだが評価が非常に高い。
差別点
- **Branchチャット** — 1メッセージから分岐して2つの回答を並列生成。比較評価が圧倒的に速い
- **Knowledge Stacks** — フォルダ / PDF / URLをドラッグすると自動RAG。AnythingLLMのような別途セットアップ不要
- **Workspaces** — プロジェクトごとにチャット / モデル / RAGを分離。Lightroomのカタログ比喩
- **ローカル + クラウド同時比較** — 1プロンプトをClaude / GPT / ローカルLlamaに同時送信
価格
- 個人無料
- Pro (個人) 99USD / 年 — ワークスペース無制限、クラウド同期
- Team — シートあたり159USD / 年
LM Studioが「単なるモデルブラウザ + チャット」なら、Mstyは「リサーチ / 知識作業ワークベンチ」のポジショニングだ。
第7章 · Open WebUI — セルフホスト型ChatGPT
[Open WebUI](https://openwebui.com/)(旧名Ollama WebUI)はTim Jaeryang Baekが始めたセルフホスティングのChatGPTクローン。MITライセンス、Python(FastAPI) + Svelte。GitHubスター78,000+。
なぜ人気か
- **Ollama接続自動** — ホストでOllamaが動いていればモデルを自動認識
- **マルチユーザー** — ログイン / 権限 / グループ / モデル別アクセス制御
- **RAG内蔵** — ドキュメントアップロード → ベクトル検索 → コンテキスト注入
- **音声入出力** — Whisper(STT) + Piper / Cartesia / ElevenLabs(TTS)
- **関数呼び出し(Tools)** — JS / Python関数をモデルが呼び出す
- **Pipelines** — ミドルウェアパターン — ロギング、フィルタリング、マルチモデルルーティング
- **Docker1行インストール**
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
ブラウザで`http://localhost:3000`を開くとChatGPTとほぼ同じUI。社内GPUサーバーに載せれば会社全体が使える — データは1粒たりとも外に出ない。
運用Tips
- Postgres + Redisバックエンドに切り替えるとマルチノード拡張
- Ollamaが同一ホストなら`OLLAMA_BASE_URL=http://host.docker.internal:11434`
- vLLMやLM StudioもOpenAI互換なので同じパターンで接続
第8章 · LibreChat — マルチプロバイダーチャット
[LibreChat](https://www.librechat.ai/)はOpen WebUIよりクラウド統合に強み。OpenAI、Anthropic、Google、Mistral、Ollama、vLLM、llama.cppサーバーすべてが1画面で。
特徴
- プラグインシステム(DALL-E、Wolfram、Zapier)
- モデル比較モード — 1プロンプトをN個のモデルに同時送信
- Assistants API互換
- 多言語i18nフル対応(韓 / 日 / 中含む)
いつ使うか
- 「会社がクラウドとローカルモデルを両方使う。2つのインターフェースを置きたくない」
- 「ChatGPT Proの代わりに社内統合インターフェース」
- 「エンタープライズSSO / SAML必要」
第9章 · GPT4All — Nomicのローカルチャット
[GPT4All](https://gpt4all.io/)は[Nomic AI](https://nomic.ai/)(Atlas埋め込み可視化で有名)が運営する。デスクトップアプリ + Python SDK。MITライセンス。
from gpt4all import GPT4All
model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf")
resp = model.generate("ローカルLLMのメリットは?", max_tokens=200)
print(resp)
強み
- **CPU優先設計** — GPUがなくてもそこそこ動く
- **LocalDocs** — フォルダRAGがデフォルト提供
- **デスクトップ + SDK統合** — デスクトップGUIで作成したRAGコレクションをPythonからも同じコレクションで使用
弱み
- 最新モデル対応がOllamaより遅い(Llama 4などは2026年5月時点で未対応)
- パフォーマンスはllama.cpp直接使用比5〜10%遅い
第10章 · AnythingLLM — ローカルRAGの強者
[AnythingLLM](https://anythingllm.com/)はMintplex Labs(ボストン)が作ったフルスタックRAGデスクトップ / Dockerアプリ。MITライセンス、Node.js + React。デスクトップビルドとDockerセルフホストビルドが両方ある。
コアコンポーネント
- **ワークスペース** — ドキュメント、チャット、埋め込み、モデル設定をまとめた単位
- **エージェント** — 関数呼び出し、ウェブ検索、コード実行
- **複数LLMバックエンド** — Ollama / LM Studio / OpenAI / Anthropic / Mistral / Together
- **埋め込みバックエンド** — sentence-transformers、OpenAI、Cohere、Ollama nomic-embed
- **ベクトルDB内蔵** — LanceDBデフォルト、Chroma / Pinecone / Weaviate / Qdrantオプション
- **ドキュメントコネクタ** — PDF、DOCX、MD、GitHub repo、Confluence、Notion、ウェブクローラー
シナリオ — 社内Wikiボット
1. AnythingLLM Docker起動
2. ワークスペース「engineering-wiki」作成
3. Confluenceコネクタを接続、インデックス化(24時間ごとに自動再インデックス)
4. OllamaでモデルをQwen2.5:14bに設定
5. SlackボットまたはOpen WebUIからAPIで呼び出し
会社導入を最速で進められるフルスタックRAGソリューションの1つ。
第11章 · PrivateGPT、Khoj、Reor — 特化ツール
PrivateGPT
[PrivateGPT](https://privategpt.dev/)はIván Martínez(開発者)が始めた。Pythonベース。100%ローカルRAG、外部API 0件が目標。セキュリティ / 規制業界がよく使う。やや重い(モデル + 埋め込み + ベクトルDBが1プロセス)。
Khoj
[Khoj](https://khoj.dev/)はKhoj Inc.が運営する「個人AIアシスタント」。ノート(Obsidian、Notion)、メール、カレンダーをインデックス化してチャットで検索する。
- macOS / Windows / Linuxデスクトップ
- iOS / Androidアプリ
- セルフホストDockerオプション
Reor
[Reor](https://reor.app/)は「AIネイティブノートアプリ」。Obsidianに似たMarkdownノートだが、自動埋め込みですべてのノートを意味ベースで接続する。すべてのモデル推論と埋め込みがローカル。
第12章 · Faraday、Pinokio、Chatbox
Faraday (レガシー)
[Faraday.dev](https://faraday.dev/)はキャラクターチャット中心のデスクトップアプリだった。2025年事実上開発停止状態(2026年5月時点)。ユーザーはSillyTavern、AI Hordeに移行した。歴史的意義として言及。
Pinokio
[Pinokio](https://pinokio.computer/)は「AIスクリプトのパッケージマネージャ」。ComfyUI、AUTOMATIC1111、Whisper、Barkのようなツールをワンクリックでインストール / 実行。JSONベースのレシピシステム。
使用ケース:
- 画像生成 / 音声 / 動画ツールを素早く試す
- ComfyUIワークフローを友人に共有
- デモ環境セットアップ自動化
Chatbox
[Chatbox](https://chatboxai.app/)はマルチプラットフォームのチャットUI。iOS、Android、macOS、Windows、Linux、Web。OpenAI / Claude / Gemini / Ollamaバックエンド。クローズドソースだがモバイル対応が強く出張用に人気。
Page Assist
[Page Assist](https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo)はChrome拡張。現在見ているWebページにOllamaで質問。サイドパネルでチャット、コンテキストメニューで要約。軽量RAG。
第13章 · バックエンドエンジン — llama.cpp / MLX / vLLM / TensorRT
llama.cpp
[Georgi Gerganov](https://github.com/ggerganov)が2023年に始めたC++推論エンジン。Ollama、LM Studio、Jan、GPT4Allの基盤。CPUとGPU(CUDA、Metal、ROCm、Vulkan、SYCL)すべて対応。
ソースビルド
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make -j8 LLAMA_METAL=1 # macOS
make -j8 LLAMA_CUDA=1 # Linux NVIDIA
実行
./llama-cli -m models/qwen2.5-14b-instruct-q4_k_m.gguf -p "こんにちは"
./llama-server -m models/llama-3.3-70b-q4_k_m.gguf --port 8080
直接ビルドして使うとOllamaより10〜20%速く、オプションも遥かに豊富。欠点はモデルダウンロード / 管理が手動。
MLX-LM
Apple Silicon専用。[MLX](https://ml-explore.github.io/mlx/build/html/index.html)はApple機械学習リサーチチームが作ったNumPyスタイルのテンソルライブラリ。MLX-LMはその上に乗ったLLM推論ツール。
pip install mlx-lm
mlx_lm.generate --model mlx-community/Llama-3.3-70B-Instruct-4bit --prompt "hi"
mlx_lm.server --model mlx-community/Qwen2.5-14B-Instruct-4bit --port 8080
M3 / M4ではllama.cppのMetalバックエンドより30〜50%速い。LM StudioがMLXを自動選択する理由だ。欠点: Apple Silicon限定、NVIDIA / AMD未対応。
vLLM / SGLang / TGI
サーバー級。1つのモデルを多数の同時リクエストに処理する(PagedAttention、continuous batching)。ノート1人使用にはオーバースペックだが、社内サーバーにLLMを載せて10人で使うシナリオの正解。別記事で詳しく扱うのでここでは短く。
pip install vllm
vllm serve Qwen/Qwen2.5-14B-Instruct --port 8080
TensorRT-LLM
NVIDIA専用。CUDA最適化推論。H100 / B200 / RTX 5090で最大スループット。ビルドステップが複雑だがプロダクションサーバーで比較不可のスループット。
Llamafile
[MozillaのLlamafile](https://github.com/Mozilla-Ocho/llamafile)はllama.cpp + モデルを**単一実行ファイル**にまとめる。macOS、Linux、Windowsすべて同じファイル1つで実行。マルチOSデモ、エアギャップ環境に強い。
chmod +x llava-v1.5-7b-q4.llamafile
./llava-v1.5-7b-q4.llamafile --server
第14章 · 量子化フォーマット — GGUF / AWQ / GPTQ / EXL / MXFP4 / BitNet
オリジナルモデルは通常BF16(2バイト / パラメータ)。7Bモデルは14GB。ノートではしんどい。量子化は精度を下げてメモリを節約する。
GGUF (llama.cpp標準)
- Q2_K (最小、品質低、ほぼ使わない)
- Q3_K_M (3-bit、7Bを3GBに — モバイル)
- **Q4_K_M (4-bit、「バランスポイント」、最頻出)**
- Q5_K_M (5-bit、品質より良し)
- Q6_K (6-bit、BF16とほぼ同等)
- Q8_0 (8-bit、BF16比で品質差ほぼなし、メモリは半分)
- FP16 / BF16 (量子化なし、オリジナル)
`Q4_K_M`は7Bモデルを4.5GB程度に削減しながらperplexity損失が2〜3%。圧倒的な選択肢。
AWQ (Activation-aware Weight Quantization)
vLLM、TGIがよく使う。GPTQより推論速度が速く、品質も同程度。4-bitが標準。
GPTQ
古いタイプ。AutoGPTQで量子化。4-bit標準。AWQに徐々に席を譲っている。
EXL2 / EXL3
[ExLlamaV2 / V3](https://github.com/turboderp-org/exllamav2)。NVIDIA RTXシリーズに特化。4-bit + 6-bit + 8-bitをモデル内で混合 — perplexity損失1%未満。ExLlamaV3は2025年後半リリース、量子化効率向上。
MXFP4
OpenAIが2025年Microscaling FP4を標準化。NVIDIA Blackwell(B200、RTX 5090)でハードウェアアクセラレート。INT4より品質が良くBF16比でメモリ1/4。
BitNet (1.58-bit)
Microsoftの研究。重みを-1、0、+1に。推論時の乗算がほぼなく非常に速い。2026年にBitNet b1.58 3Bと7BモデルがHugging Faceに公開。実験的だが組込み / モバイルへのポテンシャルが大きい。
どれを選ぶべきか
- デスクトップ / ノート、Ollama / llama.cpp → **GGUF Q4_K_M**
- vLLMサーバー、NVIDIA GPU → **AWQ**
- 単一NVIDIA、最高効率 → **EXL3**
- Apple Silicon → **MLX 4-bit**
第15章 · 2026年5月の推奨ローカルモデルTOP
汎用 — Llama 4 Scout 109B MoE
Metaの[Llama 4 Scout](https://huggingface.co/meta-llama/Llama-4-Scout-109B-Instruct)。16-of-128エキスパートMoE。アクティブパラメータ17Bで推論コストは17B級、品質は70Bに近い。M4 Max 128GBで毎秒24トークン。コンテキスト1Mトークン。
汎用 (実用) — Llama 3.3 70B
[Llama 3.3 70B Instruct](https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct)。70Bクラスの標準。GPT-4 Turboレベル。Q4_K_Mで42GB。デュアルRTX 5090またはM2 Ultra 64GB。
推論 — DeepSeek R1 Distill 32B
[DeepSeek R1](https://www.deepseek.com/)のLlama / Qwenディスティルシリーズ。**32B Q4 = 単一RTX 4090で可能**。o1-mini級の推論性能。数学、コード、論理問題に強い。
ollama pull deepseek-r1:32b
ollama pull deepseek-r1:7b # ノート向け
多言語 — Qwen 3 14B
[Alibaba Qwen 3](https://qwenlm.github.io/)。韓 / 中 / 日 / 英すべて強い。日本語テキストではLlamaよりしばしば優勢。14Bは単一RTX 4070(12GB)でQ4_K_Mで動かせる。
小型モデル王者 — Phi-4 14B
[Microsoft Phi-4](https://huggingface.co/microsoft/phi-4)。「データキュレーションが答え」の結果物。14Bなのに70B級ベンチマーク。ノート用としてコスパ1位。
超小型強者 — Gemma 3 12B / 4B
Googleの[Gemma 3](https://huggingface.co/google/gemma-3-12b-it)。12B / 4B / 1Bラインアップ。モバイル / 組込み / ノート。7Bクラスより小さくて比較可能なパフォーマンス。
軽量 + 多言語 — MiniCPM 3.0 4B
OpenBMBの[MiniCPM 3.0](https://huggingface.co/openbmb/MiniCPM3-4B)。4Bで8Bモデルと同等。モバイル / エッジ最適。
コード — DeepSeek Coder V2 Lite 16B
[DeepSeek Coder V2](https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct)。16B MoE(アクティブ2.4B)。Q4で10GB。Continue.devやClineのバックエンドとして人気。
マルチモーダル — LLaVA 34B、Qwen2-VL 7B、Pixtral 12B
画像 + テキスト。LLaVAは標準、Qwen2-VLは多言語強み、PixtralはMistralのビジョンモデル。
ollama pull llava:34b
ollama pull qwen2-vl:7b
第16章 · 音声モード — STT + LLM + TTS
STT (音声 → テキスト)
- **OpenAI Whisper** — 標準。base / small / medium / large-v3。large-v3はGPU 4GB。
- **faster-whisper** — CTranslate2バックエンド。CPU / GPU両方速い。
- **whisper.cpp** — C++ポート、Apple Silicon Metalアクセラレート。
- **Distil-Whisper** — Whisperのディスティル、6倍速い。
TTS (テキスト → 音声)
- **Piper** — Rhasspyプロジェクト。CPU速い、韓国語ボイスあり。
- **Coqui XTTS v2** — 多言語 + voice cloning。(Coquiは2024年解散、モデルは維持)
- **F5-TTS** — 2025年リリース。英語 / 中国語の自然さがトップクラス。voice cloning可能。
- **Kokoro** — 非常に小さい(82M)英語TTS。ノートCPUでリアルタイム。
- **Cartesia Sonic** — 商用APIだが非常に速い。
Open WebUI音声統合
設定 → オーディオ
STT: faster-whisper (ローカル) または Whisper API
TTS: Piper (ローカル)、Kokoro (ローカル)、ElevenLabs (クラウド)
マイクアイコンを押せばSTT → LLM → TTSパイプラインが動く。運転中でもChatGPTのように会話できる。
第17章 · コードアシスタント — Continue.dev + Ollama
Continue.dev
[Continue.dev](https://www.continue.dev/)はVSCode / JetBrains拡張。Cursor / Copilot代替。モデルバックエンドを自由選択 — ローカルOllama可能。
// ~/.continue/config.json
{
"models": [
{
"title": "Local Coder",
"provider": "ollama",
"model": "deepseek-coder-v2:16b-lite-instruct",
"apiBase": "http://localhost:11434"
}
],
"tabAutocompleteModel": {
"title": "Tab",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
Tab自動補完はQwen2.5-Coder 7B(速い)、ChatはDeepSeek Coder V2 16B(品質)。100%ローカル、APIコスト0、コードが外に出ない。
Cline + Ollama
[Cline](https://cline.bot/)(旧Claude Dev)はエージェント型。ファイル読み書き、コマンド実行、Plan / Actモード。Ollamaバックエンドも対応するが、70B+の推論モデル推奨 — エージェント作業が重い。
aider
[aider](https://aider.chat/)はターミナルペアプログラマー。Gitベース。Ollamaバックエンド。
aider --model ollama/qwen2.5-coder:32b
第18章 · Apple Intelligence — OSレベルのオンデバイス
[Apple Intelligence](https://www.apple.com/apple-intelligence/)はiOS 18、iPadOS 18、macOS 15 Sequoia、visionOS 2でGA。核は2つ。
1. **オンデバイス3Bモデル** — Apple Silicon NPUで動作。通知要約、Mail返信提案、テキストクリーンアップ、Image Playground。
2. **Private Cloud Compute (PCC)** — より大きなモデルが必要な時、Apple Siliconサーバーへ委任。ただしログがディスクに書かれず、認証されたコードのみ実行というセキュリティモデル(外部セキュリティ研究者にコード公開)。
Foundation Modelsフレームワーク
let session = LanguageModelSession()
let resp = try await session.respond(to: "メモを3行で要約して")
iOS 18.2+ / macOS 15.2+で使用可。3Bモデル限定だが無料、無制限。
限界
- 英語優先リリース。韓国語 / 日本語は2025年段階的GA
- 3Bでは複雑なタスクが難しい — だからPCC委任
- デバイスがiPhone 15 Pro以上、M1以上
第19章 · Phi Silica — Windows 11のオンデバイスAI
Microsoftは[Phi Silica](https://blogs.windows.com/windowsexperience/2024/05/20/unlocking-ai-productivity-and-creativity-with-copilot-pcs-windows-11-features/) 3.8BモデルをSnapdragon X Elite / Intel Core Ultra / AMD Ryzen AIのNPUに搭載。Windows 11 24H2以降Copilot+ PCで標準。
機能
- テキスト要約、書き換え、翻訳
- コード補助(Visual Studio統合)
- 画像生成(Cocreator)
- 検索(Recall — ユーザー画面キャプチャ → 意味検索)
Recallは2024年発表直後にセキュリティ論争で延期、2025年オプトイン + E2E暗号化で再リリース。
開発者API
Windows Copilot Runtimeに[Microsoft.Windows.AI.Generative](https://learn.microsoft.com/en-us/windows/ai/)名前空間。C# / Rust / C++すべて呼び出し可能。
第20章 · Gemini Nano — AndroidとChrome
[Gemini Nano](https://deepmind.google/technologies/gemini/)はGoogleの最小Gemini変種。Pixel 8 Pro以上、一部Galaxy S24+、Chromeデスクトップ(2026年5月時点でCanary / Beta + 一部安定版)で使用可能。
Chrome Built-in AI
// 2026年5月時点でOrigin Trial有効
const session = await ai.languageModel.create({
systemPrompt: "あなたは要約専門家です。",
})
const summary = await session.prompt("この記事を3行で要約: ...")
ブラウザの中にLLMが入った。ネットワークコール0、コスト0。WebアプリがついにオフラインLLMを活用できる。
Android AICore
val generativeModel = GenerativeModel(modelName = "gemini-nano")
val response = generativeModel.generateContent("要約して")
第21章 · 韓国のローカルAIエコシステム
Lablup Backend.AI
[Lablup](https://www.lablup.com/)のBackend.AIはLLM学習 / 推論プラットフォーム。社内GPUクラスタでvLLM、Triton、TensorRTを統合管理。2026年韓国公企業 / 大企業の導入多数。
Upstage Solar
[Upstage](https://www.upstage.ai/)のSolarは10.7B / Pro / Miniラインアップ。Solar Mini 2.4Bはノートのローカルでも動作 — Ollamaに登録。
ollama pull upstage/solar-pro-preview
Naver Cloud HyperCLOVA X
NaverのHyperCLOVA X SEED 3Bモデルはオープン重み(2025年公開)。韓国語特化。Hugging Faceに登録されておりllama.cpp / Ollamaで変換利用可能。
KT、SKT、LG
- KT Mi:dm、SKT A.X 4.0 — 自社7Bモデル(一部重み公開)
- LG AI Research EXAONE 3.5 — 2.4B / 7.8B / 32Bモデル。非商用ライセンスだが研究目的自由
ollama pull exaone3.5:7.8b
第22章 · 日本のローカルAIエコシステム
ELYZA
[ELYZA](https://elyza.ai/)(東大スピンオフ)。Llamaベースの日本語チューニングモデル。ELYZA-japanese-Llama-3-8BをOllamaで直接使用。
Rinna
[Rinna](https://rinna.co.jp/)。MS Japanスピンオフ。日本語GPT、BERT、Llamaチューニング。音声合成 / 認識も。
Stockmark
[Stockmark-100B](https://stockmark.co.jp/)。日本語100Bモデル、ビジネスドメイン特化。重み一部公開。
PFN PLaMo
[Preferred Networks](https://www.preferred.jp/)のPLaMo。13B / 100B。PLaMo Liteは重み公開でノートのローカル運用も可。
CyberAgent CALM
[CyberAgent](https://www.cyberagent.co.jp/) CALM3 22B。日本語 + 対話チューニング。Q4で単一RTX 4090。
第23章 · 運用ノウハウ — 1GPUでN個のモデル
1つのGPUに2モデルを同時に載せるとVRAM OOMが頻発する。解決策3つ。
1. Hot-swap (Ollamaデフォルト)
Ollamaは`keep_alive`パラメータでモデルをメモリに保持 / 解放する。
使用しなければ30秒後にアンロード
ollama run qwen2.5:7b --keep-alive 30s
無限保持
ollama run llama3.3:70b --keep-alive -1
2. モデルルーター
サービスごとに異なるモデルが必要なら、LiteLLMやOpenRouterセルフホスティングでルーティング。
litellm config.yaml
model_list:
- model_name: chat
litellm_params:
model: ollama/qwen2.5:14b
api_base: http://localhost:11434
- model_name: code
litellm_params:
model: ollama/deepseek-coder-v2:16b
api_base: http://localhost:11434
3. vLLMの連続バッチング
複数ユーザーが同時に呼び出すと、vLLMはPagedAttentionで1モデルにN個のリクエストを同時処理する。単一70Bモデルで10人が同時にチャット可能。
第24章 · RAGパターン — ローカル埋め込み
埋め込みモデル (ローカル)
- **nomic-embed-text** — 768次元、英語SOTAクラス、Ollama登録
- **mxbai-embed-large** — 1024次元、より良い、やや遅い
- **bge-m3** — 多言語強い(韓 / 日 / 中)
- **multilingual-e5-large** — 多言語 / ノートフレンドリー
ollama pull nomic-embed-text
ollama pull mxbai-embed-large
ollama pull bge-m3
ローカルベクトルDB
- **LanceDB** — 組込み、ディスクベース、単一ファイル。AnythingLLMデフォルト。
- **ChromaDB** — Pythonライブラリ + サーバーモード
- **Qdrant** — Rustサーバー、非常に速い
- **Weaviate** — フルスタック
- **Milvus** — 大容量
db = lancedb.connect("./data")
table = db.create_table("docs", schema=...)
table.add([{"vector": embed("文章"), "text": "文章"}])
table.search(embed("query")).limit(5).to_pandas()
第25章 · セキュリティとコンプライアンス
「ローカルだから安全か?」 — そうではない
ローカルLLMはクラウドLLMの一部リスクを解消するが、新しいリスクも生む。
- **プロンプトインジェクション** — ドキュメント内に隠された「前の指示を無視して...」 → ローカルでも同じ
- **データ漏洩** — RAGが権限のないドキュメントを取り込む可能性
- **モデル完全性** — Hugging Faceから取得したモデルにバックドアの可能性 — 公式チャネルのみ使用
- **fine-tuning漏洩** — 会社データでチューンしたモデル重みからPIIが抽出される可能性
運用ガイド
- すべてのモデルは公式オリジンから(Meta、Microsoft、Google、Alibaba、DeepSeekの公式HF org)
- ダウンロード後ハッシュ検証
- 社内RAGにはaccess control(AnythingLLMワークスペース単位)
- ロギングと監査 — Open WebUIのadminログをSIEMへ
コンプライアンスマッピング
| 規制 | クラウドLLM | ローカルLLM |
| --- | --- | --- |
| GDPR | データ転送、DPA必要 | データ非転送、一部免除 |
| HIPAA | BAA必要 | 自社インフラ — 制御可能 |
| 韓国PIPA | 国外移転同意 | 国内処理 — シンプル |
| 日本APPI | 同意 + 安全措置 | 同様だが外部リスク少 |
| 金融保安院 (韓国) | クラウドセキュリティ認証必須 | インフラ自社制御 |
第26章 · 結論 — ローカルAIは2026年の基本技
ローカルLLMは2023年は趣味、2024年は実験、2025年はオプションだった。2026年は**デベロッパの基本技**だ。
- **ノート1台** + Ollama + Continue.dev → 会社APIコスト削減 + コードが漏れない
- **社内GPUサーバー** + Open WebUI + AnythingLLM → 会社ChatGPTを自前運用
- **iPhone** + Apple Intelligence → OSが勝手に処理
- **個人ノート** + Reor / Khoj → すべてのノートを意味ベース検索
今すぐ試せる5分ワークフロー。
1. Ollamaインストール
brew install ollama
2. モデル取得
ollama pull qwen2.5:14b-instruct
3. チャット
ollama run qwen2.5:14b-instruct
4. Open WebUI起動 (Dockerがあるなら)
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main
ブラウザで`http://localhost:3000`を開けば、あなただけのChatGPTがノートの上で動いている。データは1粒たりとも出ず、コストは電気代だけで、飛行機Wi-Fiがなくても動く。これが2026年の風景だ。
第27章 · 参考資料
- Ollama公式 — https://ollama.com/
- Ollamaモデルライブラリ — https://ollama.com/library
- LM Studio — https://lmstudio.ai/
- Jan — https://jan.ai/
- Msty — https://msty.app/
- GPT4All — https://gpt4all.io/
- Open WebUI — https://openwebui.com/
- LibreChat — https://www.librechat.ai/
- AnythingLLM — https://anythingllm.com/
- PrivateGPT — https://privategpt.dev/
- Khoj — https://khoj.dev/
- Reor — https://reor.app/
- Pinokio — https://pinokio.computer/
- Chatbox — https://chatboxai.app/
- llama.cpp — https://github.com/ggml-org/llama.cpp
- MLX-LM — https://github.com/ml-explore/mlx-examples
- Llamafile — https://github.com/Mozilla-Ocho/llamafile
- Continue.dev — https://www.continue.dev/
- Cline — https://cline.bot/
- aider — https://aider.chat/
- Hugging Face — https://huggingface.co/
- Apple Intelligence — https://www.apple.com/apple-intelligence/
- Microsoft Phi Silica — https://learn.microsoft.com/en-us/windows/ai/
- Chrome Built-in AI — https://developer.chrome.com/docs/ai
- Lablup Backend.AI — https://www.lablup.com/
- Upstage Solar — https://www.upstage.ai/
- LG EXAONE — https://www.lgresearch.ai/
- ELYZA — https://elyza.ai/
- Preferred Networks PLaMo — https://www.preferred.jp/
- CyberAgent CALM — https://www.cyberagent.co.jp/
현재 단락 (1/383)
3年前、「ローカルLLM」と言えば7Bモデルを4-bit量子化してRTX 3090に押し込み、GPT-3.5の半分くらいの品質が得られる趣味の世界だった。2026年5月の風景は全くの別物だ。