- Published on
ローカルAI & オンデバイスLLM 2026 完全ガイド — Ollama · LM Studio · Jan · Msty · Open WebUI · GPT4All · AnythingLLM · Faraday 徹底解説
- Authors

- Name
- Youngju Kim
- @fjvbn20031
第1章 · なぜ2026年のローカルAIなのか
3年前、「ローカルLLM」と言えば7Bモデルを4-bit量子化してRTX 3090に押し込み、GPT-3.5の半分くらいの品質が得られる趣味の世界だった。2026年5月の風景は全くの別物だ。
- M4 Max MacBook Pro 128GBモデルでLlama 4 Scout 109B MoEが毎秒24トークン動く
- RTX 5090 24GBはDeepSeek R1 Distill 32Bを毎秒12トークンで処理する
- iPhone 16 ProはApple Intelligenceの3BモデルをOSが自動的に呼び出す
- Snapdragon X EliteノートはPhi Silica 3.8BをNPUで動かす
ローカルAIが魅力的な4つの理由はシンプルだ。
- プライバシー — 入力が会社の外に出ない。GDPR、HIPAA、韓国PIPA、日本のAPPI、すべて解決
- コスト — APIの請求書がない。電気代だけだ(それもノートなら無視できる)
- オフライン — 飛行機、地下、カフェWi-Fi — インターネットなしでも動く
- 実験 — 新モデルが発表されたら5分以内に試せる。fine-tuning、LoRA、RAGも自由
本稿は2026年5月時点、デベロッパがデスクトップ / ノート / モバイルでLLMを動かそうとするとき知るべきすべてを整理する。ランタイム、GUI、バックエンド、量子化フォーマット、推奨モデル、運用ノウハウまで。
第2章 · ハードウェア — VRAMとユニファイドメモリの時代
ローカルLLMの最初の関門はメモリだ。一般的なガイドライン。
| モデルサイズ | 精度 | 推奨VRAM/RAM | 備考 |
|---|---|---|---|
| 3B | INT4 | 4GB | モバイル / 低スペックノート |
| 7B | INT4 (Q4_K_M) | 8GB | RTX 3060、M1/M2 8GB |
| 7B | INT8 | 12GB | RTX 3060 12GB、M2 16GB |
| 13B | INT4 | 12〜14GB | RTX 4070、M2 24GB |
| 32B | INT4 | 22〜24GB | RTX 4090、M3 Max 36GB |
| 70B | INT4 | 42〜48GB | RTX 5090デュアル、M2 Ultra 64GB |
| 70B | INT8 | 80GB+ | A100 80GB、M3 Ultra 192GB |
| 405B | INT4 | 240GB+ | マルチGPUノード、M3 Ultra 192GB 2台クラスタリング |
NVIDIA vs Apple Silicon
NVIDIA陣営はPCIe + GDDRが強み。トークン生成がGPU単独なので速度が圧倒的。RTX 5090は32GB GDDR7で32Bモデル推論におけるトークンあたり遅延が最短だ。
一方Apple Siliconは**ユニファイドメモリ(Unified Memory)**が武器。M3 Ultra Mac Studioは192GB UMAで70Bモデルを16-bitでも動かす。NVIDIAで同等構成にはH100 80GBが2枚必要だ(価格比較自体が成り立たない)。
- M4 Max 128GB — 109B MoEモデルまで — 約7,000USD
- M3 Ultra 192GB — 70BモデルBF16 — 約9,500USD
- RTX 5090 24GB — 32BモデルQ4 — 約2,200USD + 別途システム
選択基準は明快だ。70B+モデルを頻繁に動かしノートで使うならMac、32B以下 + コスパ + ゲーム兼用ならNVIDIA。
第3章 · Ollama — 最も愛されるローカルランタイム
Ollamaは2023年Y Combinator W24バッチ出身の会社だ。MITライセンス、llama.cppの上に乗せたCLI / REST API + モデルレジストリが核。2026年5月時点でGitHubスター145,000+。
インストールと初実行
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# デーモン起動
ollama serve
# モデルのダウンロード & 実行
ollama run llama3.3:70b-instruct-q4_K_M
# 7Bを素早く
ollama run qwen2.5:7b-instruct
ollama runの1行でモデルダウンロード → 量子化抽出 → 推論サーバー起動 → チャット開始。他のランタイムが5ステップでやることを1行でやる。
Modelfile — Dockerfileのようなモデル定義
FROM llama3.3:70b-instruct-q4_K_M
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM """
あなたは韓国語データエンジニアリングアシスタントです。SQLとPySparkを優先します。
"""
ollama create yj-de -f Modelfile
ollama run yj-de
独自のシステムプロンプト + パラメータをモデルとしてパッケージできる。会社単位で標準プロンプトを共有するときに強力。
Ollama REST API
curl http://localhost:11434/api/chat -d '{
"model": "llama3.3:70b-instruct-q4_K_M",
"messages": [{"role": "user", "content": "Linuxメモリキャッシュポリシー説明して"}],
"stream": false
}'
OpenAI互換モードもあるので、langchain、llamaindex、OpenAI SDKすべてbase URLを変えるだけでそのまま動く。
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
resp = client.chat.completions.create(
model="qwen2.5:14b-instruct",
messages=[{"role": "user", "content": "こんにちは"}]
)
Ollamaモデルレジストリ
ollama pull一行で取得。2026年5月の主要モデルタグ。
ollama pull llama3.3:70b-instruct-q4_K_M
ollama pull deepseek-r1:32b-distill-q4_K_M
ollama pull qwen3:14b-instruct
ollama pull phi4:14b
ollama pull gemma3:27b-instruct
ollama pull mistral-small:22b
ollama pull mixtral:8x7b-instruct-q4_K_M
ollama pull deepseek-coder-v2:16b-lite-instruct
ollama pull minicpm3:4b
ollama pull llava:34b
Ollamaの限界
- GUIが貧弱(別途クライアント必要 — Open WebUI、Mstyなど)
- マルチGPU分散は限定的(vLLMが圧倒)
- Fine-tuningツールなし — 別途unsloth / axolotlが必要
- メモリ管理が粗い — 同時に2モデルロードするとOOM頻発
それでも**「5分以内にローカルLLMを一度動かしてみたい」**の答えは2026年もOllamaだ。
第4章 · LM Studio — GUI中心のデスクトップ
LM StudioはElement Labs(サンフランシスコ)が作ったデスクトップアプリ。無料だがクローズドソース。macOS / Windows / Linux全対応。
強み
- モデルブラウザ — Hugging Face検索をアプリ内で。モデルカード、量子化オプション、メモリ推定まで1画面
- チャットUI — マルチセッション、プロンプトテンプレート、停止 / 再生成ボタン
- ローカルサーバー — OpenAI互換APIをワンクリックで公開
- MLXアクセラレーション — Apple Siliconでllama.cppより30〜50%速いMLXバックエンドを自動選択
- ハードウェアプロファイラー — GPU / CPU分割比率をスライダーで
シナリオ
ラップトップで2つのモデルを並べて比較評価を頻繁にする人に最適。OllamaはCLIなので毎回ollama runを打つが、LM Studioはグラフィカルインターフェースで1セッション内でモデルをトグルできる。
弱み
- クローズドソース — 企業導入時セキュリティ審査の負担
- モデルディレクトリが標準化されていない — Ollamaモデルと互換なし、別途ダウンロードが必要
- macOSはApple Silicon専用ビルド。Intel Macサポート終了
- Linuxビルドはしばしば1〜2リリース遅れる
第5章 · Jan — 真のオープンソースデスクトップ
JanはHomebrew Researchが運営する100%オープンソース(AGPL-3.0)のデスクトップLLMアプリ。Electron + TypeScript。2026年5月時点でGitHubスター28,000+。
特徴
- プラグインマーケット — 機能をモジュールでオン/オフ(RAG、ウェブ検索、コードインタプリタ)
- 複数バックエンド — llama.cpp、MLX、TensorRT、vLLM互換 — 1アプリで全部選べる
- クラウドモデル混在 — OpenAI / Anthropic / Mistral / Groq APIキーを入れれば同じUIでクラウドも — 「今日はClaude、昨日はローカル」式にトグル
- データ主権 — すべてのチャットログがローカルSQLite。分析 / エクスポート自由
使用シナリオ
- 「デスクトップにChatGPTのようなインターフェースが必要だが、OpenAIに依存したくない」
- 「ローカルとクラウドを1画面で比較」
- 「エンタープライズ — 社内ポリシー上クローズドソースのデスクトップアプリは禁止」
Jan API
JanもOpenAI互換APIを提供する。
# デフォルトポート
curl http://localhost:1337/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.3-70b-q4",
"messages": [{"role": "user", "content": "hello"}]
}'
第6章 · Msty — クローズドソースの強者
Mstyは1人開発者が作ったデスクトップアプリ。個人利用無料、チームライセンス有料。macOS / Windows / Linux。クローズドソースだが評価が非常に高い。
差別点
- Branchチャット — 1メッセージから分岐して2つの回答を並列生成。比較評価が圧倒的に速い
- Knowledge Stacks — フォルダ / PDF / URLをドラッグすると自動RAG。AnythingLLMのような別途セットアップ不要
- Workspaces — プロジェクトごとにチャット / モデル / RAGを分離。Lightroomのカタログ比喩
- ローカル + クラウド同時比較 — 1プロンプトをClaude / GPT / ローカルLlamaに同時送信
価格
- 個人無料
- Pro (個人) 99USD / 年 — ワークスペース無制限、クラウド同期
- Team — シートあたり159USD / 年
LM Studioが「単なるモデルブラウザ + チャット」なら、Mstyは「リサーチ / 知識作業ワークベンチ」のポジショニングだ。
第7章 · Open WebUI — セルフホスト型ChatGPT
Open WebUI(旧名Ollama WebUI)はTim Jaeryang Baekが始めたセルフホスティングのChatGPTクローン。MITライセンス、Python(FastAPI) + Svelte。GitHubスター78,000+。
なぜ人気か
- Ollama接続自動 — ホストでOllamaが動いていればモデルを自動認識
- マルチユーザー — ログイン / 権限 / グループ / モデル別アクセス制御
- RAG内蔵 — ドキュメントアップロード → ベクトル検索 → コンテキスト注入
- 音声入出力 — Whisper(STT) + Piper / Cartesia / ElevenLabs(TTS)
- 関数呼び出し(Tools) — JS / Python関数をモデルが呼び出す
- Pipelines — ミドルウェアパターン — ロギング、フィルタリング、マルチモデルルーティング
- Docker1行インストール
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
ブラウザでhttp://localhost:3000を開くとChatGPTとほぼ同じUI。社内GPUサーバーに載せれば会社全体が使える — データは1粒たりとも外に出ない。
運用Tips
- Postgres + Redisバックエンドに切り替えるとマルチノード拡張
- Ollamaが同一ホストなら
OLLAMA_BASE_URL=http://host.docker.internal:11434 - vLLMやLM StudioもOpenAI互換なので同じパターンで接続
第8章 · LibreChat — マルチプロバイダーチャット
LibreChatはOpen WebUIよりクラウド統合に強み。OpenAI、Anthropic、Google、Mistral、Ollama、vLLM、llama.cppサーバーすべてが1画面で。
特徴
- プラグインシステム(DALL-E、Wolfram、Zapier)
- モデル比較モード — 1プロンプトをN個のモデルに同時送信
- Assistants API互換
- 多言語i18nフル対応(韓 / 日 / 中含む)
いつ使うか
- 「会社がクラウドとローカルモデルを両方使う。2つのインターフェースを置きたくない」
- 「ChatGPT Proの代わりに社内統合インターフェース」
- 「エンタープライズSSO / SAML必要」
第9章 · GPT4All — Nomicのローカルチャット
GPT4AllはNomic AI(Atlas埋め込み可視化で有名)が運営する。デスクトップアプリ + Python SDK。MITライセンス。
from gpt4all import GPT4All
model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf")
resp = model.generate("ローカルLLMのメリットは?", max_tokens=200)
print(resp)
強み
- CPU優先設計 — GPUがなくてもそこそこ動く
- LocalDocs — フォルダRAGがデフォルト提供
- デスクトップ + SDK統合 — デスクトップGUIで作成したRAGコレクションをPythonからも同じコレクションで使用
弱み
- 最新モデル対応がOllamaより遅い(Llama 4などは2026年5月時点で未対応)
- パフォーマンスはllama.cpp直接使用比5〜10%遅い
第10章 · AnythingLLM — ローカルRAGの強者
AnythingLLMはMintplex Labs(ボストン)が作ったフルスタックRAGデスクトップ / Dockerアプリ。MITライセンス、Node.js + React。デスクトップビルドとDockerセルフホストビルドが両方ある。
コアコンポーネント
- ワークスペース — ドキュメント、チャット、埋め込み、モデル設定をまとめた単位
- エージェント — 関数呼び出し、ウェブ検索、コード実行
- 複数LLMバックエンド — Ollama / LM Studio / OpenAI / Anthropic / Mistral / Together
- 埋め込みバックエンド — sentence-transformers、OpenAI、Cohere、Ollama nomic-embed
- ベクトルDB内蔵 — LanceDBデフォルト、Chroma / Pinecone / Weaviate / Qdrantオプション
- ドキュメントコネクタ — PDF、DOCX、MD、GitHub repo、Confluence、Notion、ウェブクローラー
シナリオ — 社内Wikiボット
1. AnythingLLM Docker起動
2. ワークスペース「engineering-wiki」作成
3. Confluenceコネクタを接続、インデックス化(24時間ごとに自動再インデックス)
4. OllamaでモデルをQwen2.5:14bに設定
5. SlackボットまたはOpen WebUIからAPIで呼び出し
会社導入を最速で進められるフルスタックRAGソリューションの1つ。
第11章 · PrivateGPT、Khoj、Reor — 特化ツール
PrivateGPT
PrivateGPTはIván Martínez(開発者)が始めた。Pythonベース。100%ローカルRAG、外部API 0件が目標。セキュリティ / 規制業界がよく使う。やや重い(モデル + 埋め込み + ベクトルDBが1プロセス)。
Khoj
KhojはKhoj Inc.が運営する「個人AIアシスタント」。ノート(Obsidian、Notion)、メール、カレンダーをインデックス化してチャットで検索する。
- macOS / Windows / Linuxデスクトップ
- iOS / Androidアプリ
- セルフホストDockerオプション
Reor
Reorは「AIネイティブノートアプリ」。Obsidianに似たMarkdownノートだが、自動埋め込みですべてのノートを意味ベースで接続する。すべてのモデル推論と埋め込みがローカル。
第12章 · Faraday、Pinokio、Chatbox
Faraday (レガシー)
Faraday.devはキャラクターチャット中心のデスクトップアプリだった。2025年事実上開発停止状態(2026年5月時点)。ユーザーはSillyTavern、AI Hordeに移行した。歴史的意義として言及。
Pinokio
Pinokioは「AIスクリプトのパッケージマネージャ」。ComfyUI、AUTOMATIC1111、Whisper、Barkのようなツールをワンクリックでインストール / 実行。JSONベースのレシピシステム。
使用ケース:
- 画像生成 / 音声 / 動画ツールを素早く試す
- ComfyUIワークフローを友人に共有
- デモ環境セットアップ自動化
Chatbox
ChatboxはマルチプラットフォームのチャットUI。iOS、Android、macOS、Windows、Linux、Web。OpenAI / Claude / Gemini / Ollamaバックエンド。クローズドソースだがモバイル対応が強く出張用に人気。
Page Assist
Page AssistはChrome拡張。現在見ているWebページにOllamaで質問。サイドパネルでチャット、コンテキストメニューで要約。軽量RAG。
第13章 · バックエンドエンジン — llama.cpp / MLX / vLLM / TensorRT
llama.cpp
Georgi Gerganovが2023年に始めたC++推論エンジン。Ollama、LM Studio、Jan、GPT4Allの基盤。CPUとGPU(CUDA、Metal、ROCm、Vulkan、SYCL)すべて対応。
# ソースビルド
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make -j8 LLAMA_METAL=1 # macOS
make -j8 LLAMA_CUDA=1 # Linux NVIDIA
# 実行
./llama-cli -m models/qwen2.5-14b-instruct-q4_k_m.gguf -p "こんにちは"
./llama-server -m models/llama-3.3-70b-q4_k_m.gguf --port 8080
直接ビルドして使うとOllamaより10〜20%速く、オプションも遥かに豊富。欠点はモデルダウンロード / 管理が手動。
MLX-LM
Apple Silicon専用。MLXはApple機械学習リサーチチームが作ったNumPyスタイルのテンソルライブラリ。MLX-LMはその上に乗ったLLM推論ツール。
pip install mlx-lm
mlx_lm.generate --model mlx-community/Llama-3.3-70B-Instruct-4bit --prompt "hi"
mlx_lm.server --model mlx-community/Qwen2.5-14B-Instruct-4bit --port 8080
M3 / M4ではllama.cppのMetalバックエンドより30〜50%速い。LM StudioがMLXを自動選択する理由だ。欠点: Apple Silicon限定、NVIDIA / AMD未対応。
vLLM / SGLang / TGI
サーバー級。1つのモデルを多数の同時リクエストに処理する(PagedAttention、continuous batching)。ノート1人使用にはオーバースペックだが、社内サーバーにLLMを載せて10人で使うシナリオの正解。別記事で詳しく扱うのでここでは短く。
pip install vllm
vllm serve Qwen/Qwen2.5-14B-Instruct --port 8080
TensorRT-LLM
NVIDIA専用。CUDA最適化推論。H100 / B200 / RTX 5090で最大スループット。ビルドステップが複雑だがプロダクションサーバーで比較不可のスループット。
Llamafile
MozillaのLlamafileはllama.cpp + モデルを単一実行ファイルにまとめる。macOS、Linux、Windowsすべて同じファイル1つで実行。マルチOSデモ、エアギャップ環境に強い。
chmod +x llava-v1.5-7b-q4.llamafile
./llava-v1.5-7b-q4.llamafile --server
第14章 · 量子化フォーマット — GGUF / AWQ / GPTQ / EXL / MXFP4 / BitNet
オリジナルモデルは通常BF16(2バイト / パラメータ)。7Bモデルは14GB。ノートではしんどい。量子化は精度を下げてメモリを節約する。
GGUF (llama.cpp標準)
- Q2_K (最小、品質低、ほぼ使わない)
- Q3_K_M (3-bit、7Bを3GBに — モバイル)
- Q4_K_M (4-bit、「バランスポイント」、最頻出)
- Q5_K_M (5-bit、品質より良し)
- Q6_K (6-bit、BF16とほぼ同等)
- Q8_0 (8-bit、BF16比で品質差ほぼなし、メモリは半分)
- FP16 / BF16 (量子化なし、オリジナル)
Q4_K_Mは7Bモデルを4.5GB程度に削減しながらperplexity損失が2〜3%。圧倒的な選択肢。
AWQ (Activation-aware Weight Quantization)
vLLM、TGIがよく使う。GPTQより推論速度が速く、品質も同程度。4-bitが標準。
GPTQ
古いタイプ。AutoGPTQで量子化。4-bit標準。AWQに徐々に席を譲っている。
EXL2 / EXL3
ExLlamaV2 / V3。NVIDIA RTXシリーズに特化。4-bit + 6-bit + 8-bitをモデル内で混合 — perplexity損失1%未満。ExLlamaV3は2025年後半リリース、量子化効率向上。
MXFP4
OpenAIが2025年Microscaling FP4を標準化。NVIDIA Blackwell(B200、RTX 5090)でハードウェアアクセラレート。INT4より品質が良くBF16比でメモリ1/4。
BitNet (1.58-bit)
Microsoftの研究。重みを-1、0、+1に。推論時の乗算がほぼなく非常に速い。2026年にBitNet b1.58 3Bと7BモデルがHugging Faceに公開。実験的だが組込み / モバイルへのポテンシャルが大きい。
どれを選ぶべきか
- デスクトップ / ノート、Ollama / llama.cpp → GGUF Q4_K_M
- vLLMサーバー、NVIDIA GPU → AWQ
- 単一NVIDIA、最高効率 → EXL3
- Apple Silicon → MLX 4-bit
第15章 · 2026年5月の推奨ローカルモデルTOP
汎用 — Llama 4 Scout 109B MoE
MetaのLlama 4 Scout。16-of-128エキスパートMoE。アクティブパラメータ17Bで推論コストは17B級、品質は70Bに近い。M4 Max 128GBで毎秒24トークン。コンテキスト1Mトークン。
汎用 (実用) — Llama 3.3 70B
Llama 3.3 70B Instruct。70Bクラスの標準。GPT-4 Turboレベル。Q4_K_Mで42GB。デュアルRTX 5090またはM2 Ultra 64GB。
推論 — DeepSeek R1 Distill 32B
DeepSeek R1のLlama / Qwenディスティルシリーズ。32B Q4 = 単一RTX 4090で可能。o1-mini級の推論性能。数学、コード、論理問題に強い。
ollama pull deepseek-r1:32b
ollama pull deepseek-r1:7b # ノート向け
多言語 — Qwen 3 14B
Alibaba Qwen 3。韓 / 中 / 日 / 英すべて強い。日本語テキストではLlamaよりしばしば優勢。14Bは単一RTX 4070(12GB)でQ4_K_Mで動かせる。
小型モデル王者 — Phi-4 14B
Microsoft Phi-4。「データキュレーションが答え」の結果物。14Bなのに70B級ベンチマーク。ノート用としてコスパ1位。
超小型強者 — Gemma 3 12B / 4B
GoogleのGemma 3。12B / 4B / 1Bラインアップ。モバイル / 組込み / ノート。7Bクラスより小さくて比較可能なパフォーマンス。
軽量 + 多言語 — MiniCPM 3.0 4B
OpenBMBのMiniCPM 3.0。4Bで8Bモデルと同等。モバイル / エッジ最適。
コード — DeepSeek Coder V2 Lite 16B
DeepSeek Coder V2。16B MoE(アクティブ2.4B)。Q4で10GB。Continue.devやClineのバックエンドとして人気。
マルチモーダル — LLaVA 34B、Qwen2-VL 7B、Pixtral 12B
画像 + テキスト。LLaVAは標準、Qwen2-VLは多言語強み、PixtralはMistralのビジョンモデル。
ollama pull llava:34b
ollama pull qwen2-vl:7b
第16章 · 音声モード — STT + LLM + TTS
STT (音声 → テキスト)
- OpenAI Whisper — 標準。base / small / medium / large-v3。large-v3はGPU 4GB。
- faster-whisper — CTranslate2バックエンド。CPU / GPU両方速い。
- whisper.cpp — C++ポート、Apple Silicon Metalアクセラレート。
- Distil-Whisper — Whisperのディスティル、6倍速い。
TTS (テキスト → 音声)
- Piper — Rhasspyプロジェクト。CPU速い、韓国語ボイスあり。
- Coqui XTTS v2 — 多言語 + voice cloning。(Coquiは2024年解散、モデルは維持)
- F5-TTS — 2025年リリース。英語 / 中国語の自然さがトップクラス。voice cloning可能。
- Kokoro — 非常に小さい(82M)英語TTS。ノートCPUでリアルタイム。
- Cartesia Sonic — 商用APIだが非常に速い。
Open WebUI音声統合
設定 → オーディオ
STT: faster-whisper (ローカル) または Whisper API
TTS: Piper (ローカル)、Kokoro (ローカル)、ElevenLabs (クラウド)
マイクアイコンを押せばSTT → LLM → TTSパイプラインが動く。運転中でもChatGPTのように会話できる。
第17章 · コードアシスタント — Continue.dev + Ollama
Continue.dev
Continue.devはVSCode / JetBrains拡張。Cursor / Copilot代替。モデルバックエンドを自由選択 — ローカルOllama可能。
// ~/.continue/config.json
{
"models": [
{
"title": "Local Coder",
"provider": "ollama",
"model": "deepseek-coder-v2:16b-lite-instruct",
"apiBase": "http://localhost:11434"
}
],
"tabAutocompleteModel": {
"title": "Tab",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
Tab自動補完はQwen2.5-Coder 7B(速い)、ChatはDeepSeek Coder V2 16B(品質)。100%ローカル、APIコスト0、コードが外に出ない。
Cline + Ollama
Cline(旧Claude Dev)はエージェント型。ファイル読み書き、コマンド実行、Plan / Actモード。Ollamaバックエンドも対応するが、70B+の推論モデル推奨 — エージェント作業が重い。
aider
aiderはターミナルペアプログラマー。Gitベース。Ollamaバックエンド。
aider --model ollama/qwen2.5-coder:32b
第18章 · Apple Intelligence — OSレベルのオンデバイス
Apple IntelligenceはiOS 18、iPadOS 18、macOS 15 Sequoia、visionOS 2でGA。核は2つ。
- オンデバイス3Bモデル — Apple Silicon NPUで動作。通知要約、Mail返信提案、テキストクリーンアップ、Image Playground。
- Private Cloud Compute (PCC) — より大きなモデルが必要な時、Apple Siliconサーバーへ委任。ただしログがディスクに書かれず、認証されたコードのみ実行というセキュリティモデル(外部セキュリティ研究者にコード公開)。
Foundation Modelsフレームワーク
import FoundationModels
let session = LanguageModelSession()
let resp = try await session.respond(to: "メモを3行で要約して")
iOS 18.2+ / macOS 15.2+で使用可。3Bモデル限定だが無料、無制限。
限界
- 英語優先リリース。韓国語 / 日本語は2025年段階的GA
- 3Bでは複雑なタスクが難しい — だからPCC委任
- デバイスがiPhone 15 Pro以上、M1以上
第19章 · Phi Silica — Windows 11のオンデバイスAI
MicrosoftはPhi Silica 3.8BモデルをSnapdragon X Elite / Intel Core Ultra / AMD Ryzen AIのNPUに搭載。Windows 11 24H2以降Copilot+ PCで標準。
機能
- テキスト要約、書き換え、翻訳
- コード補助(Visual Studio統合)
- 画像生成(Cocreator)
- 検索(Recall — ユーザー画面キャプチャ → 意味検索)
Recallは2024年発表直後にセキュリティ論争で延期、2025年オプトイン + E2E暗号化で再リリース。
開発者API
Windows Copilot RuntimeにMicrosoft.Windows.AI.Generative名前空間。C# / Rust / C++すべて呼び出し可能。
第20章 · Gemini Nano — AndroidとChrome
Gemini NanoはGoogleの最小Gemini変種。Pixel 8 Pro以上、一部Galaxy S24+、Chromeデスクトップ(2026年5月時点でCanary / Beta + 一部安定版)で使用可能。
Chrome Built-in AI
// 2026年5月時点でOrigin Trial有効
const session = await ai.languageModel.create({
systemPrompt: "あなたは要約専門家です。",
})
const summary = await session.prompt("この記事を3行で要約: ...")
ブラウザの中にLLMが入った。ネットワークコール0、コスト0。WebアプリがついにオフラインLLMを活用できる。
Android AICore
val generativeModel = GenerativeModel(modelName = "gemini-nano")
val response = generativeModel.generateContent("要約して")
第21章 · 韓国のローカルAIエコシステム
Lablup Backend.AI
LablupのBackend.AIはLLM学習 / 推論プラットフォーム。社内GPUクラスタでvLLM、Triton、TensorRTを統合管理。2026年韓国公企業 / 大企業の導入多数。
Upstage Solar
UpstageのSolarは10.7B / Pro / Miniラインアップ。Solar Mini 2.4Bはノートのローカルでも動作 — Ollamaに登録。
ollama pull upstage/solar-pro-preview
Naver Cloud HyperCLOVA X
NaverのHyperCLOVA X SEED 3Bモデルはオープン重み(2025年公開)。韓国語特化。Hugging Faceに登録されておりllama.cpp / Ollamaで変換利用可能。
KT、SKT、LG
- KT Mi:dm、SKT A.X 4.0 — 自社7Bモデル(一部重み公開)
- LG AI Research EXAONE 3.5 — 2.4B / 7.8B / 32Bモデル。非商用ライセンスだが研究目的自由
ollama pull exaone3.5:7.8b
第22章 · 日本のローカルAIエコシステム
ELYZA
ELYZA(東大スピンオフ)。Llamaベースの日本語チューニングモデル。ELYZA-japanese-Llama-3-8BをOllamaで直接使用。
Rinna
Rinna。MS Japanスピンオフ。日本語GPT、BERT、Llamaチューニング。音声合成 / 認識も。
Stockmark
Stockmark-100B。日本語100Bモデル、ビジネスドメイン特化。重み一部公開。
PFN PLaMo
Preferred NetworksのPLaMo。13B / 100B。PLaMo Liteは重み公開でノートのローカル運用も可。
CyberAgent CALM
CyberAgent CALM3 22B。日本語 + 対話チューニング。Q4で単一RTX 4090。
第23章 · 運用ノウハウ — 1GPUでN個のモデル
1つのGPUに2モデルを同時に載せるとVRAM OOMが頻発する。解決策3つ。
1. Hot-swap (Ollamaデフォルト)
Ollamaはkeep_aliveパラメータでモデルをメモリに保持 / 解放する。
# 使用しなければ30秒後にアンロード
ollama run qwen2.5:7b --keep-alive 30s
# 無限保持
ollama run llama3.3:70b --keep-alive -1
2. モデルルーター
サービスごとに異なるモデルが必要なら、LiteLLMやOpenRouterセルフホスティングでルーティング。
# litellm config.yaml
model_list:
- model_name: chat
litellm_params:
model: ollama/qwen2.5:14b
api_base: http://localhost:11434
- model_name: code
litellm_params:
model: ollama/deepseek-coder-v2:16b
api_base: http://localhost:11434
3. vLLMの連続バッチング
複数ユーザーが同時に呼び出すと、vLLMはPagedAttentionで1モデルにN個のリクエストを同時処理する。単一70Bモデルで10人が同時にチャット可能。
第24章 · RAGパターン — ローカル埋め込み
埋め込みモデル (ローカル)
- nomic-embed-text — 768次元、英語SOTAクラス、Ollama登録
- mxbai-embed-large — 1024次元、より良い、やや遅い
- bge-m3 — 多言語強い(韓 / 日 / 中)
- multilingual-e5-large — 多言語 / ノートフレンドリー
ollama pull nomic-embed-text
ollama pull mxbai-embed-large
ollama pull bge-m3
ローカルベクトルDB
- LanceDB — 組込み、ディスクベース、単一ファイル。AnythingLLMデフォルト。
- ChromaDB — Pythonライブラリ + サーバーモード
- Qdrant — Rustサーバー、非常に速い
- Weaviate — フルスタック
- Milvus — 大容量
import lancedb
db = lancedb.connect("./data")
table = db.create_table("docs", schema=...)
table.add([{"vector": embed("文章"), "text": "文章"}])
table.search(embed("query")).limit(5).to_pandas()
第25章 · セキュリティとコンプライアンス
「ローカルだから安全か?」 — そうではない
ローカルLLMはクラウドLLMの一部リスクを解消するが、新しいリスクも生む。
- プロンプトインジェクション — ドキュメント内に隠された「前の指示を無視して...」 → ローカルでも同じ
- データ漏洩 — RAGが権限のないドキュメントを取り込む可能性
- モデル完全性 — Hugging Faceから取得したモデルにバックドアの可能性 — 公式チャネルのみ使用
- fine-tuning漏洩 — 会社データでチューンしたモデル重みからPIIが抽出される可能性
運用ガイド
- すべてのモデルは公式オリジンから(Meta、Microsoft、Google、Alibaba、DeepSeekの公式HF org)
- ダウンロード後ハッシュ検証
- 社内RAGにはaccess control(AnythingLLMワークスペース単位)
- ロギングと監査 — Open WebUIのadminログをSIEMへ
コンプライアンスマッピング
| 規制 | クラウドLLM | ローカルLLM |
|---|---|---|
| GDPR | データ転送、DPA必要 | データ非転送、一部免除 |
| HIPAA | BAA必要 | 自社インフラ — 制御可能 |
| 韓国PIPA | 国外移転同意 | 国内処理 — シンプル |
| 日本APPI | 同意 + 安全措置 | 同様だが外部リスク少 |
| 金融保安院 (韓国) | クラウドセキュリティ認証必須 | インフラ自社制御 |
第26章 · 結論 — ローカルAIは2026年の基本技
ローカルLLMは2023年は趣味、2024年は実験、2025年はオプションだった。2026年はデベロッパの基本技だ。
- ノート1台 + Ollama + Continue.dev → 会社APIコスト削減 + コードが漏れない
- 社内GPUサーバー + Open WebUI + AnythingLLM → 会社ChatGPTを自前運用
- iPhone + Apple Intelligence → OSが勝手に処理
- 個人ノート + Reor / Khoj → すべてのノートを意味ベース検索
今すぐ試せる5分ワークフロー。
# 1. Ollamaインストール
brew install ollama
# 2. モデル取得
ollama pull qwen2.5:14b-instruct
# 3. チャット
ollama run qwen2.5:14b-instruct
# 4. Open WebUI起動 (Dockerがあるなら)
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main
ブラウザでhttp://localhost:3000を開けば、あなただけのChatGPTがノートの上で動いている。データは1粒たりとも出ず、コストは電気代だけで、飛行機Wi-Fiがなくても動く。これが2026年の風景だ。
第27章 · 参考資料
- Ollama公式 — https://ollama.com/
- Ollamaモデルライブラリ — https://ollama.com/library
- LM Studio — https://lmstudio.ai/
- Jan — https://jan.ai/
- Msty — https://msty.app/
- GPT4All — https://gpt4all.io/
- Open WebUI — https://openwebui.com/
- LibreChat — https://www.librechat.ai/
- AnythingLLM — https://anythingllm.com/
- PrivateGPT — https://privategpt.dev/
- Khoj — https://khoj.dev/
- Reor — https://reor.app/
- Pinokio — https://pinokio.computer/
- Chatbox — https://chatboxai.app/
- llama.cpp — https://github.com/ggml-org/llama.cpp
- MLX-LM — https://github.com/ml-explore/mlx-examples
- Llamafile — https://github.com/Mozilla-Ocho/llamafile
- Continue.dev — https://www.continue.dev/
- Cline — https://cline.bot/
- aider — https://aider.chat/
- Hugging Face — https://huggingface.co/
- Apple Intelligence — https://www.apple.com/apple-intelligence/
- Microsoft Phi Silica — https://learn.microsoft.com/en-us/windows/ai/
- Chrome Built-in AI — https://developer.chrome.com/docs/ai
- Lablup Backend.AI — https://www.lablup.com/
- Upstage Solar — https://www.upstage.ai/
- LG EXAONE — https://www.lgresearch.ai/
- ELYZA — https://elyza.ai/
- Preferred Networks PLaMo — https://www.preferred.jp/
- CyberAgent CALM — https://www.cyberagent.co.jp/