💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

第1章 · なぜ2026年のローカルAIなのか

3年前、「ローカルLLM」と言えば7Bモデルを4-bit量子化してRTX 3090に押し込み、GPT-3.5の半分くらいの品質が得られる趣味の世界だった。2026年5月の風景は全くの別物だ。

- **M4 Max MacBook Pro 128GBモデル**でLlama 4 Scout 109B MoEが毎秒24トークン動く

- **RTX 5090 24GB**はDeepSeek R1 Distill 32Bを毎秒12トークンで処理する

- **iPhone 16 Pro**はApple Intelligenceの3BモデルをOSが自動的に呼び出す

- **Snapdragon X Elite**ノートはPhi Silica 3.8BをNPUで動かす

ローカルAIが魅力的な4つの理由はシンプルだ。

1. **プライバシー** — 入力が会社の外に出ない。GDPR、HIPAA、韓国PIPA、日本のAPPI、すべて解決

2. **コスト** — APIの請求書がない。電気代だけだ(それもノートなら無視できる)

3. **オフライン** — 飛行機、地下、カフェWi-Fi — インターネットなしでも動く

4. **実験** — 新モデルが発表されたら5分以内に試せる。fine-tuning、LoRA、RAGも自由

本稿は2026年5月時点、**デベロッパがデスクトップ / ノート / モバイルでLLMを動かそうとするとき知るべきすべて**を整理する。ランタイム、GUI、バックエンド、量子化フォーマット、推奨モデル、運用ノウハウまで。

第2章 · ハードウェア — VRAMとユニファイドメモリの時代

ローカルLLMの最初の関門はメモリだ。一般的なガイドライン。

| モデルサイズ | 精度 | 推奨VRAM/RAM | 備考 |

| --- | --- | --- | --- |

| 3B | INT4 | 4GB | モバイル / 低スペックノート |

| 7B | INT4 (Q4_K_M) | 8GB | RTX 3060、M1/M2 8GB |

| 7B | INT8 | 12GB | RTX 3060 12GB、M2 16GB |

| 13B | INT4 | 12〜14GB | RTX 4070、M2 24GB |

| 32B | INT4 | 22〜24GB | RTX 4090、M3 Max 36GB |

| 70B | INT4 | 42〜48GB | RTX 5090デュアル、M2 Ultra 64GB |

| 70B | INT8 | 80GB+ | A100 80GB、M3 Ultra 192GB |

| 405B | INT4 | 240GB+ | マルチGPUノード、M3 Ultra 192GB 2台クラスタリング |

NVIDIA vs Apple Silicon

NVIDIA陣営は**PCIe + GDDR**が強み。トークン生成がGPU単独なので速度が圧倒的。RTX 5090は32GB GDDR7で32Bモデル推論におけるトークンあたり遅延が最短だ。

一方Apple Siliconは**ユニファイドメモリ(Unified Memory)**が武器。M3 Ultra Mac Studioは192GB UMAで70Bモデルを16-bitでも動かす。NVIDIAで同等構成にはH100 80GBが2枚必要だ(価格比較自体が成り立たない)。

- **M4 Max 128GB** — 109B MoEモデルまで — 約7,000USD

- **M3 Ultra 192GB** — 70BモデルBF16 — 約9,500USD

- **RTX 5090 24GB** — 32BモデルQ4 — 約2,200USD + 別途システム

選択基準は明快だ。**70B+モデルを頻繁に動かしノートで使うならMac**、**32B以下 + コスパ + ゲーム兼用ならNVIDIA**。

第3章 · Ollama — 最も愛されるローカルランタイム

[Ollama](https://ollama.com/)は2023年Y Combinator W24バッチ出身の会社だ。MITライセンス、llama.cppの上に乗せたCLI / REST API + モデルレジストリが核。2026年5月時点でGitHubスター145,000+。

インストールと初実行

macOS

brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

デーモン起動

ollama serve

モデルのダウンロード & 実行

ollama run llama3.3:70b-instruct-q4_K_M

7Bを素早く

ollama run qwen2.5:7b-instruct

`ollama run`の1行でモデルダウンロード → 量子化抽出 → 推論サーバー起動 → チャット開始。他のランタイムが5ステップでやることを1行でやる。

Modelfile — Dockerfileのようなモデル定義

FROM llama3.3:70b-instruct-q4_K_M

PARAMETER temperature 0.7

PARAMETER num_ctx 8192

SYSTEM """

あなたは韓国語データエンジニアリングアシスタントです。SQLとPySparkを優先します。

"""

ollama create yj-de -f Modelfile

ollama run yj-de

独自のシステムプロンプト + パラメータをモデルとしてパッケージできる。会社単位で標準プロンプトを共有するときに強力。

Ollama REST API

curl http://localhost:11434/api/chat -d '{

"model": "llama3.3:70b-instruct-q4_K_M",

"messages": [{"role": "user", "content": "Linuxメモリキャッシュポリシー説明して"}],

"stream": false

OpenAI互換モードもあるので、langchain、llamaindex、OpenAI SDKすべてbase URLを変えるだけでそのまま動く。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

resp = client.chat.completions.create(

model="qwen2.5:14b-instruct",

messages=[{"role": "user", "content": "こんにちは"}]

)

Ollamaモデルレジストリ

`ollama pull`一行で取得。2026年5月の主要モデルタグ。

ollama pull llama3.3:70b-instruct-q4_K_M

ollama pull deepseek-r1:32b-distill-q4_K_M

ollama pull qwen3:14b-instruct

ollama pull phi4:14b

ollama pull gemma3:27b-instruct

ollama pull mistral-small:22b

ollama pull mixtral:8x7b-instruct-q4_K_M

ollama pull deepseek-coder-v2:16b-lite-instruct

ollama pull minicpm3:4b

ollama pull llava:34b

Ollamaの限界

- GUIが貧弱(別途クライアント必要 — Open WebUI、Mstyなど)

- マルチGPU分散は限定的(vLLMが圧倒)

- Fine-tuningツールなし — 別途unsloth / axolotlが必要

- メモリ管理が粗い — 同時に2モデルロードするとOOM頻発

それでも**「5分以内にローカルLLMを一度動かしてみたい」**の答えは2026年もOllamaだ。

第4章 · LM Studio — GUI中心のデスクトップ

[LM Studio](https://lmstudio.ai/)はElement Labs(サンフランシスコ)が作ったデスクトップアプリ。無料だがクローズドソース。macOS / Windows / Linux全対応。

強み

- **モデルブラウザ** — Hugging Face検索をアプリ内で。モデルカード、量子化オプション、メモリ推定まで1画面

- **チャットUI** — マルチセッション、プロンプトテンプレート、停止 / 再生成ボタン

- **ローカルサーバー** — OpenAI互換APIをワンクリックで公開

- **MLXアクセラレーション** — Apple Siliconでllama.cppより30〜50%速いMLXバックエンドを自動選択

- **ハードウェアプロファイラー** — GPU / CPU分割比率をスライダーで

シナリオ

ラップトップで2つのモデルを並べて比較評価を頻繁にする人に最適。OllamaはCLIなので毎回`ollama run`を打つが、LM Studioはグラフィカルインターフェースで1セッション内でモデルをトグルできる。

弱み

- クローズドソース — 企業導入時セキュリティ審査の負担

- モデルディレクトリが標準化されていない — Ollamaモデルと互換なし、別途ダウンロードが必要

- macOSはApple Silicon専用ビルド。Intel Macサポート終了

- Linuxビルドはしばしば1〜2リリース遅れる

第5章 · Jan — 真のオープンソースデスクトップ

[Jan](https://jan.ai/)はHomebrew Researchが運営する100%オープンソース(AGPL-3.0)のデスクトップLLMアプリ。Electron + TypeScript。2026年5月時点でGitHubスター28,000+。

特徴

- **プラグインマーケット** — 機能をモジュールでオン/オフ(RAG、ウェブ検索、コードインタプリタ)

- **複数バックエンド** — llama.cpp、MLX、TensorRT、vLLM互換 — 1アプリで全部選べる

- **クラウドモデル混在** — OpenAI / Anthropic / Mistral / Groq APIキーを入れれば同じUIでクラウドも — 「今日はClaude、昨日はローカル」式にトグル

- **データ主権** — すべてのチャットログがローカルSQLite。分析 / エクスポート自由

使用シナリオ

- 「デスクトップにChatGPTのようなインターフェースが必要だが、OpenAIに依存したくない」

- 「ローカルとクラウドを1画面で比較」

- 「エンタープライズ — 社内ポリシー上クローズドソースのデスクトップアプリは禁止」

Jan API

JanもOpenAI互換APIを提供する。

デフォルトポート

curl http://localhost:1337/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "llama3.3-70b-q4",

"messages": [{"role": "user", "content": "hello"}]

第6章 · Msty — クローズドソースの強者

[Msty](https://msty.app/)は1人開発者が作ったデスクトップアプリ。個人利用無料、チームライセンス有料。macOS / Windows / Linux。クローズドソースだが評価が非常に高い。

差別点

- **Branchチャット** — 1メッセージから分岐して2つの回答を並列生成。比較評価が圧倒的に速い

- **Knowledge Stacks** — フォルダ / PDF / URLをドラッグすると自動RAG。AnythingLLMのような別途セットアップ不要

- **Workspaces** — プロジェクトごとにチャット / モデル / RAGを分離。Lightroomのカタログ比喩

- **ローカル + クラウド同時比較** — 1プロンプトをClaude / GPT / ローカルLlamaに同時送信

価格

- 個人無料

- Pro (個人) 99USD / 年 — ワークスペース無制限、クラウド同期

- Team — シートあたり159USD / 年

LM Studioが「単なるモデルブラウザ + チャット」なら、Mstyは「リサーチ / 知識作業ワークベンチ」のポジショニングだ。

第7章 · Open WebUI — セルフホスト型ChatGPT

[Open WebUI](https://openwebui.com/)(旧名Ollama WebUI)はTim Jaeryang Baekが始めたセルフホスティングのChatGPTクローン。MITライセンス、Python(FastAPI) + Svelte。GitHubスター78,000+。

なぜ人気か

- **Ollama接続自動** — ホストでOllamaが動いていればモデルを自動認識

- **マルチユーザー** — ログイン / 権限 / グループ / モデル別アクセス制御

- **RAG内蔵** — ドキュメントアップロード → ベクトル検索 → コンテキスト注入

- **音声入出力** — Whisper(STT) + Piper / Cartesia / ElevenLabs(TTS)

- **関数呼び出し(Tools)** — JS / Python関数をモデルが呼び出す

- **Pipelines** — ミドルウェアパターン — ロギング、フィルタリング、マルチモデルルーティング

- **Docker1行インストール**

docker run -d -p 3000:8080 \

--add-host=host.docker.internal:host-gateway \

-v open-webui:/app/backend/data \

--name open-webui \

--restart always \

ghcr.io/open-webui/open-webui:main

ブラウザで`http://localhost:3000`を開くとChatGPTとほぼ同じUI。社内GPUサーバーに載せれば会社全体が使える — データは1粒たりとも外に出ない。

運用Tips

- Postgres + Redisバックエンドに切り替えるとマルチノード拡張

- Ollamaが同一ホストなら`OLLAMA_BASE_URL=http://host.docker.internal:11434`

- vLLMやLM StudioもOpenAI互換なので同じパターンで接続

第8章 · LibreChat — マルチプロバイダーチャット

[LibreChat](https://www.librechat.ai/)はOpen WebUIよりクラウド統合に強み。OpenAI、Anthropic、Google、Mistral、Ollama、vLLM、llama.cppサーバーすべてが1画面で。

特徴

- プラグインシステム(DALL-E、Wolfram、Zapier)

- モデル比較モード — 1プロンプトをN個のモデルに同時送信

- Assistants API互換

- 多言語i18nフル対応(韓 / 日 / 中含む)

いつ使うか

- 「会社がクラウドとローカルモデルを両方使う。2つのインターフェースを置きたくない」

- 「ChatGPT Proの代わりに社内統合インターフェース」

- 「エンタープライズSSO / SAML必要」

第9章 · GPT4All — Nomicのローカルチャット

[GPT4All](https://gpt4all.io/)は[Nomic AI](https://nomic.ai/)(Atlas埋め込み可視化で有名)が運営する。デスクトップアプリ + Python SDK。MITライセンス。

from gpt4all import GPT4All

model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf")

resp = model.generate("ローカルLLMのメリットは?", max_tokens=200)

print(resp)

強み

- **CPU優先設計** — GPUがなくてもそこそこ動く

- **LocalDocs** — フォルダRAGがデフォルト提供

- **デスクトップ + SDK統合** — デスクトップGUIで作成したRAGコレクションをPythonからも同じコレクションで使用

弱み

- 最新モデル対応がOllamaより遅い(Llama 4などは2026年5月時点で未対応)

- パフォーマンスはllama.cpp直接使用比5〜10%遅い

第10章 · AnythingLLM — ローカルRAGの強者

[AnythingLLM](https://anythingllm.com/)はMintplex Labs(ボストン)が作ったフルスタックRAGデスクトップ / Dockerアプリ。MITライセンス、Node.js + React。デスクトップビルドとDockerセルフホストビルドが両方ある。

コアコンポーネント

- **ワークスペース** — ドキュメント、チャット、埋め込み、モデル設定をまとめた単位

- **エージェント** — 関数呼び出し、ウェブ検索、コード実行

- **複数LLMバックエンド** — Ollama / LM Studio / OpenAI / Anthropic / Mistral / Together

- **埋め込みバックエンド** — sentence-transformers、OpenAI、Cohere、Ollama nomic-embed

- **ベクトルDB内蔵** — LanceDBデフォルト、Chroma / Pinecone / Weaviate / Qdrantオプション

- **ドキュメントコネクタ** — PDF、DOCX、MD、GitHub repo、Confluence、Notion、ウェブクローラー

シナリオ — 社内Wikiボット

1. AnythingLLM Docker起動

2. ワークスペース「engineering-wiki」作成

3. Confluenceコネクタを接続、インデックス化(24時間ごとに自動再インデックス)

4. OllamaでモデルをQwen2.5:14bに設定

5. SlackボットまたはOpen WebUIからAPIで呼び出し

会社導入を最速で進められるフルスタックRAGソリューションの1つ。

第11章 · PrivateGPT、Khoj、Reor — 特化ツール

PrivateGPT

[PrivateGPT](https://privategpt.dev/)はIván Martínez(開発者)が始めた。Pythonベース。100%ローカルRAG、外部API 0件が目標。セキュリティ / 規制業界がよく使う。やや重い(モデル + 埋め込み + ベクトルDBが1プロセス)。

Khoj

[Khoj](https://khoj.dev/)はKhoj Inc.が運営する「個人AIアシスタント」。ノート(Obsidian、Notion)、メール、カレンダーをインデックス化してチャットで検索する。

- macOS / Windows / Linuxデスクトップ

- iOS / Androidアプリ

- セルフホストDockerオプション

Reor

[Reor](https://reor.app/)は「AIネイティブノートアプリ」。Obsidianに似たMarkdownノートだが、自動埋め込みですべてのノートを意味ベースで接続する。すべてのモデル推論と埋め込みがローカル。

第12章 · Faraday、Pinokio、Chatbox

Faraday (レガシー)

[Faraday.dev](https://faraday.dev/)はキャラクターチャット中心のデスクトップアプリだった。2025年事実上開発停止状態(2026年5月時点)。ユーザーはSillyTavern、AI Hordeに移行した。歴史的意義として言及。

Pinokio

[Pinokio](https://pinokio.computer/)は「AIスクリプトのパッケージマネージャ」。ComfyUI、AUTOMATIC1111、Whisper、Barkのようなツールをワンクリックでインストール / 実行。JSONベースのレシピシステム。

使用ケース:

- 画像生成 / 音声 / 動画ツールを素早く試す

- ComfyUIワークフローを友人に共有

- デモ環境セットアップ自動化

Chatbox

[Chatbox](https://chatboxai.app/)はマルチプラットフォームのチャットUI。iOS、Android、macOS、Windows、Linux、Web。OpenAI / Claude / Gemini / Ollamaバックエンド。クローズドソースだがモバイル対応が強く出張用に人気。

Page Assist

[Page Assist](https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo)はChrome拡張。現在見ているWebページにOllamaで質問。サイドパネルでチャット、コンテキストメニューで要約。軽量RAG。

第13章 · バックエンドエンジン — llama.cpp / MLX / vLLM / TensorRT

llama.cpp

[Georgi Gerganov](https://github.com/ggerganov)が2023年に始めたC++推論エンジン。Ollama、LM Studio、Jan、GPT4Allの基盤。CPUとGPU(CUDA、Metal、ROCm、Vulkan、SYCL)すべて対応。

ソースビルド

git clone https://github.com/ggml-org/llama.cpp

cd llama.cpp

make -j8 LLAMA_METAL=1 # macOS

make -j8 LLAMA_CUDA=1 # Linux NVIDIA

実行

./llama-cli -m models/qwen2.5-14b-instruct-q4_k_m.gguf -p "こんにちは"

./llama-server -m models/llama-3.3-70b-q4_k_m.gguf --port 8080

直接ビルドして使うとOllamaより10〜20%速く、オプションも遥かに豊富。欠点はモデルダウンロード / 管理が手動。

MLX-LM

Apple Silicon専用。[MLX](https://ml-explore.github.io/mlx/build/html/index.html)はApple機械学習リサーチチームが作ったNumPyスタイルのテンソルライブラリ。MLX-LMはその上に乗ったLLM推論ツール。

pip install mlx-lm

mlx_lm.generate --model mlx-community/Llama-3.3-70B-Instruct-4bit --prompt "hi"

mlx_lm.server --model mlx-community/Qwen2.5-14B-Instruct-4bit --port 8080

M3 / M4ではllama.cppのMetalバックエンドより30〜50%速い。LM StudioがMLXを自動選択する理由だ。欠点: Apple Silicon限定、NVIDIA / AMD未対応。

vLLM / SGLang / TGI

サーバー級。1つのモデルを多数の同時リクエストに処理する(PagedAttention、continuous batching)。ノート1人使用にはオーバースペックだが、社内サーバーにLLMを載せて10人で使うシナリオの正解。別記事で詳しく扱うのでここでは短く。

pip install vllm

vllm serve Qwen/Qwen2.5-14B-Instruct --port 8080

TensorRT-LLM

NVIDIA専用。CUDA最適化推論。H100 / B200 / RTX 5090で最大スループット。ビルドステップが複雑だがプロダクションサーバーで比較不可のスループット。

Llamafile

[MozillaのLlamafile](https://github.com/Mozilla-Ocho/llamafile)はllama.cpp + モデルを**単一実行ファイル**にまとめる。macOS、Linux、Windowsすべて同じファイル1つで実行。マルチOSデモ、エアギャップ環境に強い。

chmod +x llava-v1.5-7b-q4.llamafile

./llava-v1.5-7b-q4.llamafile --server

第14章 · 量子化フォーマット — GGUF / AWQ / GPTQ / EXL / MXFP4 / BitNet

オリジナルモデルは通常BF16(2バイト / パラメータ)。7Bモデルは14GB。ノートではしんどい。量子化は精度を下げてメモリを節約する。

GGUF (llama.cpp標準)

- Q2_K (最小、品質低、ほぼ使わない)

- Q3_K_M (3-bit、7Bを3GBに — モバイル)

- **Q4_K_M (4-bit、「バランスポイント」、最頻出)**

- Q5_K_M (5-bit、品質より良し)

- Q6_K (6-bit、BF16とほぼ同等)

- Q8_0 (8-bit、BF16比で品質差ほぼなし、メモリは半分)

- FP16 / BF16 (量子化なし、オリジナル)

`Q4_K_M`は7Bモデルを4.5GB程度に削減しながらperplexity損失が2〜3%。圧倒的な選択肢。

AWQ (Activation-aware Weight Quantization)

vLLM、TGIがよく使う。GPTQより推論速度が速く、品質も同程度。4-bitが標準。

GPTQ

古いタイプ。AutoGPTQで量子化。4-bit標準。AWQに徐々に席を譲っている。

EXL2 / EXL3

[ExLlamaV2 / V3](https://github.com/turboderp-org/exllamav2)。NVIDIA RTXシリーズに特化。4-bit + 6-bit + 8-bitをモデル内で混合 — perplexity損失1%未満。ExLlamaV3は2025年後半リリース、量子化効率向上。

MXFP4

OpenAIが2025年Microscaling FP4を標準化。NVIDIA Blackwell(B200、RTX 5090)でハードウェアアクセラレート。INT4より品質が良くBF16比でメモリ1/4。

BitNet (1.58-bit)

Microsoftの研究。重みを-1、0、+1に。推論時の乗算がほぼなく非常に速い。2026年にBitNet b1.58 3Bと7BモデルがHugging Faceに公開。実験的だが組込み / モバイルへのポテンシャルが大きい。

どれを選ぶべきか

- デスクトップ / ノート、Ollama / llama.cpp → **GGUF Q4_K_M**

- vLLMサーバー、NVIDIA GPU → **AWQ**

- 単一NVIDIA、最高効率 → **EXL3**

- Apple Silicon → **MLX 4-bit**

第15章 · 2026年5月の推奨ローカルモデルTOP

汎用 — Llama 4 Scout 109B MoE

Metaの[Llama 4 Scout](https://huggingface.co/meta-llama/Llama-4-Scout-109B-Instruct)。16-of-128エキスパートMoE。アクティブパラメータ17Bで推論コストは17B級、品質は70Bに近い。M4 Max 128GBで毎秒24トークン。コンテキスト1Mトークン。

汎用 (実用) — Llama 3.3 70B

[Llama 3.3 70B Instruct](https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct)。70Bクラスの標準。GPT-4 Turboレベル。Q4_K_Mで42GB。デュアルRTX 5090またはM2 Ultra 64GB。

推論 — DeepSeek R1 Distill 32B

[DeepSeek R1](https://www.deepseek.com/)のLlama / Qwenディスティルシリーズ。**32B Q4 = 単一RTX 4090で可能**。o1-mini級の推論性能。数学、コード、論理問題に強い。

ollama pull deepseek-r1:32b

ollama pull deepseek-r1:7b # ノート向け

多言語 — Qwen 3 14B

[Alibaba Qwen 3](https://qwenlm.github.io/)。韓 / 中 / 日 / 英すべて強い。日本語テキストではLlamaよりしばしば優勢。14Bは単一RTX 4070(12GB)でQ4_K_Mで動かせる。

小型モデル王者 — Phi-4 14B

[Microsoft Phi-4](https://huggingface.co/microsoft/phi-4)。「データキュレーションが答え」の結果物。14Bなのに70B級ベンチマーク。ノート用としてコスパ1位。

超小型強者 — Gemma 3 12B / 4B

Googleの[Gemma 3](https://huggingface.co/google/gemma-3-12b-it)。12B / 4B / 1Bラインアップ。モバイル / 組込み / ノート。7Bクラスより小さくて比較可能なパフォーマンス。

軽量 + 多言語 — MiniCPM 3.0 4B

OpenBMBの[MiniCPM 3.0](https://huggingface.co/openbmb/MiniCPM3-4B)。4Bで8Bモデルと同等。モバイル / エッジ最適。

コード — DeepSeek Coder V2 Lite 16B

[DeepSeek Coder V2](https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct)。16B MoE(アクティブ2.4B)。Q4で10GB。Continue.devやClineのバックエンドとして人気。

マルチモーダル — LLaVA 34B、Qwen2-VL 7B、Pixtral 12B

画像 + テキスト。LLaVAは標準、Qwen2-VLは多言語強み、PixtralはMistralのビジョンモデル。

ollama pull llava:34b

ollama pull qwen2-vl:7b

第16章 · 音声モード — STT + LLM + TTS

STT (音声 → テキスト)

- **OpenAI Whisper** — 標準。base / small / medium / large-v3。large-v3はGPU 4GB。

- **faster-whisper** — CTranslate2バックエンド。CPU / GPU両方速い。

- **whisper.cpp** — C++ポート、Apple Silicon Metalアクセラレート。

- **Distil-Whisper** — Whisperのディスティル、6倍速い。

TTS (テキスト → 音声)

- **Piper** — Rhasspyプロジェクト。CPU速い、韓国語ボイスあり。

- **Coqui XTTS v2** — 多言語 + voice cloning。(Coquiは2024年解散、モデルは維持)

- **F5-TTS** — 2025年リリース。英語 / 中国語の自然さがトップクラス。voice cloning可能。

- **Kokoro** — 非常に小さい(82M)英語TTS。ノートCPUでリアルタイム。

- **Cartesia Sonic** — 商用APIだが非常に速い。

Open WebUI音声統合

設定 → オーディオ

STT: faster-whisper (ローカル) または Whisper API

TTS: Piper (ローカル)、Kokoro (ローカル)、ElevenLabs (クラウド)

マイクアイコンを押せばSTT → LLM → TTSパイプラインが動く。運転中でもChatGPTのように会話できる。

第17章 · コードアシスタント — Continue.dev + Ollama

Continue.dev

[Continue.dev](https://www.continue.dev/)はVSCode / JetBrains拡張。Cursor / Copilot代替。モデルバックエンドを自由選択 — ローカルOllama可能。

// ~/.continue/config.json

{

"models": [

{

"title": "Local Coder",

"provider": "ollama",

"model": "deepseek-coder-v2:16b-lite-instruct",

"apiBase": "http://localhost:11434"

}

"tabAutocompleteModel": {

"title": "Tab",

"provider": "ollama",

"model": "qwen2.5-coder:7b"

}

Tab自動補完はQwen2.5-Coder 7B(速い)、ChatはDeepSeek Coder V2 16B(品質)。100%ローカル、APIコスト0、コードが外に出ない。

Cline + Ollama

[Cline](https://cline.bot/)(旧Claude Dev)はエージェント型。ファイル読み書き、コマンド実行、Plan / Actモード。Ollamaバックエンドも対応するが、70B+の推論モデル推奨 — エージェント作業が重い。

aider

[aider](https://aider.chat/)はターミナルペアプログラマー。Gitベース。Ollamaバックエンド。

aider --model ollama/qwen2.5-coder:32b

第18章 · Apple Intelligence — OSレベルのオンデバイス

[Apple Intelligence](https://www.apple.com/apple-intelligence/)はiOS 18、iPadOS 18、macOS 15 Sequoia、visionOS 2でGA。核は2つ。

1. **オンデバイス3Bモデル** — Apple Silicon NPUで動作。通知要約、Mail返信提案、テキストクリーンアップ、Image Playground。

2. **Private Cloud Compute (PCC)** — より大きなモデルが必要な時、Apple Siliconサーバーへ委任。ただしログがディスクに書かれず、認証されたコードのみ実行というセキュリティモデル(外部セキュリティ研究者にコード公開)。

Foundation Modelsフレームワーク

let session = LanguageModelSession()

let resp = try await session.respond(to: "メモを3行で要約して")

iOS 18.2+ / macOS 15.2+で使用可。3Bモデル限定だが無料、無制限。

限界

- 英語優先リリース。韓国語 / 日本語は2025年段階的GA

- 3Bでは複雑なタスクが難しい — だからPCC委任

- デバイスがiPhone 15 Pro以上、M1以上

第19章 · Phi Silica — Windows 11のオンデバイスAI

Microsoftは[Phi Silica](https://blogs.windows.com/windowsexperience/2024/05/20/unlocking-ai-productivity-and-creativity-with-copilot-pcs-windows-11-features/) 3.8BモデルをSnapdragon X Elite / Intel Core Ultra / AMD Ryzen AIのNPUに搭載。Windows 11 24H2以降Copilot+ PCで標準。

機能

- テキスト要約、書き換え、翻訳

- コード補助(Visual Studio統合)

- 画像生成(Cocreator)

- 検索(Recall — ユーザー画面キャプチャ → 意味検索)

Recallは2024年発表直後にセキュリティ論争で延期、2025年オプトイン + E2E暗号化で再リリース。

開発者API

Windows Copilot Runtimeに[Microsoft.Windows.AI.Generative](https://learn.microsoft.com/en-us/windows/ai/)名前空間。C# / Rust / C++すべて呼び出し可能。

第20章 · Gemini Nano — AndroidとChrome

[Gemini Nano](https://deepmind.google/technologies/gemini/)はGoogleの最小Gemini変種。Pixel 8 Pro以上、一部Galaxy S24+、Chromeデスクトップ(2026年5月時点でCanary / Beta + 一部安定版)で使用可能。

Chrome Built-in AI

// 2026年5月時点でOrigin Trial有効

const session = await ai.languageModel.create({

systemPrompt: "あなたは要約専門家です。",

})

const summary = await session.prompt("この記事を3行で要約: ...")

ブラウザの中にLLMが入った。ネットワークコール0、コスト0。WebアプリがついにオフラインLLMを活用できる。

Android AICore

val generativeModel = GenerativeModel(modelName = "gemini-nano")

val response = generativeModel.generateContent("要約して")

第21章 · 韓国のローカルAIエコシステム

Lablup Backend.AI

[Lablup](https://www.lablup.com/)のBackend.AIはLLM学習 / 推論プラットフォーム。社内GPUクラスタでvLLM、Triton、TensorRTを統合管理。2026年韓国公企業 / 大企業の導入多数。

Upstage Solar

[Upstage](https://www.upstage.ai/)のSolarは10.7B / Pro / Miniラインアップ。Solar Mini 2.4Bはノートのローカルでも動作 — Ollamaに登録。

ollama pull upstage/solar-pro-preview

Naver Cloud HyperCLOVA X

NaverのHyperCLOVA X SEED 3Bモデルはオープン重み(2025年公開)。韓国語特化。Hugging Faceに登録されておりllama.cpp / Ollamaで変換利用可能。

KT、SKT、LG

- KT Mi:dm、SKT A.X 4.0 — 自社7Bモデル(一部重み公開)

- LG AI Research EXAONE 3.5 — 2.4B / 7.8B / 32Bモデル。非商用ライセンスだが研究目的自由

ollama pull exaone3.5:7.8b

第22章 · 日本のローカルAIエコシステム

ELYZA

[ELYZA](https://elyza.ai/)(東大スピンオフ)。Llamaベースの日本語チューニングモデル。ELYZA-japanese-Llama-3-8BをOllamaで直接使用。

Rinna

[Rinna](https://rinna.co.jp/)。MS Japanスピンオフ。日本語GPT、BERT、Llamaチューニング。音声合成 / 認識も。

Stockmark

[Stockmark-100B](https://stockmark.co.jp/)。日本語100Bモデル、ビジネスドメイン特化。重み一部公開。

PFN PLaMo

[Preferred Networks](https://www.preferred.jp/)のPLaMo。13B / 100B。PLaMo Liteは重み公開でノートのローカル運用も可。

CyberAgent CALM

[CyberAgent](https://www.cyberagent.co.jp/) CALM3 22B。日本語 + 対話チューニング。Q4で単一RTX 4090。

第23章 · 運用ノウハウ — 1GPUでN個のモデル

1つのGPUに2モデルを同時に載せるとVRAM OOMが頻発する。解決策3つ。

1. Hot-swap (Ollamaデフォルト)

Ollamaは`keep_alive`パラメータでモデルをメモリに保持 / 解放する。

使用しなければ30秒後にアンロード

ollama run qwen2.5:7b --keep-alive 30s

無限保持

ollama run llama3.3:70b --keep-alive -1

2. モデルルーター

サービスごとに異なるモデルが必要なら、LiteLLMやOpenRouterセルフホスティングでルーティング。

litellm config.yaml

model_list:

- model_name: chat

litellm_params:

model: ollama/qwen2.5:14b

api_base: http://localhost:11434

- model_name: code

litellm_params:

model: ollama/deepseek-coder-v2:16b

api_base: http://localhost:11434

3. vLLMの連続バッチング

複数ユーザーが同時に呼び出すと、vLLMはPagedAttentionで1モデルにN個のリクエストを同時処理する。単一70Bモデルで10人が同時にチャット可能。

第24章 · RAGパターン — ローカル埋め込み

埋め込みモデル (ローカル)

- **nomic-embed-text** — 768次元、英語SOTAクラス、Ollama登録

- **mxbai-embed-large** — 1024次元、より良い、やや遅い

- **bge-m3** — 多言語強い(韓 / 日 / 中)

- **multilingual-e5-large** — 多言語 / ノートフレンドリー

ollama pull nomic-embed-text

ollama pull mxbai-embed-large

ollama pull bge-m3

ローカルベクトルDB

- **LanceDB** — 組込み、ディスクベース、単一ファイル。AnythingLLMデフォルト。

- **ChromaDB** — Pythonライブラリ + サーバーモード

- **Qdrant** — Rustサーバー、非常に速い

- **Weaviate** — フルスタック

- **Milvus** — 大容量

db = lancedb.connect("./data")

table = db.create_table("docs", schema=...)

table.add([{"vector": embed("文章"), "text": "文章"}])

table.search(embed("query")).limit(5).to_pandas()

第25章 · セキュリティとコンプライアンス

「ローカルだから安全か?」 — そうではない

ローカルLLMはクラウドLLMの一部リスクを解消するが、新しいリスクも生む。

- **プロンプトインジェクション** — ドキュメント内に隠された「前の指示を無視して...」 → ローカルでも同じ

- **データ漏洩** — RAGが権限のないドキュメントを取り込む可能性

- **モデル完全性** — Hugging Faceから取得したモデルにバックドアの可能性 — 公式チャネルのみ使用

- **fine-tuning漏洩** — 会社データでチューンしたモデル重みからPIIが抽出される可能性

運用ガイド

- すべてのモデルは公式オリジンから(Meta、Microsoft、Google、Alibaba、DeepSeekの公式HF org)

- ダウンロード後ハッシュ検証

- 社内RAGにはaccess control(AnythingLLMワークスペース単位)

- ロギングと監査 — Open WebUIのadminログをSIEMへ

コンプライアンスマッピング

| 規制 | クラウドLLM | ローカルLLM |

| --- | --- | --- |

| GDPR | データ転送、DPA必要 | データ非転送、一部免除 |

| HIPAA | BAA必要 | 自社インフラ — 制御可能 |

| 韓国PIPA | 国外移転同意 | 国内処理 — シンプル |

| 日本APPI | 同意 + 安全措置 | 同様だが外部リスク少 |

| 金融保安院 (韓国) | クラウドセキュリティ認証必須 | インフラ自社制御 |

第26章 · 結論 — ローカルAIは2026年の基本技

ローカルLLMは2023年は趣味、2024年は実験、2025年はオプションだった。2026年は**デベロッパの基本技**だ。

- **ノート1台** + Ollama + Continue.dev → 会社APIコスト削減 + コードが漏れない

- **社内GPUサーバー** + Open WebUI + AnythingLLM → 会社ChatGPTを自前運用

- **iPhone** + Apple Intelligence → OSが勝手に処理

- **個人ノート** + Reor / Khoj → すべてのノートを意味ベース検索

今すぐ試せる5分ワークフロー。

1. Ollamaインストール

brew install ollama

2. モデル取得

ollama pull qwen2.5:14b-instruct

3. チャット

ollama run qwen2.5:14b-instruct

4. Open WebUI起動 (Dockerがあるなら)

docker run -d -p 3000:8080 \

-v open-webui:/app/backend/data \

--add-host=host.docker.internal:host-gateway \

ghcr.io/open-webui/open-webui:main

ブラウザで`http://localhost:3000`を開けば、あなただけのChatGPTがノートの上で動いている。データは1粒たりとも出ず、コストは電気代だけで、飛行機Wi-Fiがなくても動く。これが2026年の風景だ。

第27章 · 参考資料

- Ollama公式 — https://ollama.com/

- Ollamaモデルライブラリ — https://ollama.com/library

- LM Studio — https://lmstudio.ai/

- Jan — https://jan.ai/

- Msty — https://msty.app/

- GPT4All — https://gpt4all.io/

- Open WebUI — https://openwebui.com/

- LibreChat — https://www.librechat.ai/

- AnythingLLM — https://anythingllm.com/

- PrivateGPT — https://privategpt.dev/

- Khoj — https://khoj.dev/

- Reor — https://reor.app/

- Pinokio — https://pinokio.computer/

- Chatbox — https://chatboxai.app/

- llama.cpp — https://github.com/ggml-org/llama.cpp

- MLX-LM — https://github.com/ml-explore/mlx-examples

- Llamafile — https://github.com/Mozilla-Ocho/llamafile

- Continue.dev — https://www.continue.dev/

- Cline — https://cline.bot/

- aider — https://aider.chat/

- Hugging Face — https://huggingface.co/

- Apple Intelligence — https://www.apple.com/apple-intelligence/

- Microsoft Phi Silica — https://learn.microsoft.com/en-us/windows/ai/

- Chrome Built-in AI — https://developer.chrome.com/docs/ai

- Lablup Backend.AI — https://www.lablup.com/

- Upstage Solar — https://www.upstage.ai/

- LG EXAONE — https://www.lgresearch.ai/

- ELYZA — https://elyza.ai/

- Preferred Networks PLaMo — https://www.preferred.jp/

- CyberAgent CALM — https://www.cyberagent.co.jp/