ローカルAI & オンデバイスLLM 2026 完全ガイド — Ollama · LM Studio · Jan · Msty · Open WebUI · GPT4All · AnythingLLM · Faraday 徹底解説

第1章 · なぜ2026年のローカルAIなのか

3年前、「ローカルLLM」と言えば7Bモデルを4-bit量子化してRTX 3090に押し込み、GPT-3.5の半分くらいの品質が得られる趣味の世界だった。2026年5月の風景は全くの別物だ。

M4 Max MacBook Pro 128GBモデルでLlama 4 Scout 109B MoEが毎秒24トークン動く
RTX 5090 24GBはDeepSeek R1 Distill 32Bを毎秒12トークンで処理する
iPhone 16 ProはApple Intelligenceの3BモデルをOSが自動的に呼び出す
Snapdragon X EliteノートはPhi Silica 3.8BをNPUで動かす

ローカルAIが魅力的な4つの理由はシンプルだ。

プライバシー — 入力が会社の外に出ない。GDPR、HIPAA、韓国PIPA、日本のAPPI、すべて解決
コスト — APIの請求書がない。電気代だけだ(それもノートなら無視できる)
オフライン — 飛行機、地下、カフェWi-Fi — インターネットなしでも動く
実験 — 新モデルが発表されたら5分以内に試せる。fine-tuning、LoRA、RAGも自由

本稿は2026年5月時点、デベロッパがデスクトップ / ノート / モバイルでLLMを動かそうとするとき知るべきすべてを整理する。ランタイム、GUI、バックエンド、量子化フォーマット、推奨モデル、運用ノウハウまで。

第2章 · ハードウェア — VRAMとユニファイドメモリの時代

ローカルLLMの最初の関門はメモリだ。一般的なガイドライン。

モデルサイズ	精度	推奨VRAM/RAM	備考
3B	INT4	4GB	モバイル / 低スペックノート
7B	INT4 (Q4_K_M)	8GB	RTX 3060、M1/M2 8GB
7B	INT8	12GB	RTX 3060 12GB、M2 16GB
13B	INT4	12〜14GB	RTX 4070、M2 24GB
32B	INT4	22〜24GB	RTX 4090、M3 Max 36GB
70B	INT4	42〜48GB	RTX 5090デュアル、M2 Ultra 64GB
70B	INT8	80GB+	A100 80GB、M3 Ultra 192GB
405B	INT4	240GB+	マルチGPUノード、M3 Ultra 192GB 2台クラスタリング

NVIDIA vs Apple Silicon

NVIDIA陣営はPCIe + GDDRが強み。トークン生成がGPU単独なので速度が圧倒的。RTX 5090は32GB GDDR7で32Bモデル推論におけるトークンあたり遅延が最短だ。

一方Apple Siliconは**ユニファイドメモリ(Unified Memory)**が武器。M3 Ultra Mac Studioは192GB UMAで70Bモデルを16-bitでも動かす。NVIDIAで同等構成にはH100 80GBが2枚必要だ(価格比較自体が成り立たない)。

M4 Max 128GB — 109B MoEモデルまで — 約7,000USD
M3 Ultra 192GB — 70BモデルBF16 — 約9,500USD
RTX 5090 24GB — 32BモデルQ4 — 約2,200USD + 別途システム

選択基準は明快だ。70B+モデルを頻繁に動かしノートで使うならMac、32B以下 + コスパ + ゲーム兼用ならNVIDIA。

第3章 · Ollama — 最も愛されるローカルランタイム

Ollamaは2023年Y Combinator W24バッチ出身の会社だ。MITライセンス、llama.cppの上に乗せたCLI / REST API + モデルレジストリが核。2026年5月時点でGitHubスター145,000+。

インストールと初実行

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# デーモン起動
ollama serve

# モデルのダウンロード & 実行
ollama run llama3.3:70b-instruct-q4_K_M

# 7Bを素早く
ollama run qwen2.5:7b-instruct

ollama runの1行でモデルダウンロード → 量子化抽出 → 推論サーバー起動 → チャット開始。他のランタイムが5ステップでやることを1行でやる。

Modelfile — Dockerfileのようなモデル定義

FROM llama3.3:70b-instruct-q4_K_M
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM """
あなたは韓国語データエンジニアリングアシスタントです。SQLとPySparkを優先します。
"""

ollama create yj-de -f Modelfile
ollama run yj-de

独自のシステムプロンプト + パラメータをモデルとしてパッケージできる。会社単位で標準プロンプトを共有するときに強力。

Ollama REST API

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.3:70b-instruct-q4_K_M",
  "messages": [{"role": "user", "content": "Linuxメモリキャッシュポリシー説明して"}],
  "stream": false
}'

OpenAI互換モードもあるので、langchain、llamaindex、OpenAI SDKすべてbase URLを変えるだけでそのまま動く。

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
resp = client.chat.completions.create(
    model="qwen2.5:14b-instruct",
    messages=[{"role": "user", "content": "こんにちは"}]
)

Ollamaモデルレジストリ

ollama pull一行で取得。2026年5月の主要モデルタグ。

ollama pull llama3.3:70b-instruct-q4_K_M
ollama pull deepseek-r1:32b-distill-q4_K_M
ollama pull qwen3:14b-instruct
ollama pull phi4:14b
ollama pull gemma3:27b-instruct
ollama pull mistral-small:22b
ollama pull mixtral:8x7b-instruct-q4_K_M
ollama pull deepseek-coder-v2:16b-lite-instruct
ollama pull minicpm3:4b
ollama pull llava:34b

Ollamaの限界

GUIが貧弱(別途クライアント必要 — Open WebUI、Mstyなど)
マルチGPU分散は限定的(vLLMが圧倒)
Fine-tuningツールなし — 別途unsloth / axolotlが必要
メモリ管理が粗い — 同時に2モデルロードするとOOM頻発

それでも**「5分以内にローカルLLMを一度動かしてみたい」**の答えは2026年もOllamaだ。

第4章 · LM Studio — GUI中心のデスクトップ

LM StudioはElement Labs(サンフランシスコ)が作ったデスクトップアプリ。無料だがクローズドソース。macOS / Windows / Linux全対応。

強み

モデルブラウザ — Hugging Face検索をアプリ内で。モデルカード、量子化オプション、メモリ推定まで1画面
チャットUI — マルチセッション、プロンプトテンプレート、停止 / 再生成ボタン
ローカルサーバー — OpenAI互換APIをワンクリックで公開
MLXアクセラレーション — Apple Siliconでllama.cppより30〜50%速いMLXバックエンドを自動選択
ハードウェアプロファイラー — GPU / CPU分割比率をスライダーで

シナリオ

ラップトップで2つのモデルを並べて比較評価を頻繁にする人に最適。OllamaはCLIなので毎回ollama runを打つが、LM Studioはグラフィカルインターフェースで1セッション内でモデルをトグルできる。

弱み

クローズドソース — 企業導入時セキュリティ審査の負担
モデルディレクトリが標準化されていない — Ollamaモデルと互換なし、別途ダウンロードが必要
macOSはApple Silicon専用ビルド。Intel Macサポート終了
Linuxビルドはしばしば1〜2リリース遅れる

第5章 · Jan — 真のオープンソースデスクトップ

JanはHomebrew Researchが運営する100%オープンソース(AGPL-3.0)のデスクトップLLMアプリ。Electron + TypeScript。2026年5月時点でGitHubスター28,000+。

特徴

プラグインマーケット — 機能をモジュールでオン/オフ(RAG、ウェブ検索、コードインタプリタ)
複数バックエンド — llama.cpp、MLX、TensorRT、vLLM互換 — 1アプリで全部選べる
クラウドモデル混在 — OpenAI / Anthropic / Mistral / Groq APIキーを入れれば同じUIでクラウドも — 「今日はClaude、昨日はローカル」式にトグル
データ主権 — すべてのチャットログがローカルSQLite。分析 / エクスポート自由

使用シナリオ

「デスクトップにChatGPTのようなインターフェースが必要だが、OpenAIに依存したくない」
「ローカルとクラウドを1画面で比較」
「エンタープライズ — 社内ポリシー上クローズドソースのデスクトップアプリは禁止」

Jan API

JanもOpenAI互換APIを提供する。

# デフォルトポート
curl http://localhost:1337/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.3-70b-q4",
    "messages": [{"role": "user", "content": "hello"}]
  }'

第6章 · Msty — クローズドソースの強者

Mstyは1人開発者が作ったデスクトップアプリ。個人利用無料、チームライセンス有料。macOS / Windows / Linux。クローズドソースだが評価が非常に高い。

差別点

Branchチャット — 1メッセージから分岐して2つの回答を並列生成。比較評価が圧倒的に速い
Knowledge Stacks — フォルダ / PDF / URLをドラッグすると自動RAG。AnythingLLMのような別途セットアップ不要
Workspaces — プロジェクトごとにチャット / モデル / RAGを分離。Lightroomのカタログ比喩
ローカル + クラウド同時比較 — 1プロンプトをClaude / GPT / ローカルLlamaに同時送信

価格

個人無料
Pro (個人) 99USD / 年 — ワークスペース無制限、クラウド同期
Team — シートあたり159USD / 年

LM Studioが「単なるモデルブラウザ + チャット」なら、Mstyは「リサーチ / 知識作業ワークベンチ」のポジショニングだ。

第7章 · Open WebUI — セルフホスト型ChatGPT

Open WebUI(旧名Ollama WebUI)はTim Jaeryang Baekが始めたセルフホスティングのChatGPTクローン。MITライセンス、Python(FastAPI) + Svelte。GitHubスター78,000+。

なぜ人気か

Ollama接続自動 — ホストでOllamaが動いていればモデルを自動認識
マルチユーザー — ログイン / 権限 / グループ / モデル別アクセス制御
RAG内蔵 — ドキュメントアップロード → ベクトル検索 → コンテキスト注入
音声入出力 — Whisper(STT) + Piper / Cartesia / ElevenLabs(TTS)
関数呼び出し(Tools) — JS / Python関数をモデルが呼び出す
Pipelines — ミドルウェアパターン — ロギング、フィルタリング、マルチモデルルーティング
Docker1行インストール

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

ブラウザでhttp://localhost:3000を開くとChatGPTとほぼ同じUI。社内GPUサーバーに載せれば会社全体が使える — データは1粒たりとも外に出ない。

運用Tips

Postgres + Redisバックエンドに切り替えるとマルチノード拡張
Ollamaが同一ホストならOLLAMA_BASE_URL=http://host.docker.internal:11434
vLLMやLM StudioもOpenAI互換なので同じパターンで接続

第8章 · LibreChat — マルチプロバイダーチャット

LibreChatはOpen WebUIよりクラウド統合に強み。OpenAI、Anthropic、Google、Mistral、Ollama、vLLM、llama.cppサーバーすべてが1画面で。

特徴

プラグインシステム(DALL-E、Wolfram、Zapier)
モデル比較モード — 1プロンプトをN個のモデルに同時送信
Assistants API互換
多言語i18nフル対応(韓 / 日 / 中含む)

いつ使うか

「会社がクラウドとローカルモデルを両方使う。2つのインターフェースを置きたくない」
「ChatGPT Proの代わりに社内統合インターフェース」
「エンタープライズSSO / SAML必要」

第9章 · GPT4All — Nomicのローカルチャット

GPT4AllはNomic AI(Atlas埋め込み可視化で有名)が運営する。デスクトップアプリ + Python SDK。MITライセンス。

from gpt4all import GPT4All
model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf")
resp = model.generate("ローカルLLMのメリットは?", max_tokens=200)
print(resp)

強み

CPU優先設計 — GPUがなくてもそこそこ動く
LocalDocs — フォルダRAGがデフォルト提供
デスクトップ + SDK統合 — デスクトップGUIで作成したRAGコレクションをPythonからも同じコレクションで使用

弱み

最新モデル対応がOllamaより遅い(Llama 4などは2026年5月時点で未対応)
パフォーマンスはllama.cpp直接使用比5〜10%遅い

第10章 · AnythingLLM — ローカルRAGの強者

AnythingLLMはMintplex Labs(ボストン)が作ったフルスタックRAGデスクトップ / Dockerアプリ。MITライセンス、Node.js + React。デスクトップビルドとDockerセルフホストビルドが両方ある。

コアコンポーネント

ワークスペース — ドキュメント、チャット、埋め込み、モデル設定をまとめた単位
エージェント — 関数呼び出し、ウェブ検索、コード実行
複数LLMバックエンド — Ollama / LM Studio / OpenAI / Anthropic / Mistral / Together
埋め込みバックエンド — sentence-transformers、OpenAI、Cohere、Ollama nomic-embed
ベクトルDB内蔵 — LanceDBデフォルト、Chroma / Pinecone / Weaviate / Qdrantオプション
ドキュメントコネクタ — PDF、DOCX、MD、GitHub repo、Confluence、Notion、ウェブクローラー

シナリオ — 社内Wikiボット

1. AnythingLLM Docker起動
2. ワークスペース「engineering-wiki」作成
3. Confluenceコネクタを接続、インデックス化(24時間ごとに自動再インデックス)
4. OllamaでモデルをQwen2.5:14bに設定
5. SlackボットまたはOpen WebUIからAPIで呼び出し

会社導入を最速で進められるフルスタックRAGソリューションの1つ。

第11章 · PrivateGPT、Khoj、Reor — 特化ツール

PrivateGPT

PrivateGPTはIván Martínez(開発者)が始めた。Pythonベース。100%ローカルRAG、外部API 0件が目標。セキュリティ / 規制業界がよく使う。やや重い(モデル + 埋め込み + ベクトルDBが1プロセス)。

Khoj

KhojはKhoj Inc.が運営する「個人AIアシスタント」。ノート(Obsidian、Notion)、メール、カレンダーをインデックス化してチャットで検索する。

macOS / Windows / Linuxデスクトップ
iOS / Androidアプリ
セルフホストDockerオプション

Reor

Reorは「AIネイティブノートアプリ」。Obsidianに似たMarkdownノートだが、自動埋め込みですべてのノートを意味ベースで接続する。すべてのモデル推論と埋め込みがローカル。

第12章 · Faraday、Pinokio、Chatbox

Faraday (レガシー)

Faraday.devはキャラクターチャット中心のデスクトップアプリだった。2025年事実上開発停止状態(2026年5月時点)。ユーザーはSillyTavern、AI Hordeに移行した。歴史的意義として言及。

Pinokio

Pinokioは「AIスクリプトのパッケージマネージャ」。ComfyUI、AUTOMATIC1111、Whisper、Barkのようなツールをワンクリックでインストール / 実行。JSONベースのレシピシステム。

使用ケース:
- 画像生成 / 音声 / 動画ツールを素早く試す
- ComfyUIワークフローを友人に共有
- デモ環境セットアップ自動化

Chatbox

ChatboxはマルチプラットフォームのチャットUI。iOS、Android、macOS、Windows、Linux、Web。OpenAI / Claude / Gemini / Ollamaバックエンド。クローズドソースだがモバイル対応が強く出張用に人気。

Page Assist

Page AssistはChrome拡張。現在見ているWebページにOllamaで質問。サイドパネルでチャット、コンテキストメニューで要約。軽量RAG。

第13章 · バックエンドエンジン — llama.cpp / MLX / vLLM / TensorRT

llama.cpp

Georgi Gerganovが2023年に始めたC++推論エンジン。Ollama、LM Studio、Jan、GPT4Allの基盤。CPUとGPU(CUDA、Metal、ROCm、Vulkan、SYCL)すべて対応。

# ソースビルド
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make -j8 LLAMA_METAL=1   # macOS
make -j8 LLAMA_CUDA=1    # Linux NVIDIA

# 実行
./llama-cli -m models/qwen2.5-14b-instruct-q4_k_m.gguf -p "こんにちは"
./llama-server -m models/llama-3.3-70b-q4_k_m.gguf --port 8080

直接ビルドして使うとOllamaより10〜20%速く、オプションも遥かに豊富。欠点はモデルダウンロード / 管理が手動。

MLX-LM

Apple Silicon専用。MLXはApple機械学習リサーチチームが作ったNumPyスタイルのテンソルライブラリ。MLX-LMはその上に乗ったLLM推論ツール。

pip install mlx-lm
mlx_lm.generate --model mlx-community/Llama-3.3-70B-Instruct-4bit --prompt "hi"
mlx_lm.server --model mlx-community/Qwen2.5-14B-Instruct-4bit --port 8080

M3 / M4ではllama.cppのMetalバックエンドより30〜50%速い。LM StudioがMLXを自動選択する理由だ。欠点: Apple Silicon限定、NVIDIA / AMD未対応。

vLLM / SGLang / TGI

サーバー級。1つのモデルを多数の同時リクエストに処理する(PagedAttention、continuous batching)。ノート1人使用にはオーバースペックだが、社内サーバーにLLMを載せて10人で使うシナリオの正解。別記事で詳しく扱うのでここでは短く。

pip install vllm
vllm serve Qwen/Qwen2.5-14B-Instruct --port 8080

TensorRT-LLM

NVIDIA専用。CUDA最適化推論。H100 / B200 / RTX 5090で最大スループット。ビルドステップが複雑だがプロダクションサーバーで比較不可のスループット。

Llamafile

MozillaのLlamafileはllama.cpp + モデルを単一実行ファイルにまとめる。macOS、Linux、Windowsすべて同じファイル1つで実行。マルチOSデモ、エアギャップ環境に強い。

chmod +x llava-v1.5-7b-q4.llamafile
./llava-v1.5-7b-q4.llamafile --server

第14章 · 量子化フォーマット — GGUF / AWQ / GPTQ / EXL / MXFP4 / BitNet

オリジナルモデルは通常BF16(2バイト / パラメータ)。7Bモデルは14GB。ノートではしんどい。量子化は精度を下げてメモリを節約する。

GGUF (llama.cpp標準)

Q2_K (最小、品質低、ほぼ使わない)
Q3_K_M (3-bit、7Bを3GBに — モバイル)
Q4_K_M (4-bit、「バランスポイント」、最頻出)
Q5_K_M (5-bit、品質より良し)
Q6_K (6-bit、BF16とほぼ同等)
Q8_0 (8-bit、BF16比で品質差ほぼなし、メモリは半分)
FP16 / BF16 (量子化なし、オリジナル)

Q4_K_Mは7Bモデルを4.5GB程度に削減しながらperplexity損失が2〜3%。圧倒的な選択肢。

AWQ (Activation-aware Weight Quantization)

vLLM、TGIがよく使う。GPTQより推論速度が速く、品質も同程度。4-bitが標準。

GPTQ

古いタイプ。AutoGPTQで量子化。4-bit標準。AWQに徐々に席を譲っている。

EXL2 / EXL3

ExLlamaV2 / V3。NVIDIA RTXシリーズに特化。4-bit + 6-bit + 8-bitをモデル内で混合 — perplexity損失1%未満。ExLlamaV3は2025年後半リリース、量子化効率向上。

MXFP4

OpenAIが2025年Microscaling FP4を標準化。NVIDIA Blackwell(B200、RTX 5090)でハードウェアアクセラレート。INT4より品質が良くBF16比でメモリ1/4。

BitNet (1.58-bit)

Microsoftの研究。重みを-1、0、+1に。推論時の乗算がほぼなく非常に速い。2026年にBitNet b1.58 3Bと7BモデルがHugging Faceに公開。実験的だが組込み / モバイルへのポテンシャルが大きい。

どれを選ぶべきか

デスクトップ / ノート、Ollama / llama.cpp → GGUF Q4_K_M
vLLMサーバー、NVIDIA GPU → AWQ
単一NVIDIA、最高効率 → EXL3
Apple Silicon → MLX 4-bit

第15章 · 2026年5月の推奨ローカルモデルTOP

汎用 — Llama 4 Scout 109B MoE

MetaのLlama 4 Scout。16-of-128エキスパートMoE。アクティブパラメータ17Bで推論コストは17B級、品質は70Bに近い。M4 Max 128GBで毎秒24トークン。コンテキスト1Mトークン。

汎用 (実用) — Llama 3.3 70B

Llama 3.3 70B Instruct。70Bクラスの標準。GPT-4 Turboレベル。Q4_K_Mで42GB。デュアルRTX 5090またはM2 Ultra 64GB。

推論 — DeepSeek R1 Distill 32B

DeepSeek R1のLlama / Qwenディスティルシリーズ。32B Q4 = 単一RTX 4090で可能。o1-mini級の推論性能。数学、コード、論理問題に強い。

ollama pull deepseek-r1:32b
ollama pull deepseek-r1:7b   # ノート向け

多言語 — Qwen 3 14B

Alibaba Qwen 3。韓 / 中 / 日 / 英すべて強い。日本語テキストではLlamaよりしばしば優勢。14Bは単一RTX 4070(12GB)でQ4_K_Mで動かせる。

小型モデル王者 — Phi-4 14B

Microsoft Phi-4。「データキュレーションが答え」の結果物。14Bなのに70B級ベンチマーク。ノート用としてコスパ1位。

超小型強者 — Gemma 3 12B / 4B

GoogleのGemma 3。12B / 4B / 1Bラインアップ。モバイル / 組込み / ノート。7Bクラスより小さくて比較可能なパフォーマンス。

軽量 + 多言語 — MiniCPM 3.0 4B

OpenBMBのMiniCPM 3.0。4Bで8Bモデルと同等。モバイル / エッジ最適。

コード — DeepSeek Coder V2 Lite 16B

DeepSeek Coder V2。16B MoE(アクティブ2.4B)。Q4で10GB。Continue.devやClineのバックエンドとして人気。

マルチモーダル — LLaVA 34B、Qwen2-VL 7B、Pixtral 12B

画像 + テキスト。LLaVAは標準、Qwen2-VLは多言語強み、PixtralはMistralのビジョンモデル。

ollama pull llava:34b
ollama pull qwen2-vl:7b

第16章 · 音声モード — STT + LLM + TTS

STT (音声 → テキスト)

OpenAI Whisper — 標準。base / small / medium / large-v3。large-v3はGPU 4GB。
faster-whisper — CTranslate2バックエンド。CPU / GPU両方速い。
whisper.cpp — C++ポート、Apple Silicon Metalアクセラレート。
Distil-Whisper — Whisperのディスティル、6倍速い。

TTS (テキスト → 音声)

Piper — Rhasspyプロジェクト。CPU速い、韓国語ボイスあり。
Coqui XTTS v2 — 多言語 + voice cloning。(Coquiは2024年解散、モデルは維持)
F5-TTS — 2025年リリース。英語 / 中国語の自然さがトップクラス。voice cloning可能。
Kokoro — 非常に小さい(82M)英語TTS。ノートCPUでリアルタイム。
Cartesia Sonic — 商用APIだが非常に速い。

Open WebUI音声統合

設定 → オーディオ
  STT: faster-whisper (ローカル) または Whisper API
  TTS: Piper (ローカル)、Kokoro (ローカル)、ElevenLabs (クラウド)

マイクアイコンを押せばSTT → LLM → TTSパイプラインが動く。運転中でもChatGPTのように会話できる。

第17章 · コードアシスタント — Continue.dev + Ollama

Continue.dev

Continue.devはVSCode / JetBrains拡張。Cursor / Copilot代替。モデルバックエンドを自由選択 — ローカルOllama可能。

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Local Coder",
      "provider": "ollama",
      "model": "deepseek-coder-v2:16b-lite-instruct",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Tab",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

Tab自動補完はQwen2.5-Coder 7B(速い)、ChatはDeepSeek Coder V2 16B(品質)。100%ローカル、APIコスト0、コードが外に出ない。

Cline + Ollama

Cline(旧Claude Dev)はエージェント型。ファイル読み書き、コマンド実行、Plan / Actモード。Ollamaバックエンドも対応するが、70B+の推論モデル推奨 — エージェント作業が重い。

aider

aiderはターミナルペアプログラマー。Gitベース。Ollamaバックエンド。

aider --model ollama/qwen2.5-coder:32b

第18章 · Apple Intelligence — OSレベルのオンデバイス

Apple IntelligenceはiOS 18、iPadOS 18、macOS 15 Sequoia、visionOS 2でGA。核は2つ。

オンデバイス3Bモデル — Apple Silicon NPUで動作。通知要約、Mail返信提案、テキストクリーンアップ、Image Playground。
Private Cloud Compute (PCC) — より大きなモデルが必要な時、Apple Siliconサーバーへ委任。ただしログがディスクに書かれず、認証されたコードのみ実行というセキュリティモデル(外部セキュリティ研究者にコード公開)。

Foundation Modelsフレームワーク

import FoundationModels
let session = LanguageModelSession()
let resp = try await session.respond(to: "メモを3行で要約して")

iOS 18.2+ / macOS 15.2+で使用可。3Bモデル限定だが無料、無制限。

限界

英語優先リリース。韓国語 / 日本語は2025年段階的GA
3Bでは複雑なタスクが難しい — だからPCC委任
デバイスがiPhone 15 Pro以上、M1以上

第19章 · Phi Silica — Windows 11のオンデバイスAI

MicrosoftはPhi Silica 3.8BモデルをSnapdragon X Elite / Intel Core Ultra / AMD Ryzen AIのNPUに搭載。Windows 11 24H2以降Copilot+ PCで標準。

機能

テキスト要約、書き換え、翻訳
コード補助(Visual Studio統合)
画像生成(Cocreator)
検索(Recall — ユーザー画面キャプチャ → 意味検索)

Recallは2024年発表直後にセキュリティ論争で延期、2025年オプトイン + E2E暗号化で再リリース。

開発者API

Windows Copilot RuntimeにMicrosoft.Windows.AI.Generative名前空間。C# / Rust / C++すべて呼び出し可能。

第20章 · Gemini Nano — AndroidとChrome

Gemini NanoはGoogleの最小Gemini変種。Pixel 8 Pro以上、一部Galaxy S24+、Chromeデスクトップ(2026年5月時点でCanary / Beta + 一部安定版)で使用可能。

Chrome Built-in AI

// 2026年5月時点でOrigin Trial有効
const session = await ai.languageModel.create({
  systemPrompt: "あなたは要約専門家です。",
})
const summary = await session.prompt("この記事を3行で要約: ...")

ブラウザの中にLLMが入った。ネットワークコール0、コスト0。WebアプリがついにオフラインLLMを活用できる。

Android AICore

val generativeModel = GenerativeModel(modelName = "gemini-nano")
val response = generativeModel.generateContent("要約して")

第21章 · 韓国のローカルAIエコシステム

Lablup Backend.AI

LablupのBackend.AIはLLM学習 / 推論プラットフォーム。社内GPUクラスタでvLLM、Triton、TensorRTを統合管理。2026年韓国公企業 / 大企業の導入多数。

Upstage Solar

UpstageのSolarは10.7B / Pro / Miniラインアップ。Solar Mini 2.4Bはノートのローカルでも動作 — Ollamaに登録。

ollama pull upstage/solar-pro-preview

Naver Cloud HyperCLOVA X

NaverのHyperCLOVA X SEED 3Bモデルはオープン重み(2025年公開)。韓国語特化。Hugging Faceに登録されておりllama.cpp / Ollamaで変換利用可能。

KT、SKT、LG

KT Mi:dm、SKT A.X 4.0 — 自社7Bモデル(一部重み公開)
LG AI Research EXAONE 3.5 — 2.4B / 7.8B / 32Bモデル。非商用ライセンスだが研究目的自由

ollama pull exaone3.5:7.8b

第22章 · 日本のローカルAIエコシステム

ELYZA

ELYZA(東大スピンオフ)。Llamaベースの日本語チューニングモデル。ELYZA-japanese-Llama-3-8BをOllamaで直接使用。

Rinna

Rinna。MS Japanスピンオフ。日本語GPT、BERT、Llamaチューニング。音声合成 / 認識も。

Stockmark

Stockmark-100B。日本語100Bモデル、ビジネスドメイン特化。重み一部公開。

PFN PLaMo

Preferred NetworksのPLaMo。13B / 100B。PLaMo Liteは重み公開でノートのローカル運用も可。

CyberAgent CALM

CyberAgent CALM3 22B。日本語 + 対話チューニング。Q4で単一RTX 4090。

第23章 · 運用ノウハウ — 1GPUでN個のモデル

1つのGPUに2モデルを同時に載せるとVRAM OOMが頻発する。解決策3つ。

1. Hot-swap (Ollamaデフォルト)

Ollamaはkeep_aliveパラメータでモデルをメモリに保持 / 解放する。

# 使用しなければ30秒後にアンロード
ollama run qwen2.5:7b --keep-alive 30s

# 無限保持
ollama run llama3.3:70b --keep-alive -1

2. モデルルーター

サービスごとに異なるモデルが必要なら、LiteLLMやOpenRouterセルフホスティングでルーティング。

# litellm config.yaml
model_list:
  - model_name: chat
    litellm_params:
      model: ollama/qwen2.5:14b
      api_base: http://localhost:11434
  - model_name: code
    litellm_params:
      model: ollama/deepseek-coder-v2:16b
      api_base: http://localhost:11434

3. vLLMの連続バッチング

複数ユーザーが同時に呼び出すと、vLLMはPagedAttentionで1モデルにN個のリクエストを同時処理する。単一70Bモデルで10人が同時にチャット可能。

第24章 · RAGパターン — ローカル埋め込み

埋め込みモデル (ローカル)

nomic-embed-text — 768次元、英語SOTAクラス、Ollama登録
mxbai-embed-large — 1024次元、より良い、やや遅い
bge-m3 — 多言語強い(韓 / 日 / 中)
multilingual-e5-large — 多言語 / ノートフレンドリー

ollama pull nomic-embed-text
ollama pull mxbai-embed-large
ollama pull bge-m3

ローカルベクトルDB

LanceDB — 組込み、ディスクベース、単一ファイル。AnythingLLMデフォルト。
ChromaDB — Pythonライブラリ + サーバーモード
Qdrant — Rustサーバー、非常に速い
Weaviate — フルスタック
Milvus — 大容量

import lancedb
db = lancedb.connect("./data")
table = db.create_table("docs", schema=...)
table.add([{"vector": embed("文章"), "text": "文章"}])
table.search(embed("query")).limit(5).to_pandas()

第25章 · セキュリティとコンプライアンス

「ローカルだから安全か?」 — そうではない

ローカルLLMはクラウドLLMの一部リスクを解消するが、新しいリスクも生む。

プロンプトインジェクション — ドキュメント内に隠された「前の指示を無視して...」 → ローカルでも同じ
データ漏洩 — RAGが権限のないドキュメントを取り込む可能性
モデル完全性 — Hugging Faceから取得したモデルにバックドアの可能性 — 公式チャネルのみ使用
fine-tuning漏洩 — 会社データでチューンしたモデル重みからPIIが抽出される可能性

運用ガイド

すべてのモデルは公式オリジンから(Meta、Microsoft、Google、Alibaba、DeepSeekの公式HF org)
ダウンロード後ハッシュ検証
社内RAGにはaccess control(AnythingLLMワークスペース単位)
ロギングと監査 — Open WebUIのadminログをSIEMへ

コンプライアンスマッピング

規制	クラウドLLM	ローカルLLM
GDPR	データ転送、DPA必要	データ非転送、一部免除
HIPAA	BAA必要	自社インフラ — 制御可能
韓国PIPA	国外移転同意	国内処理 — シンプル
日本APPI	同意 + 安全措置	同様だが外部リスク少
金融保安院 (韓国)	クラウドセキュリティ認証必須	インフラ自社制御

第26章 · 結論 — ローカルAIは2026年の基本技

ローカルLLMは2023年は趣味、2024年は実験、2025年はオプションだった。2026年はデベロッパの基本技だ。

ノート1台 + Ollama + Continue.dev → 会社APIコスト削減 + コードが漏れない
社内GPUサーバー + Open WebUI + AnythingLLM → 会社ChatGPTを自前運用
iPhone + Apple Intelligence → OSが勝手に処理
個人ノート + Reor / Khoj → すべてのノートを意味ベース検索

今すぐ試せる5分ワークフロー。

# 1. Ollamaインストール
brew install ollama

# 2. モデル取得
ollama pull qwen2.5:14b-instruct

# 3. チャット
ollama run qwen2.5:14b-instruct

# 4. Open WebUI起動 (Dockerがあるなら)
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  ghcr.io/open-webui/open-webui:main

ブラウザでhttp://localhost:3000を開けば、あなただけのChatGPTがノートの上で動いている。データは1粒たりとも出ず、コストは電気代だけで、飛行機Wi-Fiがなくても動く。これが2026年の風景だ。

第27章 · 参考資料

Ollama公式 — https://ollama.com/
Ollamaモデルライブラリ — https://ollama.com/library
LM Studio — https://lmstudio.ai/
Jan — https://jan.ai/
Msty — https://msty.app/
GPT4All — https://gpt4all.io/
Open WebUI — https://openwebui.com/
LibreChat — https://www.librechat.ai/
AnythingLLM — https://anythingllm.com/
PrivateGPT — https://privategpt.dev/
Khoj — https://khoj.dev/
Reor — https://reor.app/
Pinokio — https://pinokio.computer/
Chatbox — https://chatboxai.app/
llama.cpp — https://github.com/ggml-org/llama.cpp
MLX-LM — https://github.com/ml-explore/mlx-examples
Llamafile — https://github.com/Mozilla-Ocho/llamafile
Continue.dev — https://www.continue.dev/
Cline — https://cline.bot/
aider — https://aider.chat/
Hugging Face — https://huggingface.co/
Apple Intelligence — https://www.apple.com/apple-intelligence/
Microsoft Phi Silica — https://learn.microsoft.com/en-us/windows/ai/
Chrome Built-in AI — https://developer.chrome.com/docs/ai
Lablup Backend.AI — https://www.lablup.com/
Upstage Solar — https://www.upstage.ai/
LG EXAONE — https://www.lgresearch.ai/
ELYZA — https://elyza.ai/
Preferred Networks PLaMo — https://www.preferred.jp/
CyberAgent CALM — https://www.cyberagent.co.jp/