Skip to content
Published on

ローカルAI & オンデバイスLLM 2026 完全ガイド — Ollama · LM Studio · Jan · Msty · Open WebUI · GPT4All · AnythingLLM · Faraday 徹底解説

Authors

第1章 · なぜ2026年のローカルAIなのか

3年前、「ローカルLLM」と言えば7Bモデルを4-bit量子化してRTX 3090に押し込み、GPT-3.5の半分くらいの品質が得られる趣味の世界だった。2026年5月の風景は全くの別物だ。

  • M4 Max MacBook Pro 128GBモデルでLlama 4 Scout 109B MoEが毎秒24トークン動く
  • RTX 5090 24GBはDeepSeek R1 Distill 32Bを毎秒12トークンで処理する
  • iPhone 16 ProはApple Intelligenceの3BモデルをOSが自動的に呼び出す
  • Snapdragon X EliteノートはPhi Silica 3.8BをNPUで動かす

ローカルAIが魅力的な4つの理由はシンプルだ。

  1. プライバシー — 入力が会社の外に出ない。GDPR、HIPAA、韓国PIPA、日本のAPPI、すべて解決
  2. コスト — APIの請求書がない。電気代だけだ(それもノートなら無視できる)
  3. オフライン — 飛行機、地下、カフェWi-Fi — インターネットなしでも動く
  4. 実験 — 新モデルが発表されたら5分以内に試せる。fine-tuning、LoRA、RAGも自由

本稿は2026年5月時点、デベロッパがデスクトップ / ノート / モバイルでLLMを動かそうとするとき知るべきすべてを整理する。ランタイム、GUI、バックエンド、量子化フォーマット、推奨モデル、運用ノウハウまで。


第2章 · ハードウェア — VRAMとユニファイドメモリの時代

ローカルLLMの最初の関門はメモリだ。一般的なガイドライン。

モデルサイズ精度推奨VRAM/RAM備考
3BINT44GBモバイル / 低スペックノート
7BINT4 (Q4_K_M)8GBRTX 3060、M1/M2 8GB
7BINT812GBRTX 3060 12GB、M2 16GB
13BINT412〜14GBRTX 4070、M2 24GB
32BINT422〜24GBRTX 4090、M3 Max 36GB
70BINT442〜48GBRTX 5090デュアル、M2 Ultra 64GB
70BINT880GB+A100 80GB、M3 Ultra 192GB
405BINT4240GB+マルチGPUノード、M3 Ultra 192GB 2台クラスタリング

NVIDIA vs Apple Silicon

NVIDIA陣営はPCIe + GDDRが強み。トークン生成がGPU単独なので速度が圧倒的。RTX 5090は32GB GDDR7で32Bモデル推論におけるトークンあたり遅延が最短だ。

一方Apple Siliconは**ユニファイドメモリ(Unified Memory)**が武器。M3 Ultra Mac Studioは192GB UMAで70Bモデルを16-bitでも動かす。NVIDIAで同等構成にはH100 80GBが2枚必要だ(価格比較自体が成り立たない)。

  • M4 Max 128GB — 109B MoEモデルまで — 約7,000USD
  • M3 Ultra 192GB — 70BモデルBF16 — 約9,500USD
  • RTX 5090 24GB — 32BモデルQ4 — 約2,200USD + 別途システム

選択基準は明快だ。70B+モデルを頻繁に動かしノートで使うならMac32B以下 + コスパ + ゲーム兼用ならNVIDIA


第3章 · Ollama — 最も愛されるローカルランタイム

Ollamaは2023年Y Combinator W24バッチ出身の会社だ。MITライセンス、llama.cppの上に乗せたCLI / REST API + モデルレジストリが核。2026年5月時点でGitHubスター145,000+。

インストールと初実行

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# デーモン起動
ollama serve

# モデルのダウンロード & 実行
ollama run llama3.3:70b-instruct-q4_K_M

# 7Bを素早く
ollama run qwen2.5:7b-instruct

ollama runの1行でモデルダウンロード → 量子化抽出 → 推論サーバー起動 → チャット開始。他のランタイムが5ステップでやることを1行でやる。

Modelfile — Dockerfileのようなモデル定義

FROM llama3.3:70b-instruct-q4_K_M
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM """
あなたは韓国語データエンジニアリングアシスタントです。SQLとPySparkを優先します。
"""
ollama create yj-de -f Modelfile
ollama run yj-de

独自のシステムプロンプト + パラメータをモデルとしてパッケージできる。会社単位で標準プロンプトを共有するときに強力。

Ollama REST API

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.3:70b-instruct-q4_K_M",
  "messages": [{"role": "user", "content": "Linuxメモリキャッシュポリシー説明して"}],
  "stream": false
}'

OpenAI互換モードもあるので、langchain、llamaindex、OpenAI SDKすべてbase URLを変えるだけでそのまま動く。

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
resp = client.chat.completions.create(
    model="qwen2.5:14b-instruct",
    messages=[{"role": "user", "content": "こんにちは"}]
)

Ollamaモデルレジストリ

ollama pull一行で取得。2026年5月の主要モデルタグ。

ollama pull llama3.3:70b-instruct-q4_K_M
ollama pull deepseek-r1:32b-distill-q4_K_M
ollama pull qwen3:14b-instruct
ollama pull phi4:14b
ollama pull gemma3:27b-instruct
ollama pull mistral-small:22b
ollama pull mixtral:8x7b-instruct-q4_K_M
ollama pull deepseek-coder-v2:16b-lite-instruct
ollama pull minicpm3:4b
ollama pull llava:34b

Ollamaの限界

  • GUIが貧弱(別途クライアント必要 — Open WebUI、Mstyなど)
  • マルチGPU分散は限定的(vLLMが圧倒)
  • Fine-tuningツールなし — 別途unsloth / axolotlが必要
  • メモリ管理が粗い — 同時に2モデルロードするとOOM頻発

それでも**「5分以内にローカルLLMを一度動かしてみたい」**の答えは2026年もOllamaだ。


第4章 · LM Studio — GUI中心のデスクトップ

LM StudioはElement Labs(サンフランシスコ)が作ったデスクトップアプリ。無料だがクローズドソース。macOS / Windows / Linux全対応。

強み

  • モデルブラウザ — Hugging Face検索をアプリ内で。モデルカード、量子化オプション、メモリ推定まで1画面
  • チャットUI — マルチセッション、プロンプトテンプレート、停止 / 再生成ボタン
  • ローカルサーバー — OpenAI互換APIをワンクリックで公開
  • MLXアクセラレーション — Apple Siliconでllama.cppより30〜50%速いMLXバックエンドを自動選択
  • ハードウェアプロファイラー — GPU / CPU分割比率をスライダーで

シナリオ

ラップトップで2つのモデルを並べて比較評価を頻繁にする人に最適。OllamaはCLIなので毎回ollama runを打つが、LM Studioはグラフィカルインターフェースで1セッション内でモデルをトグルできる。

弱み

  • クローズドソース — 企業導入時セキュリティ審査の負担
  • モデルディレクトリが標準化されていない — Ollamaモデルと互換なし、別途ダウンロードが必要
  • macOSはApple Silicon専用ビルド。Intel Macサポート終了
  • Linuxビルドはしばしば1〜2リリース遅れる

第5章 · Jan — 真のオープンソースデスクトップ

JanはHomebrew Researchが運営する100%オープンソース(AGPL-3.0)のデスクトップLLMアプリ。Electron + TypeScript。2026年5月時点でGitHubスター28,000+。

特徴

  • プラグインマーケット — 機能をモジュールでオン/オフ(RAG、ウェブ検索、コードインタプリタ)
  • 複数バックエンド — llama.cpp、MLX、TensorRT、vLLM互換 — 1アプリで全部選べる
  • クラウドモデル混在 — OpenAI / Anthropic / Mistral / Groq APIキーを入れれば同じUIでクラウドも — 「今日はClaude、昨日はローカル」式にトグル
  • データ主権 — すべてのチャットログがローカルSQLite。分析 / エクスポート自由

使用シナリオ

  • 「デスクトップにChatGPTのようなインターフェースが必要だが、OpenAIに依存したくない」
  • 「ローカルとクラウドを1画面で比較」
  • 「エンタープライズ — 社内ポリシー上クローズドソースのデスクトップアプリは禁止」

Jan API

JanもOpenAI互換APIを提供する。

# デフォルトポート
curl http://localhost:1337/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.3-70b-q4",
    "messages": [{"role": "user", "content": "hello"}]
  }'

第6章 · Msty — クローズドソースの強者

Mstyは1人開発者が作ったデスクトップアプリ。個人利用無料、チームライセンス有料。macOS / Windows / Linux。クローズドソースだが評価が非常に高い。

差別点

  • Branchチャット — 1メッセージから分岐して2つの回答を並列生成。比較評価が圧倒的に速い
  • Knowledge Stacks — フォルダ / PDF / URLをドラッグすると自動RAG。AnythingLLMのような別途セットアップ不要
  • Workspaces — プロジェクトごとにチャット / モデル / RAGを分離。Lightroomのカタログ比喩
  • ローカル + クラウド同時比較 — 1プロンプトをClaude / GPT / ローカルLlamaに同時送信

価格

  • 個人無料
  • Pro (個人) 99USD / 年 — ワークスペース無制限、クラウド同期
  • Team — シートあたり159USD / 年

LM Studioが「単なるモデルブラウザ + チャット」なら、Mstyは「リサーチ / 知識作業ワークベンチ」のポジショニングだ。


第7章 · Open WebUI — セルフホスト型ChatGPT

Open WebUI(旧名Ollama WebUI)はTim Jaeryang Baekが始めたセルフホスティングのChatGPTクローン。MITライセンス、Python(FastAPI) + Svelte。GitHubスター78,000+。

なぜ人気か

  • Ollama接続自動 — ホストでOllamaが動いていればモデルを自動認識
  • マルチユーザー — ログイン / 権限 / グループ / モデル別アクセス制御
  • RAG内蔵 — ドキュメントアップロード → ベクトル検索 → コンテキスト注入
  • 音声入出力 — Whisper(STT) + Piper / Cartesia / ElevenLabs(TTS)
  • 関数呼び出し(Tools) — JS / Python関数をモデルが呼び出す
  • Pipelines — ミドルウェアパターン — ロギング、フィルタリング、マルチモデルルーティング
  • Docker1行インストール
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

ブラウザでhttp://localhost:3000を開くとChatGPTとほぼ同じUI。社内GPUサーバーに載せれば会社全体が使える — データは1粒たりとも外に出ない。

運用Tips

  • Postgres + Redisバックエンドに切り替えるとマルチノード拡張
  • Ollamaが同一ホストならOLLAMA_BASE_URL=http://host.docker.internal:11434
  • vLLMやLM StudioもOpenAI互換なので同じパターンで接続

第8章 · LibreChat — マルチプロバイダーチャット

LibreChatはOpen WebUIよりクラウド統合に強み。OpenAI、Anthropic、Google、Mistral、Ollama、vLLM、llama.cppサーバーすべてが1画面で。

特徴

  • プラグインシステム(DALL-E、Wolfram、Zapier)
  • モデル比較モード — 1プロンプトをN個のモデルに同時送信
  • Assistants API互換
  • 多言語i18nフル対応(韓 / 日 / 中含む)

いつ使うか

  • 「会社がクラウドとローカルモデルを両方使う。2つのインターフェースを置きたくない」
  • 「ChatGPT Proの代わりに社内統合インターフェース」
  • 「エンタープライズSSO / SAML必要」

第9章 · GPT4All — Nomicのローカルチャット

GPT4AllNomic AI(Atlas埋め込み可視化で有名)が運営する。デスクトップアプリ + Python SDK。MITライセンス。

from gpt4all import GPT4All
model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf")
resp = model.generate("ローカルLLMのメリットは?", max_tokens=200)
print(resp)

強み

  • CPU優先設計 — GPUがなくてもそこそこ動く
  • LocalDocs — フォルダRAGがデフォルト提供
  • デスクトップ + SDK統合 — デスクトップGUIで作成したRAGコレクションをPythonからも同じコレクションで使用

弱み

  • 最新モデル対応がOllamaより遅い(Llama 4などは2026年5月時点で未対応)
  • パフォーマンスはllama.cpp直接使用比5〜10%遅い

第10章 · AnythingLLM — ローカルRAGの強者

AnythingLLMはMintplex Labs(ボストン)が作ったフルスタックRAGデスクトップ / Dockerアプリ。MITライセンス、Node.js + React。デスクトップビルドとDockerセルフホストビルドが両方ある。

コアコンポーネント

  • ワークスペース — ドキュメント、チャット、埋め込み、モデル設定をまとめた単位
  • エージェント — 関数呼び出し、ウェブ検索、コード実行
  • 複数LLMバックエンド — Ollama / LM Studio / OpenAI / Anthropic / Mistral / Together
  • 埋め込みバックエンド — sentence-transformers、OpenAI、Cohere、Ollama nomic-embed
  • ベクトルDB内蔵 — LanceDBデフォルト、Chroma / Pinecone / Weaviate / Qdrantオプション
  • ドキュメントコネクタ — PDF、DOCX、MD、GitHub repo、Confluence、Notion、ウェブクローラー

シナリオ — 社内Wikiボット

1. AnythingLLM Docker起動
2. ワークスペース「engineering-wiki」作成
3. Confluenceコネクタを接続、インデックス化(24時間ごとに自動再インデックス)
4. OllamaでモデルをQwen2.5:14bに設定
5. SlackボットまたはOpen WebUIからAPIで呼び出し

会社導入を最速で進められるフルスタックRAGソリューションの1つ。


第11章 · PrivateGPT、Khoj、Reor — 特化ツール

PrivateGPT

PrivateGPTはIván Martínez(開発者)が始めた。Pythonベース。100%ローカルRAG、外部API 0件が目標。セキュリティ / 規制業界がよく使う。やや重い(モデル + 埋め込み + ベクトルDBが1プロセス)。

Khoj

KhojはKhoj Inc.が運営する「個人AIアシスタント」。ノート(Obsidian、Notion)、メール、カレンダーをインデックス化してチャットで検索する。

  • macOS / Windows / Linuxデスクトップ
  • iOS / Androidアプリ
  • セルフホストDockerオプション

Reor

Reorは「AIネイティブノートアプリ」。Obsidianに似たMarkdownノートだが、自動埋め込みですべてのノートを意味ベースで接続する。すべてのモデル推論と埋め込みがローカル。


第12章 · Faraday、Pinokio、Chatbox

Faraday (レガシー)

Faraday.devはキャラクターチャット中心のデスクトップアプリだった。2025年事実上開発停止状態(2026年5月時点)。ユーザーはSillyTavern、AI Hordeに移行した。歴史的意義として言及。

Pinokio

Pinokioは「AIスクリプトのパッケージマネージャ」。ComfyUI、AUTOMATIC1111、Whisper、Barkのようなツールをワンクリックでインストール / 実行。JSONベースのレシピシステム。

使用ケース:
- 画像生成 / 音声 / 動画ツールを素早く試す
- ComfyUIワークフローを友人に共有
- デモ環境セットアップ自動化

Chatbox

ChatboxはマルチプラットフォームのチャットUI。iOS、Android、macOS、Windows、Linux、Web。OpenAI / Claude / Gemini / Ollamaバックエンド。クローズドソースだがモバイル対応が強く出張用に人気。

Page Assist

Page AssistはChrome拡張。現在見ているWebページにOllamaで質問。サイドパネルでチャット、コンテキストメニューで要約。軽量RAG。


第13章 · バックエンドエンジン — llama.cpp / MLX / vLLM / TensorRT

llama.cpp

Georgi Gerganovが2023年に始めたC++推論エンジン。Ollama、LM Studio、Jan、GPT4Allの基盤。CPUとGPU(CUDA、Metal、ROCm、Vulkan、SYCL)すべて対応。

# ソースビルド
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make -j8 LLAMA_METAL=1   # macOS
make -j8 LLAMA_CUDA=1    # Linux NVIDIA

# 実行
./llama-cli -m models/qwen2.5-14b-instruct-q4_k_m.gguf -p "こんにちは"
./llama-server -m models/llama-3.3-70b-q4_k_m.gguf --port 8080

直接ビルドして使うとOllamaより10〜20%速く、オプションも遥かに豊富。欠点はモデルダウンロード / 管理が手動。

MLX-LM

Apple Silicon専用。MLXはApple機械学習リサーチチームが作ったNumPyスタイルのテンソルライブラリ。MLX-LMはその上に乗ったLLM推論ツール。

pip install mlx-lm
mlx_lm.generate --model mlx-community/Llama-3.3-70B-Instruct-4bit --prompt "hi"
mlx_lm.server --model mlx-community/Qwen2.5-14B-Instruct-4bit --port 8080

M3 / M4ではllama.cppのMetalバックエンドより30〜50%速い。LM StudioがMLXを自動選択する理由だ。欠点: Apple Silicon限定、NVIDIA / AMD未対応。

vLLM / SGLang / TGI

サーバー級。1つのモデルを多数の同時リクエストに処理する(PagedAttention、continuous batching)。ノート1人使用にはオーバースペックだが、社内サーバーにLLMを載せて10人で使うシナリオの正解。別記事で詳しく扱うのでここでは短く。

pip install vllm
vllm serve Qwen/Qwen2.5-14B-Instruct --port 8080

TensorRT-LLM

NVIDIA専用。CUDA最適化推論。H100 / B200 / RTX 5090で最大スループット。ビルドステップが複雑だがプロダクションサーバーで比較不可のスループット。

Llamafile

MozillaのLlamafileはllama.cpp + モデルを単一実行ファイルにまとめる。macOS、Linux、Windowsすべて同じファイル1つで実行。マルチOSデモ、エアギャップ環境に強い。

chmod +x llava-v1.5-7b-q4.llamafile
./llava-v1.5-7b-q4.llamafile --server

第14章 · 量子化フォーマット — GGUF / AWQ / GPTQ / EXL / MXFP4 / BitNet

オリジナルモデルは通常BF16(2バイト / パラメータ)。7Bモデルは14GB。ノートではしんどい。量子化は精度を下げてメモリを節約する。

GGUF (llama.cpp標準)

  • Q2_K (最小、品質低、ほぼ使わない)
  • Q3_K_M (3-bit、7Bを3GBに — モバイル)
  • Q4_K_M (4-bit、「バランスポイント」、最頻出)
  • Q5_K_M (5-bit、品質より良し)
  • Q6_K (6-bit、BF16とほぼ同等)
  • Q8_0 (8-bit、BF16比で品質差ほぼなし、メモリは半分)
  • FP16 / BF16 (量子化なし、オリジナル)

Q4_K_Mは7Bモデルを4.5GB程度に削減しながらperplexity損失が2〜3%。圧倒的な選択肢。

AWQ (Activation-aware Weight Quantization)

vLLM、TGIがよく使う。GPTQより推論速度が速く、品質も同程度。4-bitが標準。

GPTQ

古いタイプ。AutoGPTQで量子化。4-bit標準。AWQに徐々に席を譲っている。

EXL2 / EXL3

ExLlamaV2 / V3。NVIDIA RTXシリーズに特化。4-bit + 6-bit + 8-bitをモデル内で混合 — perplexity損失1%未満。ExLlamaV3は2025年後半リリース、量子化効率向上。

MXFP4

OpenAIが2025年Microscaling FP4を標準化。NVIDIA Blackwell(B200、RTX 5090)でハードウェアアクセラレート。INT4より品質が良くBF16比でメモリ1/4。

BitNet (1.58-bit)

Microsoftの研究。重みを-1、0、+1に。推論時の乗算がほぼなく非常に速い。2026年にBitNet b1.58 3Bと7BモデルがHugging Faceに公開。実験的だが組込み / モバイルへのポテンシャルが大きい。

どれを選ぶべきか

  • デスクトップ / ノート、Ollama / llama.cpp → GGUF Q4_K_M
  • vLLMサーバー、NVIDIA GPU → AWQ
  • 単一NVIDIA、最高効率 → EXL3
  • Apple Silicon → MLX 4-bit

第15章 · 2026年5月の推奨ローカルモデルTOP

汎用 — Llama 4 Scout 109B MoE

MetaのLlama 4 Scout。16-of-128エキスパートMoE。アクティブパラメータ17Bで推論コストは17B級、品質は70Bに近い。M4 Max 128GBで毎秒24トークン。コンテキスト1Mトークン。

汎用 (実用) — Llama 3.3 70B

Llama 3.3 70B Instruct。70Bクラスの標準。GPT-4 Turboレベル。Q4_K_Mで42GB。デュアルRTX 5090またはM2 Ultra 64GB。

推論 — DeepSeek R1 Distill 32B

DeepSeek R1のLlama / Qwenディスティルシリーズ。32B Q4 = 単一RTX 4090で可能。o1-mini級の推論性能。数学、コード、論理問題に強い。

ollama pull deepseek-r1:32b
ollama pull deepseek-r1:7b   # ノート向け

多言語 — Qwen 3 14B

Alibaba Qwen 3。韓 / 中 / 日 / 英すべて強い。日本語テキストではLlamaよりしばしば優勢。14Bは単一RTX 4070(12GB)でQ4_K_Mで動かせる。

小型モデル王者 — Phi-4 14B

Microsoft Phi-4。「データキュレーションが答え」の結果物。14Bなのに70B級ベンチマーク。ノート用としてコスパ1位。

超小型強者 — Gemma 3 12B / 4B

GoogleのGemma 3。12B / 4B / 1Bラインアップ。モバイル / 組込み / ノート。7Bクラスより小さくて比較可能なパフォーマンス。

軽量 + 多言語 — MiniCPM 3.0 4B

OpenBMBのMiniCPM 3.0。4Bで8Bモデルと同等。モバイル / エッジ最適。

コード — DeepSeek Coder V2 Lite 16B

DeepSeek Coder V2。16B MoE(アクティブ2.4B)。Q4で10GB。Continue.devやClineのバックエンドとして人気。

マルチモーダル — LLaVA 34B、Qwen2-VL 7B、Pixtral 12B

画像 + テキスト。LLaVAは標準、Qwen2-VLは多言語強み、PixtralはMistralのビジョンモデル。

ollama pull llava:34b
ollama pull qwen2-vl:7b

第16章 · 音声モード — STT + LLM + TTS

STT (音声 → テキスト)

  • OpenAI Whisper — 標準。base / small / medium / large-v3。large-v3はGPU 4GB。
  • faster-whisper — CTranslate2バックエンド。CPU / GPU両方速い。
  • whisper.cpp — C++ポート、Apple Silicon Metalアクセラレート。
  • Distil-Whisper — Whisperのディスティル、6倍速い。

TTS (テキスト → 音声)

  • Piper — Rhasspyプロジェクト。CPU速い、韓国語ボイスあり。
  • Coqui XTTS v2 — 多言語 + voice cloning。(Coquiは2024年解散、モデルは維持)
  • F5-TTS — 2025年リリース。英語 / 中国語の自然さがトップクラス。voice cloning可能。
  • Kokoro — 非常に小さい(82M)英語TTS。ノートCPUでリアルタイム。
  • Cartesia Sonic — 商用APIだが非常に速い。

Open WebUI音声統合

設定 → オーディオ
  STT: faster-whisper (ローカル) または Whisper API
  TTS: Piper (ローカル)、Kokoro (ローカル)、ElevenLabs (クラウド)

マイクアイコンを押せばSTT → LLM → TTSパイプラインが動く。運転中でもChatGPTのように会話できる。


第17章 · コードアシスタント — Continue.dev + Ollama

Continue.dev

Continue.devはVSCode / JetBrains拡張。Cursor / Copilot代替。モデルバックエンドを自由選択 — ローカルOllama可能。

// ~/.continue/config.json
{
  "models": [
    {
      "title": "Local Coder",
      "provider": "ollama",
      "model": "deepseek-coder-v2:16b-lite-instruct",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Tab",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

Tab自動補完はQwen2.5-Coder 7B(速い)、ChatはDeepSeek Coder V2 16B(品質)。100%ローカル、APIコスト0、コードが外に出ない。

Cline + Ollama

Cline(旧Claude Dev)はエージェント型。ファイル読み書き、コマンド実行、Plan / Actモード。Ollamaバックエンドも対応するが、70B+の推論モデル推奨 — エージェント作業が重い。

aider

aiderはターミナルペアプログラマー。Gitベース。Ollamaバックエンド。

aider --model ollama/qwen2.5-coder:32b

第18章 · Apple Intelligence — OSレベルのオンデバイス

Apple IntelligenceはiOS 18、iPadOS 18、macOS 15 Sequoia、visionOS 2でGA。核は2つ。

  1. オンデバイス3Bモデル — Apple Silicon NPUで動作。通知要約、Mail返信提案、テキストクリーンアップ、Image Playground。
  2. Private Cloud Compute (PCC) — より大きなモデルが必要な時、Apple Siliconサーバーへ委任。ただしログがディスクに書かれず、認証されたコードのみ実行というセキュリティモデル(外部セキュリティ研究者にコード公開)。

Foundation Modelsフレームワーク

import FoundationModels
let session = LanguageModelSession()
let resp = try await session.respond(to: "メモを3行で要約して")

iOS 18.2+ / macOS 15.2+で使用可。3Bモデル限定だが無料、無制限。

限界

  • 英語優先リリース。韓国語 / 日本語は2025年段階的GA
  • 3Bでは複雑なタスクが難しい — だからPCC委任
  • デバイスがiPhone 15 Pro以上、M1以上

第19章 · Phi Silica — Windows 11のオンデバイスAI

MicrosoftはPhi Silica 3.8BモデルをSnapdragon X Elite / Intel Core Ultra / AMD Ryzen AIのNPUに搭載。Windows 11 24H2以降Copilot+ PCで標準。

機能

  • テキスト要約、書き換え、翻訳
  • コード補助(Visual Studio統合)
  • 画像生成(Cocreator)
  • 検索(Recall — ユーザー画面キャプチャ → 意味検索)

Recallは2024年発表直後にセキュリティ論争で延期、2025年オプトイン + E2E暗号化で再リリース。

開発者API

Windows Copilot RuntimeにMicrosoft.Windows.AI.Generative名前空間。C# / Rust / C++すべて呼び出し可能。


第20章 · Gemini Nano — AndroidとChrome

Gemini NanoはGoogleの最小Gemini変種。Pixel 8 Pro以上、一部Galaxy S24+、Chromeデスクトップ(2026年5月時点でCanary / Beta + 一部安定版)で使用可能。

Chrome Built-in AI

// 2026年5月時点でOrigin Trial有効
const session = await ai.languageModel.create({
  systemPrompt: "あなたは要約専門家です。",
})
const summary = await session.prompt("この記事を3行で要約: ...")

ブラウザの中にLLMが入った。ネットワークコール0、コスト0。WebアプリがついにオフラインLLMを活用できる。

Android AICore

val generativeModel = GenerativeModel(modelName = "gemini-nano")
val response = generativeModel.generateContent("要約して")

第21章 · 韓国のローカルAIエコシステム

Lablup Backend.AI

LablupのBackend.AIはLLM学習 / 推論プラットフォーム。社内GPUクラスタでvLLM、Triton、TensorRTを統合管理。2026年韓国公企業 / 大企業の導入多数。

Upstage Solar

UpstageのSolarは10.7B / Pro / Miniラインアップ。Solar Mini 2.4Bはノートのローカルでも動作 — Ollamaに登録。

ollama pull upstage/solar-pro-preview

NaverのHyperCLOVA X SEED 3Bモデルはオープン重み(2025年公開)。韓国語特化。Hugging Faceに登録されておりllama.cpp / Ollamaで変換利用可能。

KT、SKT、LG

  • KT Mi:dm、SKT A.X 4.0 — 自社7Bモデル(一部重み公開)
  • LG AI Research EXAONE 3.5 — 2.4B / 7.8B / 32Bモデル。非商用ライセンスだが研究目的自由
ollama pull exaone3.5:7.8b

第22章 · 日本のローカルAIエコシステム

ELYZA

ELYZA(東大スピンオフ)。Llamaベースの日本語チューニングモデル。ELYZA-japanese-Llama-3-8BをOllamaで直接使用。

Rinna

Rinna。MS Japanスピンオフ。日本語GPT、BERT、Llamaチューニング。音声合成 / 認識も。

Stockmark

Stockmark-100B。日本語100Bモデル、ビジネスドメイン特化。重み一部公開。

PFN PLaMo

Preferred NetworksのPLaMo。13B / 100B。PLaMo Liteは重み公開でノートのローカル運用も可。

CyberAgent CALM

CyberAgent CALM3 22B。日本語 + 対話チューニング。Q4で単一RTX 4090。


第23章 · 運用ノウハウ — 1GPUでN個のモデル

1つのGPUに2モデルを同時に載せるとVRAM OOMが頻発する。解決策3つ。

1. Hot-swap (Ollamaデフォルト)

Ollamaはkeep_aliveパラメータでモデルをメモリに保持 / 解放する。

# 使用しなければ30秒後にアンロード
ollama run qwen2.5:7b --keep-alive 30s

# 無限保持
ollama run llama3.3:70b --keep-alive -1

2. モデルルーター

サービスごとに異なるモデルが必要なら、LiteLLMやOpenRouterセルフホスティングでルーティング。

# litellm config.yaml
model_list:
  - model_name: chat
    litellm_params:
      model: ollama/qwen2.5:14b
      api_base: http://localhost:11434
  - model_name: code
    litellm_params:
      model: ollama/deepseek-coder-v2:16b
      api_base: http://localhost:11434

3. vLLMの連続バッチング

複数ユーザーが同時に呼び出すと、vLLMはPagedAttentionで1モデルにN個のリクエストを同時処理する。単一70Bモデルで10人が同時にチャット可能。


第24章 · RAGパターン — ローカル埋め込み

埋め込みモデル (ローカル)

  • nomic-embed-text — 768次元、英語SOTAクラス、Ollama登録
  • mxbai-embed-large — 1024次元、より良い、やや遅い
  • bge-m3 — 多言語強い(韓 / 日 / 中)
  • multilingual-e5-large — 多言語 / ノートフレンドリー
ollama pull nomic-embed-text
ollama pull mxbai-embed-large
ollama pull bge-m3

ローカルベクトルDB

  • LanceDB — 組込み、ディスクベース、単一ファイル。AnythingLLMデフォルト。
  • ChromaDB — Pythonライブラリ + サーバーモード
  • Qdrant — Rustサーバー、非常に速い
  • Weaviate — フルスタック
  • Milvus — 大容量
import lancedb
db = lancedb.connect("./data")
table = db.create_table("docs", schema=...)
table.add([{"vector": embed("文章"), "text": "文章"}])
table.search(embed("query")).limit(5).to_pandas()

第25章 · セキュリティとコンプライアンス

「ローカルだから安全か?」 — そうではない

ローカルLLMはクラウドLLMの一部リスクを解消するが、新しいリスクも生む。

  • プロンプトインジェクション — ドキュメント内に隠された「前の指示を無視して...」 → ローカルでも同じ
  • データ漏洩 — RAGが権限のないドキュメントを取り込む可能性
  • モデル完全性 — Hugging Faceから取得したモデルにバックドアの可能性 — 公式チャネルのみ使用
  • fine-tuning漏洩 — 会社データでチューンしたモデル重みからPIIが抽出される可能性

運用ガイド

  • すべてのモデルは公式オリジンから(Meta、Microsoft、Google、Alibaba、DeepSeekの公式HF org)
  • ダウンロード後ハッシュ検証
  • 社内RAGにはaccess control(AnythingLLMワークスペース単位)
  • ロギングと監査 — Open WebUIのadminログをSIEMへ

コンプライアンスマッピング

規制クラウドLLMローカルLLM
GDPRデータ転送、DPA必要データ非転送、一部免除
HIPAABAA必要自社インフラ — 制御可能
韓国PIPA国外移転同意国内処理 — シンプル
日本APPI同意 + 安全措置同様だが外部リスク少
金融保安院 (韓国)クラウドセキュリティ認証必須インフラ自社制御

第26章 · 結論 — ローカルAIは2026年の基本技

ローカルLLMは2023年は趣味、2024年は実験、2025年はオプションだった。2026年はデベロッパの基本技だ。

  • ノート1台 + Ollama + Continue.dev → 会社APIコスト削減 + コードが漏れない
  • 社内GPUサーバー + Open WebUI + AnythingLLM → 会社ChatGPTを自前運用
  • iPhone + Apple Intelligence → OSが勝手に処理
  • 個人ノート + Reor / Khoj → すべてのノートを意味ベース検索

今すぐ試せる5分ワークフロー。

# 1. Ollamaインストール
brew install ollama

# 2. モデル取得
ollama pull qwen2.5:14b-instruct

# 3. チャット
ollama run qwen2.5:14b-instruct

# 4. Open WebUI起動 (Dockerがあるなら)
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  ghcr.io/open-webui/open-webui:main

ブラウザでhttp://localhost:3000を開けば、あなただけのChatGPTがノートの上で動いている。データは1粒たりとも出ず、コストは電気代だけで、飛行機Wi-Fiがなくても動く。これが2026年の風景だ。


第27章 · 参考資料