Skip to content

필사 모드: 로컬 AI & 온디바이스 LLM 2026 완벽 가이드 — Ollama · LM Studio · Jan · Msty · Open WebUI · GPT4All · AnythingLLM · Faraday 심층 분석

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

1장 · 왜 2026년의 로컬 AI인가

3년 전, "로컬 LLM"은 7B 모델을 4비트로 양자화해 RTX 3090에 욱여넣고 GPT-3.5의 절반쯤 되는 품질을 얻는 취미였다. 2026년 5월의 풍경은 완전히 다르다.

- **M4 Max MacBook Pro 128GB 모델**에서 Llama 4 Scout 109B MoE가 24토큰/초로 돈다

- **RTX 5090 24GB**는 DeepSeek R1 Distill 32B를 12토큰/초로 처리한다

- **iPhone 16 Pro**는 Apple Intelligence의 3B 모델을 OS가 자동 호출한다

- **Snapdragon X Elite 노트북**은 Phi Silica 3.8B를 NPU로 돌린다

로컬 AI가 매력적인 네 가지 이유는 단순하다.

1. **프라이버시** — 입력이 회사 밖으로 안 나간다. GDPR / HIPAA / 한국 개인정보보호법 / 일본 APPI 모두 해결

2. **비용** — API 청구서가 없다. 전기료뿐이다 (그것도 노트북이면 무시할 만하다)

3. **오프라인** — 비행기, 지하, 카페 와이파이 — 인터넷 없이도 동작

4. **실험** — 새 모델이 발표되면 5분 내로 직접 시도. fine-tuning, LoRA, RAG도 자유

이 글은 2026년 5월 기준, **개발자가 데스크탑/노트북/모바일에서 LLM을 돌리려 할 때 알아야 할 모든 것**을 정리한다. 런타임, GUI, 백엔드, 양자화 포맷, 추천 모델, 운영 노하우까지.

2장 · 하드웨어 — VRAM과 통합 메모리의 시대

로컬 LLM의 첫 관문은 메모리다. 일반적인 가이드라인은 이렇다.

| 모델 크기 | 정밀도 | 권장 VRAM/RAM | 비고 |

| --- | --- | --- | --- |

| 3B | INT4 | 4GB | 모바일 / 저사양 노트북 |

| 7B | INT4 (Q4_K_M) | 8GB | RTX 3060, M1/M2 8GB |

| 7B | INT8 | 12GB | RTX 3060 12GB, M2 16GB |

| 13B | INT4 | 12~14GB | RTX 4070, M2 24GB |

| 32B | INT4 | 22~24GB | RTX 4090, M3 Max 36GB |

| 70B | INT4 | 42~48GB | RTX 5090 듀얼, M2 Ultra 64GB |

| 70B | INT8 | 80GB+ | A100 80GB, M3 Ultra 192GB |

| 405B | INT4 | 240GB+ | 멀티 GPU 노드, M3 Ultra 192GB 2대 클러스터링 |

NVIDIA vs Apple Silicon

NVIDIA 진영은 **PCIe + GDDR**이 강점이다. 토큰 생성이 GPU 단독이므로 속도가 압도적이다. RTX 5090은 32GB GDDR7로 32B 모델 추론에서 토큰당 지연이 가장 짧다.

반면 Apple Silicon은 **통합 메모리(Unified Memory)**가 무기다. M3 Ultra Mac Studio는 192GB UMA로 70B 모델을 16비트로도 돌린다. NVIDIA에서 동급은 H100 80GB가 두 장 필요하다 (가격 비교 자체가 안 된다).

- **M4 Max 128GB** — 109B MoE 모델까지 — 약 7,000USD

- **M3 Ultra 192GB** — 70B 모델 BF16 — 약 9,500USD

- **RTX 5090 24GB** — 32B 모델 Q4 — 약 2,200USD + 별도 시스템

선택 기준: **70B+ 모델을 자주 돌리고 노트북에서 쓸 거면 Mac**, **32B 이하 + 가성비 + 게임 겸용은 NVIDIA**.

3장 · Ollama — 가장 사랑받는 로컬 런타임

[Ollama](https://ollama.com/)는 2023년 Y Combinator W24 배치로 시작된 회사다. MIT 라이선스, llama.cpp 위에 얹은 CLI/REST API + 모델 레지스트리가 핵심이다. 2026년 5월 GitHub 스타 145,000+.

설치와 첫 실행

macOS

brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

데몬 실행

ollama serve

모델 다운로드 & 실행

ollama run llama3.3:70b-instruct-q4_K_M

7B를 빠르게

ollama run qwen2.5:7b-instruct

`ollama run` 한 줄로 모델 다운로드 → 양자화 추출 → 추론 서버 기동 → 채팅 시작. 다른 런타임이 5단계로 하는 일을 한 줄로 한다.

Modelfile — 도커파일 같은 모델 정의

FROM llama3.3:70b-instruct-q4_K_M

PARAMETER temperature 0.7

PARAMETER num_ctx 8192

SYSTEM """

당신은 한국어 데이터 엔지니어링 도우미입니다. SQL과 PySpark를 우선합니다.

"""

ollama create yj-de -f Modelfile

ollama run yj-de

자체 시스템 프롬프트 + 파라미터를 모델로 패키징 가능. 회사 단위로 표준 프롬프트를 공유할 때 강력하다.

Ollama REST API

curl http://localhost:11434/api/chat -d '{

"model": "llama3.3:70b-instruct-q4_K_M",

"messages": [{"role": "user", "content": "리눅스 메모리 캐시 정책 설명해줘"}],

"stream": false

}'

OpenAI 호환 모드도 있어서 langchain, llamaindex, OpenAI SDK 모두 base URL만 바꾸면 그대로 동작한다.

from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

resp = client.chat.completions.create(

model="qwen2.5:14b-instruct",

messages=[{"role": "user", "content": "안녕"}]

)

Ollama 모델 레지스트리

`ollama pull` 한 줄로 받는다. 2026년 5월 주요 모델 태그.

ollama pull llama3.3:70b-instruct-q4_K_M

ollama pull deepseek-r1:32b-distill-q4_K_M

ollama pull qwen3:14b-instruct

ollama pull phi4:14b

ollama pull gemma3:27b-instruct

ollama pull mistral-small:22b

ollama pull mixtral:8x7b-instruct-q4_K_M

ollama pull deepseek-coder-v2:16b-lite-instruct

ollama pull minicpm3:4b

ollama pull llava:34b

Ollama의 한계

- GUI가 빈약 (별도 클라이언트 필요 — Open WebUI, Msty 등)

- 멀티 GPU 분산은 제한적 (vLLM이 압도)

- Fine-tuning 도구 없음 — 별도 unsloth/axolotl 필요

- 메모리 관리가 거칠다 — 동시 모델 두 개 로드하면 OOM 흔함

그래도 **"5분 안에 로컬 LLM 한 번 돌려보고 싶다"**의 정답은 2026년에도 Ollama다.

4장 · LM Studio — GUI 중심 데스크탑

[LM Studio](https://lmstudio.ai/)는 Element Labs(샌프란시스코)가 만든 데스크탑 앱. 무료지만 클로즈드 소스. macOS / Windows / Linux 모두 지원.

강점

- **모델 브라우저** — Hugging Face 검색을 앱 안에서. 모델 카드, 양자화 옵션, 메모리 추정치까지 한 화면

- **채팅 UI** — 멀티 세션, 프롬프트 템플릿, 정지/재생성 버튼

- **로컬 서버** — OpenAI 호환 API를 한 클릭으로 노출

- **MLX 가속** — Apple Silicon에서 llama.cpp보다 30~50% 빠른 MLX 백엔드 자동 선택

- **하드웨어 프로파일러** — GPU/CPU 분할 비율을 슬라이더로

시나리오

랩탑에서 두 모델을 띄워 비교 평가를 자주 하는 사람에게 최적이다. Ollama는 CLI라 매번 `ollama run`을 쳐야 하지만, LM Studio는 그래픽 인터페이스로 한 세션에서 모델을 토글한다.

약점

- 클로즈드 소스 — 기업 도입 시 보안 검토 부담

- 모델 디렉터리가 표준화되어 있지 않음 — Ollama 모델과 호환 안 됨, 따로 받아야

- macOS에서는 Apple Silicon 전용 빌드. Intel Mac 지원 종료

- 리눅스 빌드는 종종 1~2 릴리스 뒤처짐

5장 · Jan — 진정한 오픈소스 데스크탑

[Jan](https://jan.ai/)은 Homebrew Research가 운영하는 100% 오픈소스(AGPL-3.0) 데스크탑 LLM 앱이다. Electron + TypeScript. 2026년 5월 GitHub 스타 28,000+.

특징

- **플러그인 마켓플레이스** — 기능을 모듈로 켜고 끈다 (RAG, 웹 검색, 코드 인터프리터)

- **다중 백엔드** — llama.cpp, MLX, TensorRT, vLLM 호환 — 한 앱에서 다 선택

- **클라우드 모델 혼용** — OpenAI / Anthropic / Mistral / Groq API 키를 넣으면 같은 UI에서 클라우드도 — "오늘 클로드, 어제 로컬" 식으로 토글

- **데이터 주권** — 모든 채팅 로그가 로컬 SQLite. 분석/익스포트 자유

사용 시나리오

- "데스크탑에 ChatGPT 같은 인터페이스가 필요하지만, OpenAI에 의존하기 싫다"

- "로컬과 클라우드를 한 화면에서 비교"

- "엔터프라이즈 — 회사 정책상 클로즈드 소스 데스크탑 앱은 금지"

Jan API

Jan도 OpenAI 호환 API를 제공한다.

기본 포트

curl http://localhost:1337/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "llama3.3-70b-q4",

"messages": [{"role": "user", "content": "안녕"}]

}'

6장 · Msty — 클로즈드 소스 강자

[Msty](https://msty.app/)는 1인 개발자가 만든 데스크탑 앱이다. 개인 사용 무료, 팀 라이선스 유료. macOS / Windows / Linux. 클로즈드 소스지만 평가가 매우 높다.

차별점

- **Branch 채팅** — 한 메시지에서 분기를 떠 두 답변을 병렬 생성. 비교 평가가 압도적으로 빠름

- **Knowledge Stacks** — 폴더/PDF/URL을 드래그하면 자동 RAG. AnythingLLM처럼 별도 셋업 불필요

- **Workspaces** — 프로젝트별로 채팅/모델/RAG를 분리. 라이트룸의 카탈로그 비유

- **로컬 + 클라우드 동시 비교** — 한 프롬프트를 클로드 / GPT / 로컬 라마에 동시 송신

가격

- 개인 무료

- Pro (개인) 99USD/년 — 워크스페이스 무제한, 클라우드 동기화

- Team — 시트당 159USD/년

LM Studio가 "단순한 모델 브라우저 + 채팅"이라면, Msty는 "리서치/지식 작업 워크벤치"의 포지셔닝이다.

7장 · Open WebUI — Self-hosted ChatGPT

[Open WebUI](https://openwebui.com/) (예전 이름 Ollama WebUI)는 Tim Jaeryang Baek이 시작한 셀프호스팅 ChatGPT 클론이다. MIT 라이선스, Python(FastAPI) + Svelte. GitHub 스타 78,000+.

왜 인기인가

- **Ollama 연결 자동** — 호스트에 Ollama가 돌고 있으면 모델을 자동 인식

- **다중 사용자** — 로그인 / 권한 / 그룹 / 모델별 접근 제어

- **RAG 내장** — 문서 업로드 → 벡터 검색 → 컨텍스트 주입

- **음성 입출력** — Whisper(STT) + Piper/Cartesia/ElevenLabs(TTS)

- **함수 호출(Tools)** — JS/Python 함수를 모델이 호출

- **Pipelines** — 미들웨어 패턴 — 로깅, 필터링, 다중 모델 라우팅

- **Docker 한 줄 설치**

docker run -d -p 3000:8080 \

--add-host=host.docker.internal:host-gateway \

-v open-webui:/app/backend/data \

--name open-webui \

--restart always \

ghcr.io/open-webui/open-webui:main

브라우저에서 `http://localhost:3000` 열면 ChatGPT와 거의 똑같은 UI. 사내 GPU 서버에 띄우면 회사 전체가 사용한다 — 데이터 한 톨도 밖으로 안 나간다.

운영 팁

- Postgres + Redis 백엔드로 전환하면 다중 노드 확장

- Ollama가 같은 호스트라면 `OLLAMA_BASE_URL=http://host.docker.internal:11434`

- vLLM이나 LM Studio도 OpenAI 호환이므로 동일한 패턴으로 연결

8장 · LibreChat — 멀티 프로바이더 채팅

[LibreChat](https://www.librechat.ai/)은 Open WebUI보다 클라우드 통합에 강점이 있다. OpenAI, Anthropic, Google, Mistral, Ollama, vLLM, llama.cpp 서버 모두 한 화면에서.

특징

- 플러그인 시스템 (DALL-E, Wolfram, Zapier)

- 모델 비교 모드 — 한 프롬프트를 N개 모델에 동시 전송

- Assistants API 호환

- 다국어 i18n 풀 지원 (한/일/중 포함)

언제 쓰나

- "회사가 클라우드와 로컬 모델을 같이 쓴다. 두 인터페이스를 두기 싫다"

- "ChatGPT Pro 대신 사내 통합 인터페이스"

- "엔터프라이즈 SSO/SAML 필요"

9장 · GPT4All — Nomic의 로컬 LLM

[GPT4All](https://gpt4all.io/)은 [Nomic AI](https://nomic.ai/) (Atlas 임베딩 시각화로 유명)가 운영한다. 데스크탑 앱 + Python SDK. MIT 라이선스.

from gpt4all import GPT4All

model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf")

resp = model.generate("로컬 LLM 장점은?", max_tokens=200)

print(resp)

강점

- **CPU 우선 설계** — GPU가 없어도 그럭저럭 동작

- **LocalDocs** — 폴더 RAG가 기본 제공

- **데스크탑 + SDK 통합** — 데스크탑 GUI에서 RAG 컬렉션을 만들면 Python에서도 같은 컬렉션 사용

약점

- 최신 모델 지원이 Ollama보다 느림 (Llama 4 등은 2026년 5월 기준 미지원)

- 성능은 llama.cpp 직접 사용 대비 5~10% 느림

10장 · AnythingLLM — 로컬 RAG의 강자

[AnythingLLM](https://anythingllm.com/)은 Mintplex Labs(보스턴)가 만든 풀스택 RAG 데스크탑/도커 앱이다. MIT 라이선스, Node.js + React. 데스크탑 빌드와 도커 셀프호스팅 빌드가 함께 제공된다.

핵심 컴포넌트

- **워크스페이스** — 문서, 채팅, 임베딩, 모델 설정을 묶은 단위

- **에이전트** — 함수 호출, 웹 검색, 코드 실행

- **다중 LLM 백엔드** — Ollama / LM Studio / OpenAI / Anthropic / Mistral / Together

- **임베딩 백엔드** — sentence-transformers, OpenAI, Cohere, Ollama nomic-embed

- **벡터 DB 내장** — LanceDB 기본, Chroma / Pinecone / Weaviate / Qdrant 옵션

- **문서 커넥터** — PDF, DOCX, MD, GitHub repo, Confluence, Notion, 웹 크롤러

시나리오 — 사내 위키 봇

1. AnythingLLM 도커 띄우기

2. 워크스페이스 "engineering-wiki" 생성

3. Confluence 커넥터 연결, 인덱싱 (24h 마다 자동 재인덱싱)

4. Ollama로 모델을 qwen2.5:14b 설정

5. Slack 봇 또는 Open WebUI에서 API로 호출

회사 도입을 가장 빨리 진행할 수 있는 풀스택 RAG 솔루션 중 하나다.

11장 · PrivateGPT, Khoj, Reor — 특화 도구

PrivateGPT

[PrivateGPT](https://privategpt.dev/)는 Iván Martínez(개발자)가 시작했다. Python 기반. 100% 로컬 RAG, 외부 API 0건이 목표. 보안/규제 산업이 자주 쓴다. 다소 무겁다 (모델 + 임베딩 + 벡터DB가 한 프로세스).

Khoj

[Khoj](https://khoj.dev/)는 Khoj Inc.가 운영하는 "개인 AI 어시스턴트"다. 노트(Obsidian, Notion), 이메일, 캘린더를 인덱싱하고 채팅으로 검색한다.

- macOS / Windows / Linux 데스크탑

- iOS / Android 앱

- 셀프호스팅 도커 옵션

Reor

[Reor](https://reor.app/)는 "AI 네이티브 노트 앱"이다. Obsidian과 비슷한 마크다운 노트지만, 자동 임베딩으로 모든 노트를 의미 기반 연결한다. 모든 모델 추론과 임베딩이 로컬.

12장 · Faraday, Pinokio, Chatbox

Faraday (레거시)

[Faraday.dev](https://faraday.dev/)는 캐릭터 챗 중심의 데스크탑 앱이었다. 2025년 사실상 개발 중단 상태(2026년 5월 기준). 사용자들은 SillyTavern, AI Horde로 이주했다. 역사적 의의로 언급.

Pinokio

[Pinokio](https://pinokio.computer/)는 "AI 스크립트의 패키지 매니저"다. ComfyUI, AUTOMATIC1111, Whisper, Bark 같은 도구들을 한 클릭으로 설치/실행. JSON 기반 레시피 시스템.

사용 사례:

- 이미지 생성 / 음성 / 비디오 도구를 빠르게 시도

- ComfyUI 워크플로우를 친구에게 공유

- 데모 환경 셋업 자동화

Chatbox

[Chatbox](https://chatboxai.app/)는 멀티 플랫폼 채팅 UI다. iOS, Android, macOS, Windows, Linux, Web. OpenAI / Claude / Gemini / Ollama 백엔드. 클로즈드 소스이지만 모바일 지원이 강해 출장용으로 인기.

Page Assist

[Page Assist](https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo)는 크롬 익스텐션이다. 현재 보고 있는 웹페이지에 Ollama로 질문. 사이드패널에서 채팅, 컨텍스트 메뉴에서 요약. 가벼운 RAG.

13장 · 백엔드 엔진 — llama.cpp / MLX / vLLM / TensorRT

llama.cpp

[Georgi Gerganov](https://github.com/ggerganov)가 2023년 시작한 C++ 추론 엔진. Ollama, LM Studio, Jan, GPT4All의 기반. CPU와 GPU(CUDA, Metal, ROCm, Vulkan, SYCL) 모두 지원.

소스 빌드

git clone https://github.com/ggml-org/llama.cpp

cd llama.cpp

make -j8 LLAMA_METAL=1 # macOS

make -j8 LLAMA_CUDA=1 # Linux NVIDIA

실행

./llama-cli -m models/qwen2.5-14b-instruct-q4_k_m.gguf -p "안녕"

./llama-server -m models/llama-3.3-70b-q4_k_m.gguf --port 8080

직접 빌드해 쓰면 Ollama보다 10~20% 빠르고, 옵션이 훨씬 많다. 단점은 모델 다운로드/관리가 수동.

MLX-LM

Apple Silicon 전용. [MLX](https://ml-explore.github.io/mlx/build/html/index.html)는 Apple 머신러닝 리서치 팀이 만든 NumPy 스타일 텐서 라이브러리. MLX-LM은 그 위에 얹은 LLM 추론 도구.

pip install mlx-lm

mlx_lm.generate --model mlx-community/Llama-3.3-70B-Instruct-4bit --prompt "안녕"

mlx_lm.server --model mlx-community/Qwen2.5-14B-Instruct-4bit --port 8080

M3/M4에서는 llama.cpp Metal 백엔드보다 30~50% 빠르다. LM Studio가 자동으로 MLX를 선택하는 이유다. 단점: Apple Silicon만, NVIDIA/AMD 미지원.

vLLM / SGLang / TGI

서버급. 하나의 모델을 여러 동시 요청에 처리(PagedAttention, continuous batching). 노트북 1인 사용에는 과하지만, 사내 서버에 LLM을 띄워 10명이 쓰는 시나리오의 정답이다. 별도 글에서 다뤘으니 여기선 짧게 짚는다.

pip install vllm

vllm serve Qwen/Qwen2.5-14B-Instruct --port 8080

TensorRT-LLM

NVIDIA 전용. CUDA 최적화 추론. H100 / B200 / RTX 5090에서 최대 처리량. 빌드 단계가 복잡하지만 프로덕션 서버에서 비교 불가의 처리량.

Llamafile

[Mozilla의 Llamafile](https://github.com/Mozilla-Ocho/llamafile)은 llama.cpp + 모델을 **단일 실행 파일**로 묶는다. macOS, Linux, Windows 모두 같은 파일 하나로 실행. 멀티 OS 데모, 에어갭 환경에 강하다.

chmod +x llava-v1.5-7b-q4.llamafile

./llava-v1.5-7b-q4.llamafile --server

14장 · 양자화 포맷 — GGUF / AWQ / GPTQ / EXL / MXFP4 / BitNet

원본 모델은 보통 BF16(2바이트/파라미터)이다. 7B 모델이 14GB. 노트북에서는 부담스럽다. 양자화는 정밀도를 줄여 메모리를 절감한다.

GGUF (llama.cpp 표준)

- Q2_K (가장 작음, 품질 낮음, 거의 안 씀)

- Q3_K_M (3비트, 7B를 3GB로 — 모바일)

- **Q4_K_M (4비트, "균형점", 가장 많이 쓰임)**

- Q5_K_M (5비트, 품질 더 좋음)

- Q6_K (6비트, BF16과 거의 동일)

- Q8_0 (8비트, BF16 대비 차이 거의 무 — 메모리는 절반)

- FP16 / BF16 (양자화 아님, 원본)

`Q4_K_M`은 7B 모델을 4.5GB 정도로 줄이면서 perplexity 손실이 2~3%다. 압도적인 선택.

AWQ (Activation-aware Weight Quantization)

vLLM, TGI가 잘 쓴다. GPTQ보다 추론 속도가 빠르고, 품질도 비슷. 4비트가 표준.

GPTQ

오래된 방식. AutoGPTQ로 양자화. 4비트가 표준. AWQ에 점차 자리를 내주는 중.

EXL2 / EXL3

[ExLlamaV2/V3](https://github.com/turboderp-org/exllamav2). NVIDIA RTX 시리즈에 특화. 4비트 + 6비트 + 8비트를 모델 안에서 혼합 — perplexity 손실 1% 미만. ExLlamaV3는 2025년 후반 출시, 양자화 효율이 향상.

MXFP4

OpenAI가 2025년 Microscaling FP4 표준화. NVIDIA Blackwell(B200, RTX 5090)에서 하드웨어 가속. INT4보다 품질 더 좋고 BF16 대비 메모리 1/4.

BitNet (1.58비트)

Microsoft 연구. 가중치를 -1, 0, +1로. 추론 시 곱셈이 거의 없어 매우 빠름. 2026년 BitNet b1.58 3B와 7B 모델이 Hugging Face에 공개. 실험적이지만 임베디드 / 모바일 잠재력이 크다.

어느 걸 골라야?

- 데스크탑/노트북, Ollama/llama.cpp → **GGUF Q4_K_M**

- vLLM 서버, NVIDIA GPU → **AWQ**

- 단일 NVIDIA, 최고 효율 → **EXL3**

- Apple Silicon → **MLX 4-bit**

15장 · 2026년 5월 추천 로컬 모델 TOP

범용 — Llama 4 Scout 109B MoE

Meta의 [Llama 4 Scout](https://huggingface.co/meta-llama/Llama-4-Scout-109B-Instruct). 16-of-128 expert MoE. 활성 파라미터 17B로 추론 비용은 17B급, 품질은 70B에 근접. M4 Max 128GB에서 24토큰/초. 컨텍스트 1M 토큰.

범용 (실용) — Llama 3.3 70B

[Llama 3.3 70B Instruct](https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct). 70B 클래스의 표준. GPT-4 Turbo 수준. Q4_K_M으로 42GB. 듀얼 RTX 5090 또는 M2 Ultra 64GB.

추론 — DeepSeek R1 Distill 32B

[DeepSeek R1](https://www.deepseek.com/)의 Llama/Qwen 디스틸 시리즈. **32B Q4 = 단일 RTX 4090에서 가능**. o1-mini급 추론 성능. 수학, 코드, 논리 문제에 강함.

ollama pull deepseek-r1:32b

ollama pull deepseek-r1:7b # 노트북용

다국어 — Qwen 3 14B

[Alibaba Qwen 3](https://qwenlm.github.io/). 한/중/일/영 모두 강함. 한국어 텍스트에서는 Llama보다 종종 우세. 14B는 단일 RTX 4070(12GB)에서 Q4_K_M으로.

작은 모델 강자 — Phi-4 14B

[Microsoft Phi-4](https://huggingface.co/microsoft/phi-4). "데이터 큐레이션이 답"의 결과물. 14B인데 70B급 벤치마크. 노트북용으로 가성비 1위.

매우 작은 강자 — Gemma 3 12B / 4B

Google [Gemma 3](https://huggingface.co/google/gemma-3-12b-it). 12B / 4B / 1B 라인업. 모바일 / 임베디드 / 노트북. 7B 클래스보다 더 작은데 비교 가능한 성능.

가벼움 + 다국어 — MiniCPM 3.0 4B

OpenBMB의 [MiniCPM 3.0](https://huggingface.co/openbmb/MiniCPM3-4B). 4B로 8B 모델 대등. 모바일 / 엣지 최적.

코드 — DeepSeek Coder V2 Lite 16B

[DeepSeek Coder V2](https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct). 16B MoE(활성 2.4B). Q4로 10GB. Continue.dev나 Cline 백엔드로 인기.

멀티모달 — LLaVA 34B, Qwen2-VL 7B, Pixtral 12B

이미지 + 텍스트. LLaVA는 표준, Qwen2-VL은 다국어 강점, Pixtral은 Mistral의 비전 모델.

ollama pull llava:34b

ollama pull qwen2-vl:7b

16장 · 음성 모드 — STT + LLM + TTS

STT (음성 → 텍스트)

- **OpenAI Whisper** — 표준. base / small / medium / large-v3. large-v3는 GPU 4GB.

- **faster-whisper** — CTranslate2 백엔드. CPU/GPU 모두 빠름.

- **whisper.cpp** — C++ 포트, Apple Silicon Metal 가속.

- **Distil-Whisper** — Whisper의 디스틸, 6배 빠름.

TTS (텍스트 → 음성)

- **Piper** — Rhasspy 프로젝트. CPU 빠름, 한국어 보이스 있음.

- **Coqui XTTS v2** — 다국어 + voice cloning. (Coqui는 2024년 해산, 모델은 유지)

- **F5-TTS** — 2025년 출시. 영어/중국어 자연도 1위 수준. voice cloning 가능.

- **Kokoro** — 매우 작은(82M) 영어 TTS. 노트북 CPU 실시간.

- **Cartesia Sonic** — 상용 API이지만 매우 빠름.

Open WebUI 음성 통합

설정 → 오디오

STT: faster-whisper (로컬) 또는 Whisper API

TTS: Piper(로컬), Kokoro(로컬), ElevenLabs(클라우드)

마이크 아이콘을 누르면 STT → LLM → TTS 파이프라인이 동작. 운전 중에도 ChatGPT처럼 대화.

17장 · 코드 어시스턴트 — Continue.dev + Ollama

Continue.dev

[Continue.dev](https://www.continue.dev/)는 VSCode / JetBrains 확장. Cursor / Copilot 대안. 모델 백엔드를 자유 선택 — 로컬 Ollama 가능.

// ~/.continue/config.json

{

"models": [

{

"title": "Local Coder",

"provider": "ollama",

"model": "deepseek-coder-v2:16b-lite-instruct",

"apiBase": "http://localhost:11434"

}

],

"tabAutocompleteModel": {

"title": "Tab",

"provider": "ollama",

"model": "qwen2.5-coder:7b"

}

}

Tab 자동완성은 Qwen2.5-Coder 7B(빠름), Chat은 DeepSeek Coder V2 16B(품질). 100% 로컬, API 비용 0, 코드가 외부로 안 나간다.

Cline + Ollama

[Cline](https://cline.bot/)(예전 Claude Dev)은 에이전트형. 파일 읽기/쓰기, 명령 실행, Plan/Act 모드. Ollama 백엔드도 지원하지만, 70B+ 추론 모델 권장 — 에이전트 작업이 무겁다.

aider

[aider](https://aider.chat/)는 터미널 페어 프로그래머. git 기반. Ollama 백엔드.

aider --model ollama/qwen2.5-coder:32b

18장 · Apple Intelligence — OS 레벨 온디바이스

[Apple Intelligence](https://www.apple.com/apple-intelligence/)는 iOS 18, iPadOS 18, macOS 15 Sequoia, visionOS 2에서 GA. 핵심은 두 가지.

1. **온디바이스 3B 모델** — Apple Silicon NPU에서 동작. 알림 요약, Mail 답장 제안, 텍스트 정제, Image Playground.

2. **Private Cloud Compute (PCC)** — 더 큰 모델이 필요할 때, Apple Silicon 서버로 위임. 그러나 로그가 디스크에 쓰이지 않고 인증된 코드만 실행한다는 보안 모델 (외부 보안 연구원에게 코드 공개).

Foundation Models 프레임워크

let session = LanguageModelSession()

let resp = try await session.respond(to: "메모를 3줄 요약해줘")

iOS 18.2+ / macOS 15.2+에서 사용 가능. 3B 모델 한정이지만 무료, 무제한.

한계

- 영어 우선 출시. 한국어/일본어는 2025년 단계적 GA

- 3B로는 복잡한 작업이 어려움 — 그래서 PCC 위임

- 디바이스가 iPhone 15 Pro 이상, M1 이상

19장 · Phi Silica — Windows 11의 온디바이스 AI

Microsoft는 [Phi Silica](https://blogs.windows.com/windowsexperience/2024/05/20/unlocking-ai-productivity-and-creativity-with-copilot-pcs-windows-11-features/) 3.8B 모델을 Snapdragon X Elite / Intel Core Ultra / AMD Ryzen AI의 NPU에 탑재. Windows 11 24H2부터 Copilot+ PC 표준.

능력

- 텍스트 요약, 재작성, 번역

- 코드 보조 (Visual Studio 통합)

- 이미지 생성 (Cocreator)

- 검색 (Recall — 사용자 화면 캡처 → 의미 검색)

Recall은 2024년 발표 직후 보안 논란으로 연기됐다가, 2025년 옵트인 + E2E 암호화로 재출시.

개발자 API

Windows Copilot Runtime에 [Microsoft.Windows.AI.Generative](https://learn.microsoft.com/en-us/windows/ai/) 네임스페이스. C# / Rust / C++ 모두 호출 가능.

20장 · Gemini Nano — Android와 Chrome

[Gemini Nano](https://deepmind.google/technologies/gemini/)는 Google의 가장 작은 Gemini 변종. Pixel 8 Pro 이상, 일부 Galaxy S24+, Chrome 데스크탑(2026년 5월 기준 카나리/베타 + 일부 안정)에서 사용 가능.

Chrome Built-in AI

// 2026년 5월 기준 Origin Trial 활성

const session = await ai.languageModel.create({

systemPrompt: "당신은 요약 전문가입니다.",

})

const summary = await session.prompt("이 글을 3줄로 요약: ...")

브라우저 안에 LLM이 들어왔다. 네트워크 호출 0, 비용 0. 웹앱이 처음으로 "오프라인 LLM"을 활용한다.

Android AICore

val generativeModel = GenerativeModel(modelName = "gemini-nano")

val response = generativeModel.generateContent("요약해줘")

21장 · 한국 로컬 AI 생태계

Lablup Backend.AI

[Lablup](https://www.lablup.com/)의 Backend.AI는 LLM 학습/추론 플랫폼. 사내 GPU 클러스터에서 vLLM, Triton, TensorRT를 통합 관리. 2026년 한국 공기업/대기업 도입 다수.

Upstage Solar

[Upstage](https://www.upstage.ai/)의 Solar는 10.7B / Pro / Mini 라인업. Solar Mini 2.4B는 노트북 로컬에서도 동작 — Ollama 등록.

ollama pull upstage/solar-pro-preview

Naver Cloud HyperCLOVA X

네이버의 HyperCLOVA X SEED 3B 모델은 오픈 가중치(2025년 공개). 한국어 특화. Hugging Face에 등록되어 llama.cpp / Ollama로 변환 사용 가능.

KT, SKT, LG

- KT Mi:dm, SKT A.X 4.0 — 자체 7B 모델 (일부 가중치 공개)

- LG AI Research EXAONE 3.5 — 2.4B / 7.8B / 32B 모델. 비상업 라이선스이지만 연구용 자유 사용

ollama pull exaone3.5:7.8b

22장 · 일본 로컬 AI 생태계

ELYZA

[ELYZA](https://elyza.ai/) (도쿄대 스핀오프). Llama 베이스의 일본어 튜닝 모델. ELYZA-japanese-Llama-3-8B를 Ollama에서 직접.

Rinna

[Rinna](https://rinna.co.jp/). MS Japan 스핀오프. 일본어 GPT, BERT, Llama 튜닝. 음성 합성 / 인식도.

Stockmark

[Stockmark-100B](https://stockmark.co.jp/). 일본어 100B 모델, 비즈니스 도메인 특화. 가중치 일부 공개.

PFN PLaMo

[Preferred Networks](https://www.preferred.jp/)의 PLaMo. 13B / 100B. PLaMo Lite는 가중치 공개로 노트북 로컬도 가능.

CyberAgent CALM

[CyberAgent](https://www.cyberagent.co.jp/) CALM3 22B. 일본어 + 대화 튜닝. Q4로 단일 RTX 4090.

23장 · 운영 노하우 — 한 GPU에서 N 모델

한 GPU에 두 모델을 동시 띄우면 VRAM OOM이 흔하다. 해결책 세 가지.

1. Hot-swap (Ollama 기본)

Ollama는 `keep_alive` 파라미터로 모델을 메모리에 유지/해제한다.

사용 안 하면 30초 후 언로드

ollama run qwen2.5:7b --keep-alive 30s

무한 유지

ollama run llama3.3:70b --keep-alive -1

2. 모델 라우터

서비스마다 다른 모델이 필요하면 LiteLLM이나 OpenRouter 자체 호스팅으로 라우팅.

litellm config.yaml

model_list:

- model_name: chat

litellm_params:

model: ollama/qwen2.5:14b

api_base: http://localhost:11434

- model_name: code

litellm_params:

model: ollama/deepseek-coder-v2:16b

api_base: http://localhost:11434

3. vLLM의 연속 배칭

여러 사용자가 동시 호출하면 vLLM은 PagedAttention으로 한 모델에 N개 요청을 동시 처리. 단일 70B 모델로 10명이 동시 채팅 가능.

24장 · RAG 패턴 — 로컬 임베딩

임베딩 모델 (로컬)

- **nomic-embed-text** — 768차원, 영어 SOTA 중 하나, Ollama 등록

- **mxbai-embed-large** — 1024차원, 더 좋음, 약간 느림

- **bge-m3** — 다국어 강함 (한/일/중)

- **multilingual-e5-large** — 다국어 / 노트북 친화

ollama pull nomic-embed-text

ollama pull mxbai-embed-large

ollama pull bge-m3

로컬 벡터 DB

- **LanceDB** — 임베디드, 디스크 기반, 단일 파일. AnythingLLM 기본.

- **ChromaDB** — 파이썬 라이브러리 + 서버 모드

- **Qdrant** — Rust 서버, 매우 빠름

- **Weaviate** — 풀스택

- **Milvus** — 대용량

db = lancedb.connect("./data")

table = db.create_table("docs", schema=...)

table.add([{"vector": embed("문장"), "text": "문장"}])

table.search(embed("query")).limit(5).to_pandas()

25장 · 보안과 컴플라이언스

"로컬이라 안전한가?" — 그렇지 않다

로컬 LLM은 클라우드 LLM의 일부 위험을 해소하지만 새 위험도 만든다.

- **프롬프트 인젝션** — 문서 안에 숨겨진 "이전 지시를 무시하고 ..." → 로컬도 동일

- **데이터 누출** — RAG가 권한 없는 문서를 가져올 수 있음

- **모델 무결성** — Hugging Face에서 받은 모델이 백도어가 있을 수 있음 — 공식 채널만 사용

- **fine-tuning 누출** — 회사 데이터로 튠한 모델 가중치에 PII가 추출될 수 있음

운영 가이드

- 모든 모델은 공식 origin에서 (Meta, Microsoft, Google, Alibaba, DeepSeek 공식 HF org)

- 다운로드 후 해시 검증

- 사내 RAG에는 access control (AnythingLLM 워크스페이스 단위)

- 로깅과 감사 — Open WebUI의 admin 로그를 SIEM으로

컴플라이언스 매핑

| 규제 | 클라우드 LLM | 로컬 LLM |

| --- | --- | --- |

| GDPR | 데이터 전송, DPA 필요 | 데이터 미전송, 일부 면제 |

| HIPAA | BAA 필요 | 자체 인프라 — 통제 가능 |

| 한국 개인정보보호법 | 국외 이전 동의 | 국내 처리 — 단순 |

| 일본 APPI | 동의 + 안전 조치 | 동일하나 외부 위험 적음 |

| 금융보안원 (한국) | 클라우드 보안 인증 필수 | 인프라 자체 통제 |

26장 · 결론 — 로컬 AI는 2026년의 기본기

로컬 LLM은 2023년에는 취미, 2024년에는 실험, 2025년에는 옵션이었다. 2026년에는 **개발자의 기본기**다.

- **노트북 한 대** + Ollama + Continue.dev → 회사 API 비용 절감 + 코드 안 새어나감

- **사내 GPU 서버** + Open WebUI + AnythingLLM → 회사 ChatGPT 자체 운영

- **iPhone** + Apple Intelligence → OS가 알아서 처리

- **개인 노트** + Reor / Khoj → 모든 노트를 의미 기반 검색

지금 당장 시도할 5분 워크플로.

1. Ollama 설치

brew install ollama

2. 모델 받기

ollama pull qwen2.5:14b-instruct

3. 채팅

ollama run qwen2.5:14b-instruct

4. Open WebUI 띄우기 (도커가 있다면)

docker run -d -p 3000:8080 \

-v open-webui:/app/backend/data \

--add-host=host.docker.internal:host-gateway \

ghcr.io/open-webui/open-webui:main

브라우저에서 `http://localhost:3000` 열면, 당신만의 ChatGPT가 노트북 위에서 돌고 있다. 데이터는 한 톨도 나가지 않고, 비용은 전기료뿐이며, 비행기 와이파이가 없어도 동작한다. 이것이 2026년의 풍경이다.

27장 · 참고 자료

- Ollama 공식 — https://ollama.com/

- Ollama 모델 라이브러리 — https://ollama.com/library

- LM Studio — https://lmstudio.ai/

- Jan — https://jan.ai/

- Msty — https://msty.app/

- GPT4All — https://gpt4all.io/

- Open WebUI — https://openwebui.com/

- LibreChat — https://www.librechat.ai/

- AnythingLLM — https://anythingllm.com/

- PrivateGPT — https://privategpt.dev/

- Khoj — https://khoj.dev/

- Reor — https://reor.app/

- Pinokio — https://pinokio.computer/

- Chatbox — https://chatboxai.app/

- llama.cpp — https://github.com/ggml-org/llama.cpp

- MLX-LM — https://github.com/ml-explore/mlx-examples

- Llamafile — https://github.com/Mozilla-Ocho/llamafile

- Continue.dev — https://www.continue.dev/

- Cline — https://cline.bot/

- aider — https://aider.chat/

- Hugging Face — https://huggingface.co/

- Apple Intelligence — https://www.apple.com/apple-intelligence/

- Microsoft Phi Silica — https://learn.microsoft.com/en-us/windows/ai/

- Chrome Built-in AI — https://developer.chrome.com/docs/ai

- Lablup Backend.AI — https://www.lablup.com/

- Upstage Solar — https://www.upstage.ai/

- LG EXAONE — https://www.lgresearch.ai/

- ELYZA — https://elyza.ai/

- Preferred Networks PLaMo — https://www.preferred.jp/

- CyberAgent CALM — https://www.cyberagent.co.jp/

현재 단락 (1/383)

3년 전, "로컬 LLM"은 7B 모델을 4비트로 양자화해 RTX 3090에 욱여넣고 GPT-3.5의 절반쯤 되는 품질을 얻는 취미였다. 2026년 5월의 풍경은 완전히 다르다.

작성 글자: 0원문 글자: 19,072작성 단락: 0/383