Local-llm

All Posts

Published on
2026년 7월 17일
로컬에서 LLM 돌리려면 VRAM이 얼마나 필요한가 — 표 말고 공식으로 계산하기
llm quantization kv-cache local-llm gpu
"8B 모델에 몇 GB 필요한가요"의 정답은 표가 아니라 두 개의 공식입니다. 가중치는 파라미터 수 곱하기 bpw 나누기 8이고, KV 캐시는 2 곱하기 레이어 수 곱하기 KV 헤드 수 곱하기 head_dim 곱하기 바이트 수 곱하기 토큰 수입니다. 이 글은 두 공식을 llama.cpp 소스와 공식 표에 직접 대조해 검증합니다 — ggml 블록 구조체에서 유도한 Q8_0의 8.5 bpw는 llama.cpp가 발표한 8.5008과 소수점 셋째 자리까지 맞고, 같은 방식으로 역산한 파라미터 수는 8.02~8.04B로 Llama-3.1-8B의 실제 값 8,030,261,248과 일치합니다. 그리고 진짜 함정을 짚습니다 — Llama-3.1-8B를 Q4_K_M으로 줄이면 가중치는 4.58 GiB지만 128K 컨텍스트의 KV 캐시는 정확히 16 GiB로 가중치의 3.5배이고, 16GB 카드에서 당신을 막는 건 모델이 아니라 컨텍스트입니다. 품질 손실은 llama.cpp가 RTX 4090에서 측정해 공개한 KL 발산 수치로만 이야기하고(같은 Q4_K_M이 Llama-2에서는 PPL 1.4% 손해인데 Llama-3에서는 2.8%로 두 배라는 사실 포함), tok/s 수치가 하드웨어 없이 제시되면 왜 쓸모없는지 — llama.cpp 공식 README의 표가 정확히 그렇습니다 — 도 함께 정리합니다.
Published on
2026년 7월 11일
Mac mini가 온디바이스 AI 머신이 된 이유 — 애플 실리콘 임원 인터뷰가 말하는 것, 말하지 않는 것
apple-silicon on-device-ai local-llm mac-mini inference
애플 실리콘 수석 프로덕트 매니저 더그 브룩스가 The Deep View 인터뷰에서 Mac mini와 Mac Studio에 대한 수요와 온디바이스 AI의 방향을 이야기했습니다. 개발자들이 왜 이 작은 데스크톱을 로컬 LLM·에이전트 머신으로 고르는지, 통합 메모리 구조의 진짜 이점은 무엇인지, 그리고 CUDA 생태계 격차와 최근 가격 인상이라는 정직한 트레이드오프까지 — 임원의 발언을 그대로 인용하되 마케팅은 걷어내고 정리합니다.
Published on
2026년 5월 14일
2026 AI 데스크톱 앱 스냅숏 — Granola · Cleft · Lex · Highlight · Raycast AI · Ollama, 그리고 'Ambient AI' 카테고리의 조용한 부상
ai-desktop granola cleft lex-app highlight-ai raycast-ai ollama ambient-ai local-llm productivity
2026년 봄, 챗봇 탭이 아니라 '내 데스크톱에 살고 있는 AI'들이 조용히 자기 카테고리를 만들었다. Granola(회의 노트), Cleft·Superwhisper·MacWhisper(로컬 받아쓰기), Lex(글쓰기), Highlight(시스템 어시스턴트), Raycast AI(런처), AnythingLLM·Jan·GPT4All·LM Studio(로컬 모델 채팅), 그리고 이들 다수가 올라타 있는 엔진 Ollama까지. 'Ambient AI' 명제, 로컬 vs 클라우드 프라이버시의 실상, 가격 모델, 어느 카테고리가 진짜 작동하고 어느 카테고리가 아직 안 되는지 — 솔직한 바이어 가이드.
Published on
2026년 5월 14일
MLX 심층 분석 — Apple Silicon용 ML 프레임워크, 통합 메모리·지연 그래프·Mac 네이티브 워크플로 (2026 핸즈온)
mlx apple-silicon ml-framework unified-memory metal local-llm fine-tuning apple ml-engineering macos
MLX는 PyTorch와 JAX를 만들었던 Apple 머신러닝 팀이, 이번에는 Apple Silicon만을 위해 다시 쓴 배열 프레임워크다. 핵심 명제는 단순하다 — M 시리즈 GPU는 CPU와 같은 RAM을 쓴다, 즉 호스트/디바이스 복사가 없다(통합 메모리). 이 글은 통합 메모리 명제, 지연(lazy) 계산 그래프, mlx-lm·mlx-vlm·mlx-data 서브패키지, Python과 Swift API, Metal 백엔드, PyTorch MPS·JAX-Metal·llama.cpp와의 비교, M2/M3/M4 Pro/Max/Ultra에서의 실제 토큰/초 수치, Llama 3.x·Qwen 2.5·DeepSeek 로컬 실행, LoRA 미세조정, 그리고 한계와 의사결정 프레임워크까지 깊게 다룬다.
Published on
2026년 4월 15일
로컬 LLM 시대 완전 가이드: Llama, Qwen, Mistral, vLLM, 양자화, Apple Silicon (2025)
local-llm llama qwen mistral vllm ollama apple-silicon quantization deep-dive series
외부 API에 모든 걸 의존하던 시절이 끝나간다. 2025년은 소비자 GPU와 Apple Silicon에서 30B–70B 모델이 "쓸 만하게" 돌아가는 시대. 모델 선택(Llama/Qwen/Mistral/Gemma/Solar), 엔진(vLLM/TGI/SGLang/llama.cpp/Ollama), 양자화(AWQ/GPTQ/EXL2/GGUF), 하드웨어, 비용·전력, 그리고 Privacy-first 제품의 실전까지.

Local-llm

local-llm (5)

로컬에서 LLM 돌리려면 VRAM이 얼마나 필요한가 — 표 말고 공식으로 계산하기

Mac mini가 온디바이스 AI 머신이 된 이유 — 애플 실리콘 임원 인터뷰가 말하는 것, 말하지 않는 것

2026 AI 데스크톱 앱 스냅숏 — Granola · Cleft · Lex · Highlight · Raycast AI · Ollama, 그리고 'Ambient AI' 카테고리의 조용한 부상

MLX 심층 분석 — Apple Silicon용 ML 프레임워크, 통합 메모리·지연 그래프·Mac 네이티브 워크플로 (2026 핸즈온)

로컬 LLM 시대 완전 가이드: Llama, Qwen, Mistral, vLLM, 양자화, Apple Silicon (2025)