Ollama

All Posts

Published on
2026년 5월 16일
LLM 서빙 & 로컬 추론 2026 — vLLM / llama.cpp / MLX / Ollama / LM Studio / SGLang / TGI 심층 비교
llm serving inference vllm llama-cpp mlx llamafile ollama lm-studio gpt4all sglang tgi ktransformers tensorrt-llm modular-max quantization 2026 deep-dive
2026년 LLM 서빙·추론 프레임워크의 지도를 그린다. 데이터센터 진영(vLLM·SGLang·TGI·Triton·TensorRT-LLM), 로컬 진영(llama.cpp·MLX·llamafile·Ollama·LM Studio·GPT4All), 신생 진영(KTransformers·MLC LLM·Modular MAX), 그리고 클라우드 서빙 SaaS(Together·Fireworks·Groq·Cerebras·SambaNova·Lepton-NVIDIA 인수). 양자화 포맷(GGUF Q4_K_M·AWQ·GPTQ·FP8), 한국·일본 모델 생태계(Upstage Solar·KT Mi:dm·Sakana·NTT Tsuzumi·ELYZA)까지 — 누가 무엇을 골라야 하나.
Published on
2026년 5월 16일
로컬 AI & 온디바이스 LLM 2026 완벽 가이드 — Ollama · LM Studio · Jan · Msty · Open WebUI · GPT4All · AnythingLLM · Faraday 심층 분석
local-ai on-device-llm ollama lm-studio jan msty open-webui gpt4all anythingllm faraday llama-cpp mlx gguf quantization rag privategpt librechat khoj reor pinokio chatbox apple-intelligence phi-silica gemini-nano 2026 deep-dive
2026년, 로컬 AI는 더 이상 "취미"가 아니다. M4 Max MacBook Pro에서 Llama 4 Scout 109B MoE가 24토큰/초로 도는 시대다. Ollama, LM Studio, Jan, Msty 같은 데스크탑 런타임이 GUI/CLI를 통일하고, Open WebUI, AnythingLLM, LibreChat이 ChatGPT급 인터페이스를 제공한다. 백엔드는 llama.cpp, MLX-LM, vLLM이 떠받치고, GGUF / AWQ / GPTQ / EXL3 / MXFP4 / BitNet 양자화 포맷이 8GB VRAM 노트북도 13B 모델 추론을 가능케 한다. Llama 3.3 70B, DeepSeek R1 Distill, Qwen 3, Phi-4, Gemma 3, MiniCPM 3, DeepSeek Coder V2 — 클라우드와 견줄 만한 오픈 모델이 매주 쏟아진다. 한편 Apple Intelligence(iOS 18), Phi Silica(Windows Copilot+), Gemini Nano(Android/Chrome)는 OS 레벨 온디바이스 AI를 표준화했다. 이 글은 런타임 → GUI → 백엔드 → 양자화 → 추천 모델 → 한국·일본 로컬 사례까지, 2026년 5월 기준 로컬 AI 풍경을 한 번에 정리한다.
Published on
2026년 5월 14일
2026 AI 데스크톱 앱 스냅숏 — Granola · Cleft · Lex · Highlight · Raycast AI · Ollama, 그리고 'Ambient AI' 카테고리의 조용한 부상
ai-desktop granola cleft lex-app highlight-ai raycast-ai ollama ambient-ai local-llm productivity
2026년 봄, 챗봇 탭이 아니라 '내 데스크톱에 살고 있는 AI'들이 조용히 자기 카테고리를 만들었다. Granola(회의 노트), Cleft·Superwhisper·MacWhisper(로컬 받아쓰기), Lex(글쓰기), Highlight(시스템 어시스턴트), Raycast AI(런처), AnythingLLM·Jan·GPT4All·LM Studio(로컬 모델 채팅), 그리고 이들 다수가 올라타 있는 엔진 Ollama까지. 'Ambient AI' 명제, 로컬 vs 클라우드 프라이버시의 실상, 가격 모델, 어느 카테고리가 진짜 작동하고 어느 카테고리가 아직 안 되는지 — 솔직한 바이어 가이드.
Published on
2026년 5월 14일
2026년 떠오르는 오픈소스 지도 — OpenClaw, n8n, Langflow, Dify, Ollama 실전 서베이
open-source github trending openclaw n8n ollama ai-agent developer-tools 2026 survey
2026년 GitHub에서 폭발적으로 성장한 오픈소스 프로젝트들을 실무자 시선으로 정리한다. OpenClaw, n8n, Langflow/Dify/Flowise, Ollama가 무엇이고 왜 뜨는지, 언제 써야 하고 어떤 리스크가 있는지, 그리고 뜨거운 프로젝트를 도입 전에 검증하는 방법까지 다룬다.
Published on
2026년 4월 15일
로컬 LLM 시대 완전 가이드: Llama, Qwen, Mistral, vLLM, 양자화, Apple Silicon (2025)
local-llm llama qwen mistral vllm ollama apple-silicon quantization deep-dive series
외부 API에 모든 걸 의존하던 시절이 끝나간다. 2025년은 소비자 GPU와 Apple Silicon에서 30B–70B 모델이 "쓸 만하게" 돌아가는 시대. 모델 선택(Llama/Qwen/Mistral/Gemma/Solar), 엔진(vLLM/TGI/SGLang/llama.cpp/Ollama), 양자화(AWQ/GPTQ/EXL2/GGUF), 하드웨어, 비용·전력, 그리고 Privacy-first 제품의 실전까지.
Published on
2026년 3월 18일
Apple Silicon에서 LLM 서빙하기: M4/M5 칩의 비밀과 한계
Apple-Silicon M5 LLM서빙 유니파이드메모리 MLX Ollama AI추론
Apple M4/M5 칩의 유니파이드 메모리 아키텍처가 LLM 추론에 미치는 영향을 깊이 파헤칩니다. Neural Engine, MLX 프레임워크, llama.cpp Metal 백엔드를 활용한 실전 벤치마크와 함께 NVIDIA GPU 대비 실질적인 선택 기준을 제시합니다.
Published on
2026년 3월 17일
오픈소스 LLM 생태계 완전 가이드: 2026년 모델, 도구, 배포 전략
open-source llm llama mistral gemma qwen ollama vllm huggingface fine-tuning 2026-03 2026-03-17
2026년 오픈소스 LLM 생태계를 총망라한 가이드. 주요 모델 패밀리(Llama, Mistral, Gemma, Qwen, DeepSeek), 로컬 추론 도구(Ollama, llama.cpp, vLLM), 파인튜닝 기법(LoRA, QLoRA), 그리고 나만의 LLM을 운영하기 위한 실전 배포 전략을 다룹니다.
Published on
2026년 3월 1일
vLLM & Ollama 완벽 가이드: LLM 서빙 엔진의 구동, 파라미터, 환경변수 총정리
vllm ollama llm-serving inference model-serving gpu quantization openai-api deep-learning devops
vLLM의 PagedAttention 아키텍처와 Ollama의 로컬 LLM 실행 환경을 심층 비교한다. 설치부터 서버 구동, API 호출, 주요 CLI 인자, 샘플링 파라미터, 환경변수, 양자화(AWQ/GPTQ/GGUF), 멀티 GPU 구성, Docker 배포, 성능 튜닝까지 — LLM 서빙에 필요한 모든 설정을 실전 예제와 함께 총정리한다.

Ollama

ollama (8)