Docker Desktop의 단일 리눅스 VM 구조가 가진 한계를 짚고, apple/container가 채택한 컨테이너당 경량 VM 1:1 모델을 분석합니다. WWDC26에서 공개된 Container Machine 기능과 Lima, Colima, OrbStack과의 아키텍처 비교, 실전 사용법, 마이그레이션 체크리스트까지 다룹니다.
MLX는 PyTorch와 JAX를 만들었던 Apple 머신러닝 팀이, 이번에는 Apple Silicon만을 위해 다시 쓴 배열 프레임워크다. 핵심 명제는 단순하다 — M 시리즈 GPU는 CPU와 같은 RAM을 쓴다, 즉 호스트/디바이스 복사가 없다(통합 메모리). 이 글은 통합 메모리 명제, 지연(lazy) 계산 그래프, mlx-lm·mlx-vlm·mlx-data 서브패키지, Python과 Swift API, Metal 백엔드, PyTorch MPS·JAX-Metal·llama.cpp와의 비교, M2/M3/M4 Pro/Max/Ultra에서의 실제 토큰/초 수치, Llama 3.x·Qwen 2.5·DeepSeek 로컬 실행, LoRA 미세조정, 그리고 한계와 의사결정 프레임워크까지 깊게 다룬다.
왜 배열이 linked list를 이기는가, 왜 분기가 10배 느려지는가, M1이 Intel을 어떻게 이겼는가. CPU 파이프라인·Out-of-Order·L1~L3 캐시·브랜치 예측·Meltdown/Spectre·Apple Silicon·ARM/x86/RISC-V·SIMD·GPU SM/Warp·HBM/CXL까지 — 소프트웨어 엔지니어가 알아야 할 2025년 하드웨어 전부.
외부 API에 모든 걸 의존하던 시절이 끝나간다. 2025년은 소비자 GPU와 Apple Silicon에서 30B–70B 모델이 "쓸 만하게" 돌아가는 시대. 모델 선택(Llama/Qwen/Mistral/Gemma/Solar), 엔진(vLLM/TGI/SGLang/llama.cpp/Ollama), 양자화(AWQ/GPTQ/EXL2/GGUF), 하드웨어, 비용·전력, 그리고 Privacy-first 제품의 실전까지.
Apple M4/M5 칩의 유니파이드 메모리 아키텍처가 LLM 추론에 미치는 영향을 깊이 파헤칩니다. Neural Engine, MLX 프레임워크, llama.cpp Metal 백엔드를 활용한 실전 벤치마크와 함께 NVIDIA GPU 대비 실질적인 선택 기준을 제시합니다.