- Published on
MLX는 PyTorch와 JAX를 만들었던 Apple 머신러닝 팀이, 이번에는 Apple Silicon만을 위해 다시 쓴 배열 프레임워크다. 핵심 명제는 단순하다 — M 시리즈 GPU는 CPU와 같은 RAM을 쓴다, 즉 호스트/디바이스 복사가 없다(통합 메모리). 이 글은 통합 메모리 명제, 지연(lazy) 계산 그래프, mlx-lm·mlx-vlm·mlx-data 서브패키지, Python과 Swift API, Metal 백엔드, PyTorch MPS·JAX-Metal·llama.cpp와의 비교, M2/M3/M4 Pro/Max/Ultra에서의 실제 토큰/초 수치, Llama 3.x·Qwen 2.5·DeepSeek 로컬 실행, LoRA 미세조정, 그리고 한계와 의사결정 프레임워크까지 깊게 다룬다.