Apple-silicon

All Posts

Published on
2026년 7월 31일
26B 모델을 2GB 램으로 돌리는 원리 — 상주 메모리와 워킹셋은 같은 숫자가 아니다
ai llm quantization apple-silicon moe
2026년 7월 29일 Show HN에 올라온 TurboFieldfare는 Gemma 4 26B-A4B를 M 시리즈 맥에서 약 2GB 램으로 돌린다고 주장합니다. 디스크에는 14.3GB가 깔리고, 램에 상주하는 것은 1.35GB짜리 공유 코어뿐이며, 토큰마다 필요한 전문가 가중치를 SSD에서 읽어 옵니다. 이 글은 그 숫자들을 직접 유도해 검증합니다 — 4비트 그룹 64 양자화가 왜 가중치당 4.5비트가 되어 14.2GB로 떨어지는지, 라우티드 전문가와 공유 코어의 분리에서 1.35GB가 정확히 나오는지, 토큰당 800MB가 필요한데 실측이 250~320MB인 것이 왜 캐시 적중률 60~69%를 뜻하는지를 계산합니다. 그리고 M5 Pro의 실측 처리량이 순수 SSD 대역폭 상한을 넘는다는 사실에서, 2GB라는 숫자가 프로세스 상주 메모리일 뿐 실제 워킹셋이 아니라는 결론을 끌어냅니다.
Published on
2026년 7월 11일
Mac mini가 온디바이스 AI 머신이 된 이유 — 애플 실리콘 임원 인터뷰가 말하는 것, 말하지 않는 것
apple-silicon on-device-ai local-llm mac-mini inference
애플 실리콘 수석 프로덕트 매니저 더그 브룩스가 The Deep View 인터뷰에서 Mac mini와 Mac Studio에 대한 수요와 온디바이스 AI의 방향을 이야기했습니다. 개발자들이 왜 이 작은 데스크톱을 로컬 LLM·에이전트 머신으로 고르는지, 통합 메모리 구조의 진짜 이점은 무엇인지, 그리고 CUDA 생태계 격차와 최근 가격 인상이라는 정직한 트레이드오프까지 — 임원의 발언을 그대로 인용하되 마케팅은 걷어내고 정리합니다.
Published on
2026년 6월 12일
apple/container 깊이 보기 — macOS 컨테이너의 경량 VM 접근법
apple-container virtualization macos docker container apple-silicon
Docker Desktop의 단일 리눅스 VM 구조가 가진 한계를 짚고, apple/container가 채택한 컨테이너당 경량 VM 1:1 모델을 분석합니다. WWDC26에서 공개된 Container Machine 기능과 Lima, Colima, OrbStack과의 아키텍처 비교, 실전 사용법, 마이그레이션 체크리스트까지 다룹니다.
Published on
2026년 5월 14일
MLX 심층 분석 — Apple Silicon용 ML 프레임워크, 통합 메모리·지연 그래프·Mac 네이티브 워크플로 (2026 핸즈온)
mlx apple-silicon ml-framework unified-memory metal local-llm fine-tuning apple ml-engineering macos
MLX는 PyTorch와 JAX를 만들었던 Apple 머신러닝 팀이, 이번에는 Apple Silicon만을 위해 다시 쓴 배열 프레임워크다. 핵심 명제는 단순하다 — M 시리즈 GPU는 CPU와 같은 RAM을 쓴다, 즉 호스트/디바이스 복사가 없다(통합 메모리). 이 글은 통합 메모리 명제, 지연(lazy) 계산 그래프, mlx-lm·mlx-vlm·mlx-data 서브패키지, Python과 Swift API, Metal 백엔드, PyTorch MPS·JAX-Metal·llama.cpp와의 비교, M2/M3/M4 Pro/Max/Ultra에서의 실제 토큰/초 수치, Llama 3.x·Qwen 2.5·DeepSeek 로컬 실행, LoRA 미세조정, 그리고 한계와 의사결정 프레임워크까지 깊게 다룬다.
Published on
2026년 4월 15일
컴퓨터 아키텍처의 현대 — CPU 파이프라인·Out-of-Order·캐시·브랜치 예측·Meltdown·Apple Silicon·ARM·RISC-V·SIMD·GPU 심층 가이드 (2025)
computer-architecture cpu cache branch-prediction apple-silicon arm risc-v simd gpu performance
왜 배열이 linked list를 이기는가, 왜 분기가 10배 느려지는가, M1이 Intel을 어떻게 이겼는가. CPU 파이프라인·Out-of-Order·L1~L3 캐시·브랜치 예측·Meltdown/Spectre·Apple Silicon·ARM/x86/RISC-V·SIMD·GPU SM/Warp·HBM/CXL까지 — 소프트웨어 엔지니어가 알아야 할 2025년 하드웨어 전부.
Published on
2026년 4월 15일
로컬 LLM 시대 완전 가이드: Llama, Qwen, Mistral, vLLM, 양자화, Apple Silicon (2025)
local-llm llama qwen mistral vllm ollama apple-silicon quantization deep-dive series
외부 API에 모든 걸 의존하던 시절이 끝나간다. 2025년은 소비자 GPU와 Apple Silicon에서 30B–70B 모델이 "쓸 만하게" 돌아가는 시대. 모델 선택(Llama/Qwen/Mistral/Gemma/Solar), 엔진(vLLM/TGI/SGLang/llama.cpp/Ollama), 양자화(AWQ/GPTQ/EXL2/GGUF), 하드웨어, 비용·전력, 그리고 Privacy-first 제품의 실전까지.
Published on
2026년 3월 18일
Apple Silicon에서 LLM 서빙하기: M4/M5 칩의 비밀과 한계
apple-silicon m5 LLM서빙 유니파이드메모리 mlx ollama AI추론
Apple M4/M5 칩의 유니파이드 메모리 아키텍처가 LLM 추론에 미치는 영향을 깊이 파헤칩니다. Neural Engine, MLX 프레임워크, llama.cpp Metal 백엔드를 활용한 실전 벤치마크와 함께 NVIDIA GPU 대비 실질적인 선택 기준을 제시합니다.

Apple-silicon

apple-silicon (7)

26B 모델을 2GB 램으로 돌리는 원리 — 상주 메모리와 워킹셋은 같은 숫자가 아니다

Mac mini가 온디바이스 AI 머신이 된 이유 — 애플 실리콘 임원 인터뷰가 말하는 것, 말하지 않는 것

apple/container 깊이 보기 — macOS 컨테이너의 경량 VM 접근법

MLX 심층 분석 — Apple Silicon용 ML 프레임워크, 통합 메모리·지연 그래프·Mac 네이티브 워크플로 (2026 핸즈온)

컴퓨터 아키텍처의 현대 — CPU 파이프라인·Out-of-Order·캐시·브랜치 예측·Meltdown·Apple Silicon·ARM·RISC-V·SIMD·GPU 심층 가이드 (2025)

로컬 LLM 시대 완전 가이드: Llama, Qwen, Mistral, vLLM, 양자화, Apple Silicon (2025)

Apple Silicon에서 LLM 서빙하기: M4/M5 칩의 비밀과 한계