- Published on
ChatGPT, Stable Diffusion, Sora를 돌리는 엔진, NVIDIA GPU와 CUDA. 이 글은 CUDA 프로그래밍 모델을 처음부터 해부합니다. GPU 하드웨어 아키텍처(SM, Warp, CUDA Core), SIMT vs SIMD, 스레드 계층(Grid/Block/Thread), 메모리 계층(Global/Shared/Constant/Register), Memory Coalescing이 왜 최우선 최적화인지, Warp Divergence, Shared Memory Bank Conflict, Tensor Core가 2017년 GPU를 AI 가속기로 만든 이유, Stream과 CUDA Graph, 멀티 GPU(NCCL, P2P), Triton과 cutlass로의 추상화, 그리고 CUDA vs ROCm/SYCL/Metal 비교까지 — AI 인프라의 기반을 제대로 이해하고 싶은 엔지니어를 위한 종합 가이드입니다.