Published on2026년 3월 18일행렬이 GPU에서 어떻게 날아다니는가: GEMM부터 FlashAttention까지 완전 해부GEMM행렬곱셈FlashAttentionGPU병렬컴퓨팅LLM서빙CUDA최적화딥러닝 연산의 80% 이상을 차지하는 행렬 곱셈이 GPU에서 어떻게 최적화되는가. 순진한 O(n³) 구현부터 캐시 블로킹, cuBLAS, 그리고 FlashAttention의 IO-aware 혁신까지 완전 해부한다.
Published on2026년 3월 18일NVIDIA GPU와 CUDA 완전 해부: 왜 GPU가 AI를 지배하는가CUDAGPUNVIDIA행렬연산병렬컴퓨팅LLM서빙딥러닝HPCH100 스펙부터 Tensor Core WMMA API까지. SIMT 실행 모델, 공유 메모리 타일링, Warp divergence를 실제 CUDA 코드와 함께 완전 해부한다.