Published on2026년 3월 18일행렬이 GPU에서 어떻게 날아다니는가: GEMM부터 FlashAttention까지 완전 해부GEMM행렬곱셈FlashAttentionGPU병렬컴퓨팅LLM서빙CUDA최적화딥러닝 연산의 80% 이상을 차지하는 행렬 곱셈이 GPU에서 어떻게 최적화되는가. 순진한 O(n³) 구현부터 캐시 블로킹, cuBLAS, 그리고 FlashAttention의 IO-aware 혁신까지 완전 해부한다.