Published on2026년 3월 1일FlashAttention: GPU 메모리 계층을 활용한 어텐션 최적화 분석ai-papersflash-attentiongpuoptimizationtransformerFlashAttention 논문을 리뷰하고, GPU HBM/SRAM 메모리 계층을 활용한 IO-aware 어텐션 최적화 원리를 상세 분석한다.