Published on2026년 3월 9일FlashAttention 논문 분석: IO-Aware Exact Attention으로 Transformer 학습·추론 속도 혁신ai-papersflash-attentiontransformergpu-optimizationattention-mechanism2026-032026-03-09FlashAttention 시리즈(v1~v3) 핵심 논문 분석. IO-Aware 알고리즘의 tiling 전략, GPU SRAM/HBM 메모리 계층 활용, 역전파 recomputation, FlashAttention-2의 병렬화 개선, FlashAttention-3의 FP8 지원과 비동기 파이프라이닝까지 실전 벤치마크와 함께 다룹니다.