Published on2026년 3월 1일FlashAttention: GPU 메모리 계층을 활용한 어텐션 최적화 분석ai-papersflash-attentiongpuoptimizationtransformerFlashAttention 논문을 리뷰하고, GPU HBM/SRAM 메모리 계층을 활용한 IO-aware 어텐션 최적화 원리를 상세 분석한다.
Published on2026년 3월 1일GPU 메모리 최적화와 Mixed Precision Training 완전 가이드gpucudamixed-precisionoptimizationdeep-learningNVIDIA 공식 문서 기반으로 GPU 메모리 구성 요소를 분석하고, Mixed Precision Training, Gradient Checkpointing 등 메모리 최적화 기법을 정리한다.
Published on2026년 3월 1일LLM 추론 최적화: vLLM과 TensorRT-LLM 심층 분석llminferencevllmtensorrt-llmoptimizationvLLM과 TensorRT-LLM 공식 문서를 기반으로 PagedAttention, Continuous Batching, 양자화 등 LLM 추론 최적화 핵심 기술을 분석한다.