Published on2026년 3월 17일CUDA GPU 프로그래밍 심화: Warp 최적화, Tensor Core, Triton 커널 작성까지CUDAGPU프로그래밍TensorCoreTritonFlashAttentionNCCL2026-032026-03-17CUDA 메모리 계층, Warp 최적화, Tensor Core WMMA API, Flash Attention 구현, Triton 커스텀 커널 작성까지 AI 모델 학습 가속화를 위한 GPU 프로그래밍 심화 가이드입니다.
Published on2026년 3월 17일LLM 사전 학습 & 스케일링 법칙: Chinchilla, Flash Attention, MoE까지LLM사전학습스케일링법칙ChinchillaFlashAttentionMixtralMoEDeepSeek2026-032026-03-17Chinchilla 스케일링 법칙, Common Crawl 데이터 준비, Flash Attention 2, GQA, MoE 아키텍처부터 DeepSeek-V3, Llama 3.1 사전 학습 레시피까지 LLM 사전 학습 완전 가이드입니다.