- Published on
DeepSpeed/FSDP2/Megatron-LM/Ray Train/JAX/TorchTitan/Composer를 비교하고, NVIDIA Blackwell GB200 NVL72, AMD MI325X, Intel Gaudi 3, AWS Trainium 2, Google TPU v5p/v6e Trillium까지. 3D 병렬화, ZeRO-FSDP 등가성, MoE All-to-All, fp8/mxfp4 정밀도, NCCL 튜닝, 체크포인팅, 실패 복구까지 LLM 학습 인프라 2026년 현재형.