Published on2026년 3월 17일DeepSpeed 완전 가이드: ZeRO 최적화와 대규모 모델 학습deepspeedzero-optimizationdistributed-trainingllmpytorch2026-032026-03-17Microsoft DeepSpeed를 완전히 마스터하는 가이드. ZeRO-1/2/3 최적화, Offload, 파이프라인 병렬화, 혼합 정밀도, MoE, DeepSpeed Inference까지 실전 설정과 코드로 배웁니다.
Published on2026년 3월 1일Slurm 완전 정복: HPC/AI 클러스터 워크로드 매니저 실전 가이드slurmhpcgpudistributed-trainingclusterjob-schedulercudapytorchdeepspeedtensorrtmlopsai-infrastructureSlurm 워크로드 매니저를 완전 정복한다. 아키텍처(slurmctld/slurmd/slurmdbd), 핵심 개념(파티션/QoS/Fairshare), 필수 명령어(sbatch/srun/salloc), GPU 스케줄링(GRES/MIG/MPS), 다중 노드 분산 학습(PyTorch DDP/DeepSpeed/Horovod), 컨테이너 통합(Singularity/Enroot+Pyxis), 설정·모니터링·트러블슈팅까지 실전 관점에서 총정리한다.