- Published on
Slurm 워크로드 매니저를 완전 정복한다. 아키텍처(slurmctld/slurmd/slurmdbd), 핵심 개념(파티션/QoS/Fairshare), 필수 명령어(sbatch/srun/salloc), GPU 스케줄링(GRES/MIG/MPS), 다중 노드 분산 학습(PyTorch DDP/DeepSpeed/Horovod), 컨테이너 통합(Singularity/Enroot+Pyxis), 설정·모니터링·트러블슈팅까지 실전 관점에서 총정리한다.