MongoDB 분산 아키텍처의 핵심인 Sharding과 Replica Set 운영을 심층적으로 다룹니다. Shard Key 선택 전략, Replica Set 페일오버, Chunk 마이그레이션, 밸런서 관리, 백업/복구, 모니터링까지 프로덕션 클러스터 운영의 전체를 코드와 함께 구현합니다.
Slurm 워크로드 매니저를 완전 정복한다. 아키텍처(slurmctld/slurmd/slurmdbd), 핵심 개념(파티션/QoS/Fairshare), 필수 명령어(sbatch/srun/salloc), GPU 스케줄링(GRES/MIG/MPS), 다중 노드 분산 학습(PyTorch DDP/DeepSpeed/Horovod), 컨테이너 통합(Singularity/Enroot+Pyxis), 설정·모니터링·트러블슈팅까지 실전 관점에서 총정리한다.