Distributed-training

All Posts

Published on
2026년 7월 9일
멀티 GPU·멀티노드 학습 플랫폼 총정리 — 프레임워크 지도부터 Slurm·Kubeflow 실전 가이드까지
ai ml distributed-training slurm kubeflow gpu mlops
GPU 여러 장, 노드 여러 대로 모델을 학습시키는 전체 지형을 한 장에 정리합니다. AI 라이브러리·프레임워크 생태계 지도(PyTorch·JAX·HuggingFace·DeepSpeed·Ray), 병렬화 전략(DDP·FSDP·ZeRO·TP·PP)을 언제 무엇으로 고르는지, torchrun 단일노드→멀티노드 확장, HPC의 표준 Slurm 사용 가이드(sbatch 스크립트와 멀티노드 torchrun 연동), 쿠버네티스 진영의 Kubeflow 사용 가이드(Training Operator·PyTorchJob), 그리고 Slurm vs Kubeflow vs Ray 선택 기준까지 — 실전 스크립트와 함께 안내합니다.
Published on
2026년 6월 16일
AI 인터커넥트 — NVLink, NVSwitch, UALink, 그리고 스케일업의 기술
gpu-cuda nvlink nvswitch ualink interconnect distributed-training ai-hardware
대규모 AI 학습과 추론의 진짜 병목은 연산이 아니라 통신입니다. NVLink와 NVSwitch가 만드는 스케일업 도메인, GB200 NVL72 같은 랙 스케일 시스템, 그리고 UALink와 Ultra Ethernet 같은 개방형 대안까지, AI 인터커넥트의 원리와 실무를 정리합니다.
Published on
2026년 5월 16일
분산 학습 & GPU 인프라 2026 딥다이브 — DeepSpeed, FSDP2, Megatron-LM, Ray Train, JAX, TorchTitan, Blackwell GB200, MI325X, TPU v5p 총정리
distributed-training deepspeed fsdp megatron-lm ray jax lightning accelerate torchtitan cuda nccl blackwell tpu llm-training gpu-infrastructure
DeepSpeed/FSDP2/Megatron-LM/Ray Train/JAX/TorchTitan/Composer를 비교하고, NVIDIA Blackwell GB200 NVL72, AMD MI325X, Intel Gaudi 3, AWS Trainium 2, Google TPU v5p/v6e Trillium까지. 3D 병렬화, ZeRO-FSDP 등가성, MoE All-to-All, fp8/mxfp4 정밀도, NCCL 튜닝, 체크포인팅, 실패 복구까지 LLM 학습 인프라 2026년 현재형.
Published on
2026년 3월 17일
딥러닝 학습 방법론 완전 정복: 최적화부터 분산 학습까지
deep-learning training optimization regularization distributed-training ai 2026-03
딥러닝 모델을 효과적으로 학습시키는 모든 기법을 다루는 완전 가이드. 경사 하강법, 옵티마이저, 학습률 스케줄링, 정규화, 배치 정규화, 전이학습, 파인튜닝, 분산 학습까지 실전 코드와 함께 배웁니다.
Published on
2026년 3월 17일
DeepSpeed 완전 가이드: ZeRO 최적화와 대규모 모델 학습
deepspeed zero-optimization distributed-training llm pytorch 2026-03
Microsoft DeepSpeed를 완전히 마스터하는 가이드. ZeRO-1/2/3 최적화, Offload, 파이프라인 병렬화, 혼합 정밀도, MoE, DeepSpeed Inference까지 실전 설정과 코드로 배웁니다.
Published on
2026년 3월 17일
분산 시스템 완전 정복: CAP theorem부터 분산 ML 학습, Kafka까지
distributed-systems kafka raft pytorchdistributed nccl distributed-training 2026-03
CAP theorem, Raft 합의 알고리즘, Kafka 메시지 큐부터 Ring-AllReduce 분산 ML 학습과 NCCL까지 AI 엔지니어를 위한 분산 시스템 완전 가이드입니다.
Published on
2026년 3월 17일
연합 학습(Federated Learning) 완전 가이드: 프라이버시 보존 분산 AI
federated-learning privacy distributed-training differential-privacy ai 2026-03
연합 학습(Federated Learning)을 완전히 마스터하는 가이드. 데이터 프라이버시를 보존하면서 분산 학습하는 방법, FedAvg, FedProx, 차등 프라이버시, Flower 프레임워크 활용까지 실전 코드로 배웁니다.
Published on
2026년 3월 17일
대규모 모델 학습 완전 가이드: 100B+ 파라미터 LLM 사전학습 전략
large-scale-training llm megatron-lm distributed-training scaling-laws 2026-03
수백억 파라미터 LLM을 실제로 학습시키는 전략과 기법 완전 가이드. 스케일링 법칙(Chinchilla), Megatron-LM, 3D 병렬화, 체크포인팅 전략, 학습 안정성, 데이터 혼합 전략까지 실전으로 배웁니다.
Published on
2026년 3월 17일
PyTorch 내부 구조 & 고급 최적화: autograd, torch.compile, FSDP, Triton까지
pytorch torch-compile fsdp triton 혼합정밀도 distributed-training 2026-03
PyTorch autograd 엔진, torch.compile() TorchInductor 최적화, FSDP 분산 학습, gradient checkpointing, 커스텀 CUDA 연산까지 PyTorch 완전 정복 가이드입니다.
Published on
2026년 3월 17일
Torch-Titan 완전 가이드: PyTorch 대규모 분산 학습의 모든 것
torch-titan distributed-training pytorch fsdp deep-learning llm 2026-03
PyTorch Titan(torchtitan)으로 대규모 LLM 분산 학습을 마스터하는 완전 가이드. FSDP2, 파이프라인 병렬화, Tensor 병렬화, 4D 병렬화, 플래시 어텐션, 혼합 정밀도까지 실전 예제와 함께 배웁니다.
Published on
2026년 3월 8일
Ring Attention 논문 분석: 분산 환경에서 무한 컨텍스트 윈도우 트레이닝 구현
ai-papers ring-attention distributed-training long-context transformer sequence-parallelism 2026-03
Ring Attention 논문을 분석하고 분산 환경에서 컨텍스트 길이 제한을 극복하는 방법을 탐구합니다. Blockwise Parallel Transformer와의 연결, 구현 세부사항, 성능 벤치마크, 그리고 프로덕션 적용 시 고려사항까지 다룹니다.
Published on
2026년 3월 1일
Slurm 완전 정복: HPC/AI 클러스터 워크로드 매니저 실전 가이드
slurm hpc gpu distributed-training cluster job-scheduler cuda pytorch deepspeed tensorrt mlops ai-infrastructure
Slurm 워크로드 매니저를 완전 정복한다. 아키텍처(slurmctld/slurmd/slurmdbd), 핵심 개념(파티션/QoS/Fairshare), 필수 명령어(sbatch/srun/salloc), GPU 스케줄링(GRES/MIG/MPS), 다중 노드 분산 학습(PyTorch DDP/DeepSpeed/Horovod), 컨테이너 통합(Singularity/Enroot+Pyxis), 설정·모니터링·트러블슈팅까지 실전 관점에서 총정리한다.
Published on
2026년 3월 1일
Multi-GPU 분산 학습 완전 가이드: DDP, FSDP, DeepSpeed
gpu cuda distributed-training deep-learning pytorch
PyTorch 공식 문서 기반으로 Multi-GPU 분산 학습의 핵심인 DDP, FSDP, DeepSpeed ZeRO를 체계적으로 분석하고 실전 설정법을 정리한다.
Published on
2026년 3월 1일
Kubernetes AI 학습 파이프라인: Volcano, Training Operator, Kueue 분석
kubernetes ai distributed-training volcano kubeflow
Volcano, Kubeflow Training Operator, Kueue 공식 문서를 기반으로 Kubernetes 위에서 분산 AI 학습 파이프라인을 구축하는 방법을 분석한다.

Distributed-training

distributed-training (14)