Hpc

All Posts

Published on
2026년 4월 15일
RDMA 완전 가이드 2025: InfiniBand, RoCE, NCCL, GPU 통신 — AI 학습의 숨은 인프라
rdma infiniband roce nccl gpu hpc ai-training networking low-latency zero-copy
GPT-4가 10만 GPU로 학습될 수 있었던 비결. RDMA의 원리, InfiniBand와 RoCE, NVIDIA NCCL, GPU Direct까지 — AI 인프라의 숨은 기반을 720줄로 완전 분석한다.
Published on
2026년 3월 25일
WEKA 고성능 스토리지 완전 가이드 2025: AI/HPC를 위한 병렬 파일시스템
weka wekafs storage parallel-filesystem ai-infrastructure hpc gpu nvme data-pipeline cloud-storage 2026-03
WEKA(WekaFS)의 모든 것! 병렬 파일시스템 아키텍처, NVMe 계층화, GPU Direct Storage, AI/ML 워크로드 최적화, 클라우드(AWS/Azure/GCP) 연동, Ceph/Lustre/GPFS 비교, 데이터 파이프라인, 성능 벤치마크.
Published on
2026년 3월 18일
NVIDIA GPU와 CUDA 완전 해부: 왜 GPU가 AI를 지배하는가
cuda gpu nvidia 행렬연산 병렬컴퓨팅 LLM서빙 딥러닝 hpc
H100 스펙부터 Tensor Core WMMA API까지. SIMT 실행 모델, 공유 메모리 타일링, Warp divergence를 실제 CUDA 코드와 함께 완전 해부한다.
Published on
2026년 3월 1일
CUDA Hands-on 완벽 가이드: GPU 컴퓨팅의 모든 것
cuda gpu nvidia deep-learning machine-learning python pytorch hpc parallel-computing devops
NVIDIA CUDA의 기초 개념부터 GPU 아키텍처, C/C++ 커널 프로그래밍, 메모리 최적화, Python 연동(PyTorch, Numba, CuPy), Multi-GPU 학습, 프로파일링, 트러블슈팅까지 실전 중심으로 다루는 종합 가이드.
Published on
2026년 3월 1일
Slurm 완전 정복: HPC/AI 클러스터 워크로드 매니저 실전 가이드
slurm hpc gpu distributed-training cluster job-scheduler cuda pytorch deepspeed tensorrt mlops ai-infrastructure
Slurm 워크로드 매니저를 완전 정복한다. 아키텍처(slurmctld/slurmd/slurmdbd), 핵심 개념(파티션/QoS/Fairshare), 필수 명령어(sbatch/srun/salloc), GPU 스케줄링(GRES/MIG/MPS), 다중 노드 분산 학습(PyTorch DDP/DeepSpeed/Horovod), 컨테이너 통합(Singularity/Enroot+Pyxis), 설정·모니터링·트러블슈팅까지 실전 관점에서 총정리한다.

Hpc

hpc (5)

RDMA 완전 가이드 2025: InfiniBand, RoCE, NCCL, GPU 통신 — AI 학습의 숨은 인프라

WEKA 고성능 스토리지 완전 가이드 2025: AI/HPC를 위한 병렬 파일시스템

NVIDIA GPU와 CUDA 완전 해부: 왜 GPU가 AI를 지배하는가

CUDA Hands-on 완벽 가이드: GPU 컴퓨팅의 모든 것

Slurm 완전 정복: HPC/AI 클러스터 워크로드 매니저 실전 가이드