Gpu

All Posts

Published on
2026년 7월 17일
로컬에서 LLM 돌리려면 VRAM이 얼마나 필요한가 — 표 말고 공식으로 계산하기
llm quantization kv-cache local-llm gpu
"8B 모델에 몇 GB 필요한가요"의 정답은 표가 아니라 두 개의 공식입니다. 가중치는 파라미터 수 곱하기 bpw 나누기 8이고, KV 캐시는 2 곱하기 레이어 수 곱하기 KV 헤드 수 곱하기 head_dim 곱하기 바이트 수 곱하기 토큰 수입니다. 이 글은 두 공식을 llama.cpp 소스와 공식 표에 직접 대조해 검증합니다 — ggml 블록 구조체에서 유도한 Q8_0의 8.5 bpw는 llama.cpp가 발표한 8.5008과 소수점 셋째 자리까지 맞고, 같은 방식으로 역산한 파라미터 수는 8.02~8.04B로 Llama-3.1-8B의 실제 값 8,030,261,248과 일치합니다. 그리고 진짜 함정을 짚습니다 — Llama-3.1-8B를 Q4_K_M으로 줄이면 가중치는 4.58 GiB지만 128K 컨텍스트의 KV 캐시는 정확히 16 GiB로 가중치의 3.5배이고, 16GB 카드에서 당신을 막는 건 모델이 아니라 컨텍스트입니다. 품질 손실은 llama.cpp가 RTX 4090에서 측정해 공개한 KL 발산 수치로만 이야기하고(같은 Q4_K_M이 Llama-2에서는 PPL 1.4% 손해인데 Llama-3에서는 2.8%로 두 배라는 사실 포함), tok/s 수치가 하드웨어 없이 제시되면 왜 쓸모없는지 — llama.cpp 공식 README의 표가 정확히 그렇습니다 — 도 함께 정리합니다.
Published on
2026년 7월 17일
Ray 2.56의 레이블 로컬리티 스케줄링 — 배치 그룹이 노드가 아니라 NVLink 랙을 보기 시작했다
ray gpu scheduling distributed-systems
2026년 6월 29일 나온 Ray 2.56.0은 배치 그룹에 도메인 레벨 스케줄링 레이어를 알파로 추가했습니다. 지금까지 PACK·STRICT_PACK 같은 배치 전략은 전부 노드 단위로만 동작해서, GB200·GB300 NVL72처럼 NVLink 도메인이 노드 여러 개에 걸치는 랙에서는 "이 배치 그룹을 한 랙 안에 다 넣어 달라"를 표현할 방법이 없었습니다. 새 레이블 로컬리티 스케줄링은 ray.io/gpu-domain 라벨 값이 같은 노드 묶음을 하나의 도메인으로 보고, 배치 그룹 전체를 그 안에 STRICT_PACK합니다. 다만 알파 기능답게 제약이 뚜렷합니다 — GB200·GB300 가속기 타입에서만 발동하고, 도메인 레벨 전략은 STRICT_PACK 하나뿐이며, ray.io/gpu-domain 라벨은 Ray가 자동으로 달아 주지 않아 운영자가 직접 채워야 합니다. 부분 장애 시에는 같은 도메인 안에서만 복구를 시도하고, 다른 도메인으로 강제로 옮기는 유일한 방법이 배치 그룹을 지우고 다시 만드는 것(그 위의 액터 전부 강제 종료)이라는 점까지, 문서가 명시한 시맨틱과 한계를 그대로 정리합니다.
Published on
2026년 7월 16일
Rust 1.97이 Volta 이전 GPU를 잘라냈다 — nvptx64 베이스라인 상향의 내막
rust cuda gpu compiler nvidia
Rust 1.97(2026년 7월 9일)은 nvptx64-nvidia-cuda 타깃의 최소 사양을 PTX ISA 7.0(CUDA 11 드라이버 이상)과 SM 7.0(Volta 이상)으로 올렸습니다. Maxwell·Pascal 세대 GPU와 CUDA 10 이하 드라이버는 이제 대상이 아닙니다. 이 글은 실제로 바뀐 숫자, 컴파일러 팀이 근거로 든 세 개의 구체적인 결함(디버그 심볼·아토믹 순서·target-feature 메커니즘), 누가 깨지고 무엇을 해야 하는지, 그리고 이 조용한 한 줄이 왜 2026년 Rust-on-GPU 지형에서 의미가 있는지를 정리합니다. 정직한 결론도 담았습니다 — nvptx64는 여전히 Tier 2에 nightly가 필요한 no_std 타깃이고, NVIDIA가 내놓은 cuda-oxide조차 스스로를 알파라고 부릅니다. 대부분의 사람은 아직 Rust로 GPU 커널을 짤 때가 아닙니다.
Published on
2026년 7월 16일
Triton Gluon — 컴파일러가 숨기던 레이아웃을 손으로 쓰는 언어
gpu triton kernel compiler performance
Gluon은 Triton과 같은 컴파일러 스택 위에 올라간 하위 레벨 GPU 언어로, Triton이 감춰 두던 레이아웃·공유 메모리·워프 특수화를 커널 작성자에게 그대로 넘깁니다. 존재 이유는 명확합니다 — Triton 컴파일러가 잘 못 뽑는 코드를 만났을 때, 지금까지는 손쓸 방법이 없었기 때문입니다. 이 글은 Gluon이 무엇을 노출하는지, BlockedLayout이 실제로 무엇을 뜻하는지, 그리고 상류 튜토리얼이 GB200에서 기록한 측정치(같은 memcpy가 레이아웃 하나 때문에 0.774 TB/s에서 6.590 TB/s로 갈리는 과정)를 따라갑니다. AMD gfx950 지원과 ROCm 블로그의 벤더 자체 측정치도 함께 봅니다. 다만 Gluon은 아직 triton.experimental 아래에 있고, 요구하는 하드웨어 지식의 양이 Triton과 자릿수가 다릅니다 — 대부분의 커널에는 여전히 과잉입니다.
Published on
2026년 7월 11일
확산 LLM이 CUDA 커널을 쓴다 — DICE와 왜 병렬 생성이 도움이 되는가
ai llm diffusion cuda gpu
DICE는 2026년 2월 프리프린트로, 확산(diffusion) 대규모 언어 모델이 CUDA 커널 생성에서 같은 규모의 자기회귀(autoregressive) 모델을 능가하고 새로운 최고 성능(SOTA)을 세웠다고 주장합니다. 핵심 아이디어는 토큰을 왼쪽에서 오른쪽으로 하나씩 쓰는 대신, 전체 시퀀스를 병렬로 생성하고 어느 위치든 비순차적으로 고쳐 쓸 수 있다는 것 — 전역 구조가 중요한 코드 과제에 잘 맞을 법한 성질입니다. 저자들은 CuKe라는 SFT 데이터셋과 2단계 강화학습(BiC-RL)으로 1.7B·4B·8B 모델을 학습해 KernelBench에서 평가했습니다. 다만 이 글의 모든 정량 표현은 동료평가 전 프리프린트의 저자 주장이며, 초록에는 구체적 수치가 없고 SOTA도 독립 검증된 값이 아닙니다. 검증 가능한 과제라서 잘 통했을 가능성과 커널 밖으로 일반화될지가, 이 결과를 읽는 두 개의 열쇠입니다.
Published on
2026년 7월 11일
KubeVirt GPU 패스스루 VM은 왜 112일간 스케줄되지 못했나 — 실제 클러스터 부검
kubevirt gpu kubernetes nvidia devops hands-on
Rust 오퍼레이터가 "GPU 노드 4개 전부 NotReady"라는 진단을 내린 뒤, 그 죽음의 원인을 실제 8노드 클러스터(GPU Operator v25.3.0, KubeVirt v1.7.0)에서 끝까지 추적했습니다. gpu-fedora와 rhel9-gpu-vm이 112일간 ErrorUnschedulable로 멈춰 있던 진짜 이유는 화려한 GPU 설정이 아니라 kubelet 한 줄 에러 — "running with swap on is not supported" — 였습니다. swap이 kubelet을 죽이고 → 노드가 NotReady가 되고 → GPU가 물리적으로 묶인 VM은 다른 노드로 갈 수 없어 영원히 멈추는, 패스스루의 물리 법칙을 실측 로그·CR·PCI 등록 정보와 함께 부검합니다.
Published on
2026년 7월 11일
Rust로 쿠버네티스 GPU 오퍼레이터 만들기 — kube-rs로 실제 클러스터를 진단하다
rust kubernetes operator gpu kube-rs hands-on
8노드 실운영 홈랩 클러스터(k8s v1.32.5)를 상대로, kube-rs를 써서 GPU 오퍼레이터를 Rust로 직접 만들어 돌렸습니다. GpuInventory 커스텀 리소스를 정의하고, 두 개의 컨트롤러(노드 스캔→CR 상태 기록, 노드 감시→ConfigMap 갱신)를 한 바이너리로 띄워 클러스터 밖에서 실행했습니다. 그리고 오퍼레이터가 실제로 뱉은 결과 — GPU 노드 4개 중 Ready 0개, 즉 GPU 함대 전체가 죽어 있다는 진단 — 와, 그 과정에서 실제로 만난 두 가지 함정(server-side apply의 invalid object type 에러, 상태 기록이 자기 자신을 다시 부르는 무한 리컨사일 루프)을 실측 로그와 함께 정리합니다.
Published on
2026년 7월 11일
RTX 5090 한 장으로 작은 모델들 직접 굴려보기 — microGPT·OCR·음악 생성
pytorch gpu llm ocr hands-on ai
RTX 5090(Blackwell, 32GB) 한 장에 SSH로 붙어 작은 모델 셋을 직접 돌려봤습니다. char-level GPT를 밑바닥부터 28초 만에 학습시키고(10.75M 파라미터, 117만 tokens/s), 전용 OCR(TrOCR)과 소형 VLM(Qwen2-VL-2B)을 같은 이미지에 붙여 CER로 대결시키고, MusicGen으로 8초짜리 음악을 1.9초(4.2배 실시간)에 생성했습니다. 그 과정에서 만난 정직한 함정들 — 워밍업 없는 벤치마크가 38배 거짓말을 한 사건, CER이라는 지표가 대문자 하나로 뻥튀기되는 이야기, Blackwell sm_120에 맞는 PyTorch를 찾는 삽질 — 까지 실측 수치와 함께 정리합니다.
Published on
2026년 7월 9일
멀티 GPU·멀티노드 학습 플랫폼 총정리 — 프레임워크 지도부터 Slurm·Kubeflow 실전 가이드까지
ai ml distributed-training slurm kubeflow gpu mlops
GPU 여러 장, 노드 여러 대로 모델을 학습시키는 전체 지형을 한 장에 정리합니다. AI 라이브러리·프레임워크 생태계 지도(PyTorch·JAX·HuggingFace·DeepSpeed·Ray), 병렬화 전략(DDP·FSDP·ZeRO·TP·PP)을 언제 무엇으로 고르는지, torchrun 단일노드→멀티노드 확장, HPC의 표준 Slurm 사용 가이드(sbatch 스크립트와 멀티노드 torchrun 연동), 쿠버네티스 진영의 Kubeflow 사용 가이드(Training Operator·PyTorchJob), 그리고 Slurm vs Kubeflow vs Ray 선택 기준까지 — 실전 스크립트와 함께 안내합니다.
Published on
2026년 7월 9일
GPU Operator × KubeVirt 총정리 — 구성요소·설정·버전, 부분 MIG와 수동 MIG까지
kubernetes gpu kubevirt mig nvidia devops
쿠버네티스 GPU 인프라의 두 기둥을 한 장에 정리합니다. GPU Operator의 오퍼랜드 구성과 ClusterPolicy 설정, 버전 체계와 함께, 노드의 일부 GPU에만 MIG를 적용하는 커스텀 설정과 nvidia-smi로 MIG를 수동 생성·삭제하는 방법을 다루고, VM을 쿠버네티스에서 돌리는 KubeVirt의 4대 컴포넌트(virt-operator·controller·handler·launcher)와 CR 설정·버전 특징, 그리고 sandboxWorkloads로 두 세계를 연결해 VM에 GPU를 패스스루하는 방법까지 실제 명령어로 안내합니다.
Published on
2026년 7월 7일
NVIDIA GPU Operator 완전 정복 — 설치·배포부터 MIG 분할 설정까지
kubernetes gpu nvidia mig devops mlops
쿠버네티스에서 GPU 노드를 손으로 셋업하는 시대는 끝났습니다. NVIDIA GPU Operator가 드라이버부터 디바이스 플러그인, 모니터링까지 전부 오퍼레이터 패턴으로 관리하는 원리와 Helm 설치·검증 방법, 그리고 A100/H100 한 장을 하드웨어 격리된 여러 GPU로 쪼개 쓰는 MIG의 개념·single/mixed 전략·노드 라벨 기반 설정·커스텀 프로필·운영 주의사항까지, 실제 명령어와 함께 처음부터 끝까지 정리합니다.
Published on
2026년 6월 27일
CUDA 아키텍처 시각화 — 스레드부터 텐서코어까지
cuda gpu tensor-core warp memory-hierarchy nvidia
CUDA의 실행 모델과 GPU 하드웨어 구조를 다이어그램으로 한눈에 정리합니다. 그리드·블록·워프·스레드 계층, SM 내부 구조, 메모리 계층, 워프 스케줄링과 점유율, 텐서코어, 스트림까지 핵심 개념을 그림과 커널 예제로 살펴봅니다.
Published on
2026년 6월 18일
커스텀 ASIC vs GPU — 칩 전쟁의 투자 관점
asic gpu semiconductor investing nvidia ai-chips inference
클라우드 사업자의 자체 칩(커스텀 ASIC) 부상과 추론 시장의 변화를 투자 관점에서 분석합니다. 엔비디아의 해자와 그에 대한 도전, 밸류체인 수혜 지도, 그리고 핵심 리스크를 균형 있게 정리합니다.
Published on
2026년 6월 16일
2026 AI 가속기 지형 — Blackwell에서 Vera Rubin까지
ai-hardware nvidia-blackwell vera-rubin inference gpu accelerator data-center
2026년 AI 가속기 시장을 한눈에 정리합니다. NVIDIA Blackwell과 차세대 Vera Rubin, AMD MI350X, 추론 capex가 학습을 처음 추월한 변화, 그리고 워크로드별로 어떤 칩을 골라야 하는지 개발자 관점에서 살펴봅니다.
Published on
2026년 6월 16일
GPU vs TPU vs ASIC — 2026 추론 전쟁
gpu tpu asic inference ai-hardware compiler cuda
2026년 추론 워크로드를 두고 벌어지는 GPU·TPU·ASIC의 경쟁을 비교합니다. Google TPU v6 Trillium과 Ironwood, 급성장하는 클라우드 자체 추론 ASIC, 처리량·지연·비용·전력 트레이드오프, 그리고 CUDA와 XLA로 갈라지는 컴파일러 스택까지 다룹니다.
Published on
2026년 6월 16일
추론을 빠르게 — 양자화, 희소성, Dataflow의 하드웨어 관점
inference quantization sparsity dataflow gpu hardware optimization
추론 비용의 구조를 메모리 월 관점에서 풀어내고, 양자화(INT8/FP8/FP4)와 구조적 희소성(2:4), dataflow 아키텍처, 연산자 융합, 배칭과 KV 캐시까지 하드웨어-소프트웨어 공동설계의 큰 그림을 정리합니다. 2026년 Blackwell FP4와 Vera Rubin 흐름을 반영해 실무 적용 포인트를 짚습니다.
Published on
2026년 6월 12일
AI는 정말 둔화하고 있는가 — 데이터센터 경제학으로 읽는 2026 AI 버블 논쟁
ai economics datacenter gpu infrastructure industry-analysis
2026년 상반기를 달군 AI is slowing down 논쟁을 데이터센터 경제학의 관점에서 분해합니다. 2030년까지 연 2조 달러 매출이 필요하다는 주장과 190GW 데이터센터 계획의 산수, 토큰 단가 하락과 마진 구조, 추론 수요 폭증이라는 반론, 닷컴 버블과의 비교, 그리고 개발자와 기업이 취해야 할 실용적 전략까지 균형 있게 다룹니다.
Published on
2026년 6월 12일
리눅스 메모리 계층 해킹 — swap, zram, 그리고 VRAM을 스왑으로 쓰는 역발상
linux memory swap zram kernel performance gpu
GPU의 VRAM을 NBD 블록 디바이스로 노출해 스왑으로 쓰는 nbd-vram 프로젝트가 Hacker News에서 화제가 됐습니다. 이를 출발점으로 리눅스 메모리 관리의 기초, swappiness와 zram/zswap 튜닝, OOM 대응, cgroup v2 메모리 제어, 컨테이너 환경의 함정까지 실전 중심으로 정리합니다.
Published on
2026년 6월 12일
로컬 LLM 인퍼런스 최적화 — 양자화부터 VRAM 한계 돌파까지
llm inference quantization llama-cpp vllm ollama gpu
프라이버시와 비용, 그리고 빅테크 피로감 속에 로컬 LLM이 다시 뜨고 있습니다. VRAM 중심의 하드웨어 선택, GGUF와 AWQ 양자화, llama.cpp와 vLLM과 Ollama 비교, KV cache 메모리 산수, VRAM을 스왑으로 쓰는 역발상 해킹까지 로컬 인퍼런스 최적화의 전체 지도를 그립니다.
Published on
2026년 5월 16일
AI 하드웨어 가속기 2026 — NVIDIA Blackwell / AMD Instinct MI400 / Google TPU Trillium / Cerebras WSE-3 / Groq LPU / Tenstorrent / Etched Sohu / Furiosa / Rebellions 심층 가이드
ai-hardware gpu accelerator nvidia-blackwell b100 b200 gb200 b300 rubin amd-instinct mi300x mi325x mi355x mi400-helios intel-gaudi-3 falcon-shores apple-m5 apple-ac1 google-tpu trillium cerebras-wse-3 groq-lpu sambanova-sn40l tenstorrent wormhole blackhole etched-sohu trainium-2 inferentia-3 matx tachyum a18-pro snapdragon-8-gen-4 dimensity-9400 tensor-g5 hbm3e hbm4 nvlink cxl samsung-hynix-hbm furiosa-ai rebellions-sapeon graphcore-softbank preferred-networks-mn-3 rapidus deep-dive
2026년 AI 하드웨어는 더 이상 NVIDIA 한 곳의 이야기가 아니다. Blackwell(B100/B200/GB200 NVL72/B300)이 GTC 2024에서 등장하고, 2026년 9월 Rubin이 예고된 가운데 AMD Instinct는 MI300X에서 MI355X를 거쳐 MI400 Helios까지 진격했다. Intel Gaudi 3가 마지막 별도 라인으로 출하되고 Falcon Shores 합류가 루머링되며, Apple은 M5/M5 Pro와 함께 AC1 서버 칩을 2026년 봄에 띄운다. Google TPU는 v5p와 Trillium(v5/v6)으로 Gemini 학습을 지탱하고, Cerebras WSE-3는 4조 트랜지스터의 웨이퍼 스케일을, Groq LPU는 순차 추론 속도를, SambaNova SN40L은 Reconfigurable Dataflow를, Tenstorrent는 Jim Keller가 이끄는 RISC-V 오픈 아키텍처를 들고 나왔다. Etched Sohu는 transformer 전용 ASIC을 2024년 6월에 공개했고, AWS Trainium 2와 Inferentia 3는 자체 칩 시대를 열었으며, MatX와 Tachyum Prodigy 같은 신예가 뒤따른다. 폰 NPU 진영의 Apple A18 Pro, Snapdragon 8 Gen 4, MediaTek Dimensity 9400, Google Tensor G5까지 — NVLink 5/6, PCIe Gen 6/7, CXL, HBM3E/HBM4, 그리고 액체 냉각 데이터센터의 풍경을 한국(FuriosaAI, Rebellions)과 일본(SoftBank Graphcore, Preferred Networks MN-3, Rapidus 2nm)의 시각에서 종합 정리한다.
Published on
2026년 4월 15일
컴퓨터 아키텍처의 현대 — CPU 파이프라인·Out-of-Order·캐시·브랜치 예측·Meltdown·Apple Silicon·ARM·RISC-V·SIMD·GPU 심층 가이드 (2025)
computer-architecture cpu cache branch-prediction apple-silicon arm risc-v simd gpu performance
왜 배열이 linked list를 이기는가, 왜 분기가 10배 느려지는가, M1이 Intel을 어떻게 이겼는가. CPU 파이프라인·Out-of-Order·L1~L3 캐시·브랜치 예측·Meltdown/Spectre·Apple Silicon·ARM/x86/RISC-V·SIMD·GPU SM/Warp·HBM/CXL까지 — 소프트웨어 엔지니어가 알아야 할 2025년 하드웨어 전부.
Published on
2026년 4월 15일
CUDA GPU 프로그래밍 모델 Deep Dive — SIMT, 메모리 계층, Tensor Core, 커널 최적화 완전 정복 (2025)
cuda gpu nvidia ai machine-learning parallel-computing tensor-core systems
ChatGPT, Stable Diffusion, Sora를 돌리는 엔진, NVIDIA GPU와 CUDA. 이 글은 CUDA 프로그래밍 모델을 처음부터 해부합니다. GPU 하드웨어 아키텍처(SM, Warp, CUDA Core), SIMT vs SIMD, 스레드 계층(Grid/Block/Thread), 메모리 계층(Global/Shared/Constant/Register), Memory Coalescing이 왜 최우선 최적화인지, Warp Divergence, Shared Memory Bank Conflict, Tensor Core가 2017년 GPU를 AI 가속기로 만든 이유, Stream과 CUDA Graph, 멀티 GPU(NCCL, P2P), Triton과 cutlass로의 추상화, 그리고 CUDA vs ROCm/SYCL/Metal 비교까지 — AI 인프라의 기반을 제대로 이해하고 싶은 엔지니어를 위한 종합 가이드입니다.
Published on
2026년 4월 15일
데이터·AI FinOps 2025 완전 정복: Snowflake·Databricks·BigQuery 비용 해부, 웨어하우스 튜닝으로 50% 절감, LLM·GPU 비용 관리, Reserved vs On-Demand, Showback·Chargeback, OpenCost·Vantage·CloudZero 비교, 탄소발자국
finops data-cost snowflake-cost databricks-cost bigquery-cost llm-cost gpu opencost vantage cloudzero cost-optimization sustainability
2025년 데이터·AI 조직의 생존을 좌우하는 FinOps의 모든 것. Snowflake·Databricks·BigQuery 비용 구조 해부, 웨어하우스 튜닝으로 50% 절감 실전 기법, Storage 계층화와 Iceberg 절감, Reserved Capacity vs On-Demand 선택, LLM·GPU 클러스터 비용 관리, OpenCost·Vantage·CloudZero 도구 비교, Showback·Chargeback 실전, 탄소발자국·Green FinOps, 그리고 2025년 경기 불황 속 데이터팀 예산 생존 전략까지. Season 5 Ep 11.
Published on
2026년 4월 15일
FlashAttention & Efficient Attention Deep Dive — Tiling, Online Softmax, PagedAttention, GQA 완전 정복 (2025)
flashattention attention llm transformer gpu cuda inference machine-learning
LLaMA 3, GPT-4, Claude 같은 대형 모델을 효율적으로 훈련하고 서빙 가능하게 만든 핵심 최적화, FlashAttention과 그 후속 기법들. 이 글은 efficient attention을 처음부터 해부합니다. Naive attention의 O(N²) 메모리 문제, Tri Dao의 2022년 IO-aware 통찰, Tiling과 Online Softmax, SRAM vs HBM 활용, FlashAttention-2/3의 진화, PagedAttention(vLLM)이 KV cache를 OS 가상 메모리처럼 다룬 이유, Multi-Query/Grouped-Query Attention, Sliding Window, Ring Attention까지 — 현대 LLM 인프라의 성능 비밀을 제대로 이해하고 싶은 엔지니어를 위한 종합 가이드입니다.
Published on
2026년 4월 15일
운영체제의 현대적 이해 — io_uring, cgroups/namespaces, eBPF, NUMA, GPU UVM, EEVDF, Zero-Copy 완벽 가이드 (2025)
operating-systems linux io-uring cgroups namespaces ebpf numa gpu eevdf zero-copy rdma container
epoll의 후계자 io_uring, Docker를 만든 cgroups + namespaces, 커널에 안전하게 코드를 주입하는 eBPF, NUMA가 주는 숨은 비용, GPU 드라이버와 UVM, 2024년 Linux에 들어온 EEVDF 스케줄러, Zero-Copy + RDMA, WSL2. 앱 밑에서 OS가 하는 모든 일을 현대적 관점으로 한 번에 정리.
Published on
2026년 4월 15일
RDMA 완전 가이드 2025: InfiniBand, RoCE, NCCL, GPU 통신 — AI 학습의 숨은 인프라
rdma infiniband roce nccl gpu hpc ai-training networking low-latency zero-copy
GPT-4가 10만 GPU로 학습될 수 있었던 비결. RDMA의 원리, InfiniBand와 RoCE, NVIDIA NCCL, GPU Direct까지 — AI 인프라의 숨은 기반을 720줄로 완전 분석한다.
Published on
2026년 4월 12일
2026년 AI & IT 트렌드 총정리 — 에이전틱 AI, GPUaaS, 소버린 AI, 양자 컴퓨팅
ai trends ai-agent gpu quantum cloud 2026-04
2026년을 정의하는 기술 트렌드를 총정리합니다. 에이전틱 AI, GPUaaS, 소버린 AI, 양자 컴퓨팅 대비, AI 엔지니어 채용 트렌드까지.
Published on
2026년 4월 11일
반도체 심화 — CPU, GPU, RAM, ASIC, CUDA 구조 완전 가이드
ai semiconductor cpu gpu cuda asic ram hardware 2026-04
CPU는 어떻게 명령어를 실행하고, RAM은 어떻게 데이터를 저장하며, GPU/CUDA는 왜 AI에 필수인가? 반도체의 원리부터 ASIC 주문형 반도체까지 깊이 파헤칩니다.
Published on
2026년 3월 25일
WEKA 고성능 스토리지 완전 가이드 2025: AI/HPC를 위한 병렬 파일시스템
weka wekafs storage parallel-filesystem ai-infrastructure hpc gpu nvme data-pipeline cloud-storage 2026-03
WEKA(WekaFS)의 모든 것! 병렬 파일시스템 아키텍처, NVMe 계층화, GPU Direct Storage, AI/ML 워크로드 최적화, 클라우드(AWS/Azure/GCP) 연동, Ceph/Lustre/GPFS 비교, 데이터 파이프라인, 성능 벤치마크.
Published on
2026년 3월 23일
GPU Software Engineer 합격 가이드: CUDA 아키텍처부터 vGPU/MIG, InfiniBand, K8s GPU 스케줄링까지 시스템 최적화 완전 정복
gpu cuda system-software virtualization vgpu mig infiniband rdma kubernetes gpu-scheduling performance-optimization lg-uplus career 2026-03
LG유플러스 GPU Software Engineer JD를 완전 분석합니다. GPU 연산 구조, 메모리 계층, CUDA 프로그래밍, vGPU/MIG 가상화, InfiniBand/RDMA 네트워킹, K8s GPU Device Plugin, 대규모 클러스터 최적화까지 — 희소한 GPU 시스템 엔지니어가 되기 위한 딥다이브 + 면접 질문 30선 + 10개월 학습 로드맵.
Published on
2026년 3월 22일
AI 하드웨어 전쟁 2025: NVIDIA Blackwell vs AMD MI350 vs Cerebras WSE-3 vs Google TPU v7 — 칩 패권의 모든 것
nvidia samsung cerebras amd intel google-tpu groq hardware gpu hbm ai-chip 2026-03
NVIDIA B200 208B 트랜지스터, Samsung HBM4 업계 최초 양산, Cerebras 4조 트랜지스터 웨이퍼, AMD MI350 288GB — AI 칩 전쟁의 모든 플레이어를 스펙, 벤치마크, 로드맵으로 완전 비교합니다.
Published on
2026년 3월 21일
토스뱅크 ML Engineer (MLOps) 합격 완벽 가이드: MLFlow부터 LLM 플랫폼까지 기술스택 총정리
mlops ml-platform tossbank kubernetes mlflow airflow kubeflow triton scylladb feature-store llm gpu career interview 2026-03
토스뱅크 ML Platform Team의 MLOps Engineer JD를 완전 분석합니다. MLFlow, Airflow, JupyterHub, Kubeflow, Triton Inference Server, ScyllaDB Feature Store, LLM 플랫폼까지 — 합격을 위한 기술스택 딥다이브, 면접 예상 질문 30선, 6개월 학습 로드맵.
Published on
2026년 3월 20일
[가상화] 06. KubeVirt: 쿠버네티스 위에서 VM 실행하기
virtualization kubernetes gpu
KubeVirt를 통해 쿠버네티스 클러스터에서 가상머신을 네이티브로 실행하는 방법을 알아봅니다. CRD, 아키텍처, CDI, 네트워킹, 라이브 마이그레이션까지 실전 가이드.
Published on
2026년 3월 20일
[가상화] 07. NVIDIA GPU Operator: 쿠버네티스 GPU 관리 자동화
virtualization kubernetes gpu
NVIDIA GPU Operator를 통해 쿠버네티스에서 GPU 드라이버, 런타임, 디바이스 플러그인, 모니터링을 자동으로 관리하는 방법을 상세히 다룹니다.
Published on
2026년 3월 20일
[가상화] 08. KubeVirt + GPU: VM에서 GPU 가속 활용하기
virtualization kubernetes gpu
KubeVirt VM에서 GPU 패스스루와 vGPU를 활용하는 방법을 알아봅니다. GPU Operator 연동, VFIO 설정, Sandbox Device Plugin, 게스트 OS 드라이버 설치까지.
Published on
2026년 3월 20일
[가상화] 09. 가상화 플랫폼 비교: QEMU vs VirtualBox vs VMware vs KubeVirt
virtualization kubernetes gpu
주요 가상화 플랫폼 4종을 아키텍처, GPU 지원, 성능, 라이선스, 유스케이스 관점에서 종합 비교합니다. 환경별 최적 플랫폼 선택 가이드.
Published on
2026년 3월 20일
[가상화] 10. 가상화 기술의 미래: 컨피덴셜 컴퓨팅부터 GPU 디스어그리게이션까지
virtualization kubernetes gpu
가상화 기술의 미래를 전망합니다. 컨피덴셜 컴퓨팅, ARM 가상화, GPU 디스어그리게이션, WebAssembly, Kata Containers, 유니커널 등 차세대 기술을 종합적으로 다룹니다.
Published on
2026년 3월 18일
AMD GPU & ROCm 완전 분석: CUDA의 대안은 가능한가?
amd rocm gpu mi300x LLM서빙 hip CUDA대안 딥러닝
AMD MI300X의 192GB HBM3 메모리, ROCm 소프트웨어 스택, HIP 프로그래밍 모델을 심층 분석합니다. vLLM과 llama.cpp로 실제 LLM 서빙 성능을 측정하고, NVIDIA CUDA 대비 현실적인 장단점과 선택 기준을 제시합니다.
Published on
2026년 3월 18일
cuDNN 완전 해부: 딥러닝 연산이 GPU에서 빛처럼 빠른 이유
cudnn gpu nvidia 딥러닝최적화 컨볼루션 LLM서빙 커널최적화
im2col 변환부터 Winograd 알고리즘, FlashAttention 타일링, TensorRT INT8 양자화까지. cuDNN이 딥러닝 연산을 어떻게 10~100배 빠르게 만드는지 실제 코드와 함께 완전 해부한다.
Published on
2026년 3월 18일
행렬이 GPU에서 어떻게 날아다니는가: GEMM부터 FlashAttention까지 완전 해부
gemm 행렬곱셈 flash-attention gpu 병렬컴퓨팅 LLM서빙 CUDA최적화
딥러닝 연산의 80% 이상을 차지하는 행렬 곱셈이 GPU에서 어떻게 최적화되는가. 순진한 O(n³) 구현부터 캐시 블로킹, cuBLAS, 그리고 FlashAttention의 IO-aware 혁신까지 완전 해부한다.
Published on
2026년 3월 18일
NVIDIA GPU와 CUDA 완전 해부: 왜 GPU가 AI를 지배하는가
cuda gpu nvidia 행렬연산 병렬컴퓨팅 LLM서빙 딥러닝 hpc
H100 스펙부터 Tensor Core WMMA API까지. SIMT 실행 모델, 공유 메모리 타일링, Warp divergence를 실제 CUDA 코드와 함께 완전 해부한다.
Published on
2026년 3월 17일
AI 개발 환경 완전 가이드: GPU 서버 설정부터 Jupyter, VS Code, Docker까지
development-environment jupyter vscode docker gpu ai 2026-03
AI 연구와 개발을 위한 환경 완전 가이드. CUDA 드라이버 설치, 가상환경 관리, Jupyter Lab 고급 활용, VS Code AI 확장, Docker GPU 컨테이너, 원격 개발 환경까지 완벽히 세팅합니다.
Published on
2026년 3월 17일
컴퓨터 구조 완전 가이드: ISA부터 GPU 병렬 아키텍처까지
computer-architecture cpu gpu pipeline cache memory-hierarchy risc-v electronics 2026-03
컴퓨터 구조의 모든 것을 다루는 완전 가이드. ISA, 데이터패스, 파이프라이닝, 캐시 메모리, 가상 메모리, RISC-V, GPU 병렬 아키텍처까지 예제 코드와 함께.
Published on
2026년 3월 17일
CUDA 프로그래밍 완전 정복: GPU 병렬 컴퓨팅 Zero to Hero
cuda gpu gpu-cuda parallel-computing nvidia deep-learning 2026-03
CUDA 프로그래밍의 기초부터 고급 최적화까지 완전히 마스터하는 가이드. GPU 아키텍처 이해, 커널 작성, 메모리 최적화, 혼합 정밀도 학습, cuDNN/cuBLAS 활용까지 실전 예제와 함께 배웁니다.
Published on
2026년 3월 17일
AI를 위한 GPU 하드웨어 완전 가이드: 아키텍처부터 선택 기준까지
gpu hardware nvidia cuda gpu-cuda ai-infrastructure 2026-03
AI 연구와 학습을 위한 GPU 하드웨어 완전 가이드. NVIDIA GPU 아키텍처(Hopper, Blackwell), Tensor Core, NVLink, HBM 메모리, A100/H100/H200/B200 비교, 클라우드 GPU 옵션까지 상세히 다룹니다.
Published on
2026년 3월 12일
LLM 추론 서빙 프레임워크 비교: TensorRT-LLM vs vLLM vs SGLang 프로덕션 배포 전략
llm inference tensorrt-llm vllm sglang model-serving gpu 2026-03
LLM 추론 서빙 3대 프레임워크를 비교합니다. TensorRT-LLM의 하드웨어 최적화, vLLM의 PagedAttention과 프로덕션 스택, SGLang의 RadixAttention과 구조화 생성까지 벤치마크 데이터와 배포 코드로 최적의 선택을 안내합니다.
Published on
2026년 3월 8일
NVIDIA Triton Inference Server 프로덕션 가이드: GPU 모델 서빙 최적화 전략
ai-platform triton inference-server gpu model-serving nvidia 2026-03
NVIDIA Triton Inference Server를 활용한 GPU 모델 서빙 최적화 가이드. Dynamic Batching, Model Ensemble, TensorRT 통합, 멀티 모델 서빙, Kubernetes 배포, 성능 프로파일링과 프로덕션 트러블슈팅까지 다룹니다.
Published on
2026년 3월 6일
Kubernetes DRA(Dynamic Resource Allocation)로 GPU 워크로드 스케줄링 최적화 가이드
kubernetes dra gpu dynamic-resource-allocation scheduling 2026-03
Kubernetes DRA의 DeviceClass, ResourceClaim 기반 GPU 스케줄링 아키텍처와 MIG 파티셔닝, 멀티 클라우드 배포, 운영 트러블슈팅까지 다루는 실전 가이드.
Published on
2026년 3월 1일
FlashAttention: GPU 메모리 계층을 활용한 어텐션 최적화 분석
ai-papers flash-attention gpu optimization transformer
FlashAttention 논문을 리뷰하고, GPU HBM/SRAM 메모리 계층을 활용한 IO-aware 어텐션 최적화 원리를 상세 분석한다.
Published on
2026년 3월 1일
CUDA Hands-on 완벽 가이드: GPU 컴퓨팅의 모든 것
cuda gpu nvidia deep-learning machine-learning python pytorch hpc parallel-computing devops
NVIDIA CUDA의 기초 개념부터 GPU 아키텍처, C/C++ 커널 프로그래밍, 메모리 최적화, Python 연동(PyTorch, Numba, CuPy), Multi-GPU 학습, 프로파일링, 트러블슈팅까지 실전 중심으로 다루는 종합 가이드.
Published on
2026년 3월 1일
Slurm 완전 정복: HPC/AI 클러스터 워크로드 매니저 실전 가이드
slurm hpc gpu distributed-training cluster job-scheduler cuda pytorch deepspeed tensorrt mlops ai-infrastructure
Slurm 워크로드 매니저를 완전 정복한다. 아키텍처(slurmctld/slurmd/slurmdbd), 핵심 개념(파티션/QoS/Fairshare), 필수 명령어(sbatch/srun/salloc), GPU 스케줄링(GRES/MIG/MPS), 다중 노드 분산 학습(PyTorch DDP/DeepSpeed/Horovod), 컨테이너 통합(Singularity/Enroot+Pyxis), 설정·모니터링·트러블슈팅까지 실전 관점에서 총정리한다.
Published on
2026년 3월 1일
GPU 메모리 최적화와 Mixed Precision Training 완전 가이드
gpu cuda mixed-precision optimization deep-learning
NVIDIA 공식 문서 기반으로 GPU 메모리 구성 요소를 분석하고, Mixed Precision Training, Gradient Checkpointing 등 메모리 최적화 기법을 정리한다.
Published on
2026년 3월 1일
CUDA 프로그래밍 기초: GPU 병렬 컴퓨팅 완전 가이드
gpu cuda parallel-computing nvidia
NVIDIA 공식 문서 기반으로 CUDA 프로그래밍의 핵심 개념인 Thread 계층 구조, 메모리 모델, Kernel 작성법을 체계적으로 분석한다.
Published on
2026년 3월 1일
Multi-GPU 분산 학습 완전 가이드: DDP, FSDP, DeepSpeed
gpu cuda distributed-training deep-learning pytorch
PyTorch 공식 문서 기반으로 Multi-GPU 분산 학습의 핵심인 DDP, FSDP, DeepSpeed ZeRO를 체계적으로 분석하고 실전 설정법을 정리한다.
Published on
2026년 3월 1일
NVIDIA GPU Operator 완벽 가이드: 구성요소, 설치, KubeVirt GPU 패스스루까지 총정리
gpu-operator nvidia kubernetes kubevirt gpu virtualization vgpu device-plugin mig cuda deep-learning mlops
NVIDIA GPU Operator의 아키텍처와 7대 핵심 구성요소(Driver, Container Toolkit, Device Plugin, DCGM, MIG Manager, Node Feature Discovery, GFD)의 역할을 상세히 분석하고, Helm 기반 설치, KubeVirt와의 GPU/vGPU 패스스루 통합, MIG 파티셔닝, 모니터링, 트러블슈팅까지 실전 가이드를 총정리한다.
Published on
2026년 3월 1일
Kubernetes GPU 워크로드 관리: NVIDIA GPU Operator 완전 가이드
kubernetes gpu nvidia gpu-operator ai
NVIDIA GPU Operator 공식 문서를 기반으로 Kubernetes 클러스터에서 GPU 리소스를 효율적으로 관리하고 AI 워크로드를 운영하는 방법을 분석한다.
Published on
2026년 3월 1일
딥러닝을 위한 Linux GPU 서버 완전 구축 가이드
linux gpu cuda nvidia-driver deep-learning docker
NVIDIA 공식 문서를 기반으로 딥러닝 개발을 위한 Linux GPU 서버를 NVIDIA 드라이버부터 Docker GPU 환경까지 단계별로 구축하는 가이드를 정리한다.
Published on
2026년 3월 1일
vLLM을 넘어선 새로운 왕좌: SGLang이 LLM 인퍼런스의 판도를 바꾸는 5가지 이유
sglang llm-inference vllm radix-attention model-serving gpu performance deep-learning structured-generation disaggregation
SGLang의 RadixAttention 기반 KV 캐시 관리, 29% 처리량 우위의 하이퍼 스페셜라이즈드 설계, 4000라인 Python Zero-Overhead 스케줄러, Prefill-Decode Disaggregation, Compressed FSM 기반 구조화된 생성까지 — vLLM을 넘어 차세대 LLM 인퍼런스 표준으로 부상한 SGLang의 5가지 혁신을 심층 분석한다.
Published on
2026년 3월 1일
vLLM & Ollama 완벽 가이드: LLM 서빙 엔진의 구동, 파라미터, 환경변수 총정리
vllm ollama model-serving inference gpu quantization openai-api deep-learning devops
vLLM의 PagedAttention 아키텍처와 Ollama의 로컬 LLM 실행 환경을 심층 비교한다. 설치부터 서버 구동, API 호출, 주요 CLI 인자, 샘플링 파라미터, 환경변수, 양자화(AWQ/GPTQ/GGUF), 멀티 GPU 구성, Docker 배포, 성능 튜닝까지 — LLM 서빙에 필요한 모든 설정을 실전 예제와 함께 총정리한다.
Published on
2026년 3월 1일
AI 메모리 슈퍼사이클의 정점: 2026년 반도체 시장을 뒤흔들 HBM의 5가지 결정적 모멘텀
hbm semiconductor memory ai-hardware sk-hynix samsung micron nvidia dram hbm4 gpu data-center
HBM4의 16단 적층 기술, 커스텀 HBM(cHBM)의 등장, SK하이닉스·삼성·마이크론의 전략적 격돌, 메모리 슈퍼사이클의 시장 전망, HBM vs GDDR 비교까지 — 2026년 AI 반도체 시장의 핵심인 고대역폭 메모리(HBM)의 5가지 결정적 모멘텀을 심층 분석한다.

Gpu

gpu (60)