- Published on
AI 하드웨어 가속기 2026 — NVIDIA Blackwell / AMD Instinct MI400 / Google TPU Trillium / Cerebras WSE-3 / Groq LPU / Tenstorrent / Etched Sohu / Furiosa / Rebellions 심층 가이드
- Authors

- Name
- Youngju Kim
- @fjvbn20031
1장 · 2026년 AI 하드웨어 지도 — Hyperscaler / Challenger / 인-하우스 / Edge 4 진영
2026년 5월, AI 칩 시장은 다섯 해 전과 완전히 다른 풍경이다. 2020년 V100, 2021년 A100, 2022년 H100, 2023년 H200으로 이어진 NVIDIA의 단일 지배 시대는, 2024년 Blackwell GTC 발표와 함께 새 챕터로 들어섰다. 그리고 2026년 — 칩의 종류는 늘었고, 선택은 어려워졌다.
대략 네 진영으로 정리할 수 있다.
- Hyperscaler GPU — NVIDIA Blackwell(B100/B200/GB200/B300, Rubin 2026년 9월 예고), AMD Instinct(MI300X → MI355X → MI400 Helios), Intel Gaudi 3(+Falcon Shores 루머)
- Challenger / Specialty — Cerebras WSE-3(웨이퍼 스케일), Groq LPU(순차 추론), SambaNova SN40L(Reconfigurable Dataflow), Tenstorrent(Jim Keller, RISC-V 오픈), Etched Sohu(transformer 전용 ASIC), MatX, Tachyum Prodigy
- In-house Cloud — Google TPU v5p / Trillium(v5e / v6), AWS Trainium 2 + Inferentia 3, Meta MTIA, Microsoft Maia, Apple AC1(루머)
- Edge / Phone NPU — Apple A18 Pro Neural Engine, Snapdragon 8 Gen 4 Hexagon NPU, MediaTek Dimensity 9400 APU, Google Tensor G5 TPU 모바일
가격으로 보면 2024년 H100 한 장 30K-40K, GB200 NVL72 한 랙은 2-4 수준에서 자리잡았고, B200 partial이 시간당 $4-8 사이로 형성되고 있다.
이 글은 사양 → 아키텍처 → 메모리·인터커넥트 → 한국·일본 진영까지 한 장씩 짚는다.
모든 숫자는 2026년 5월 기준 공개 자료 + semianalysis / The Information / Reuters 보도를 기반으로 한다. 비공개 클러스터 가격은 추정치다.
2장 · NVIDIA Blackwell — B100 / B200 / GB200 NVL72 / B300 / Rubin
Blackwell 패밀리의 구조
Blackwell은 2024년 3월 GTC에서 Jensen Huang이 공개한 NVIDIA의 5세대 데이터센터 GPU 아키텍처다. Hopper(H100/H200)의 후계로, TSMC N4P 공정 기반에 두 개의 GPU 다이를 NV-HBI(NVIDIA High-Bandwidth Interconnect, 10TB/s)로 연결한 chiplet 구조를 처음 채택했다.
- B100 — 700W TDP, 공냉 가능, HBM3E 192GB, FP8 14 PFLOPS
- B200 — 1000W, 액체 냉각 권장, HBM3E 192GB, FP8 18 PFLOPS / FP4 36 PFLOPS
- GB200 — Grace CPU 1개 + B200 GPU 2개를 NVLink-C2C 900GB/s로 묶은 superchip
- GB200 NVL72 — 36개의 GB200을 NVLink 5(72-GPU all-to-all)로 묶은 1랙 시스템
- B300 (Blackwell Ultra) — 2025년 후반, HBM3E 288GB, FP4 추론 강화
NVL72의 의미
72개 B200 GPU가 한 NVLink 도메인. 한 모델이 72개 GPU를 마치 1개처럼 보고 학습 가능. MoE 토큰 라우팅의 all-to-all이 NVLink 위에서 일어나므로 InfiniBand로 가지 않는다. 이게 GPT-4 / Claude 3.5 클래스 모델 학습의 진짜 병목을 푼다.
Rubin — 2026년 9월
Rubin은 NVIDIA의 6세대 아키텍처. 2024 GTC에서 예고, 2026년 9월 GTC에서 공식 발표 예정.
- R100 — TSMC N3 공정, HBM4 메모리 (288GB+)
- Vera Rubin — Grace의 후계 CPU(Vera) + Rubin GPU 묶음
- NVL144 — 144-GPU 도메인으로 확장 예고
NVIDIA의 매년 1세대 페이스("annual cadence")는 2026년에도 이어진다. 2024 Blackwell → 2025 Blackwell Ultra → 2026 Rubin → 2027 Rubin Ultra.
가격과 공급
2024년 H100 1장이 4-8 클라우드, 카드 가격으론 3M 수준. 2025년 1H에 NVIDIA는 분기당 200만개 이상의 Blackwell GPU를 출하했다(Reuters).
3장 · AMD Instinct — MI300X → MI325X → MI355X → MI400 Helios
MI300X (2023년 12월)
CDNA 3 아키텍처, 192GB HBM3, FP8 5.2 PFLOPS. 메모리 용량에서 H100(80GB)을 2.4배 압도하며 Meta, Microsoft가 Llama 추론에 대량 배치. 카드당 $15K-20K 추정.
MI325X (2024년 4Q)
HBM3E 256GB로 메모리 업그레이드, 클럭 약간 상향. H200 대응 라인.
MI355X (2025년 후반)
CDNA 4 아키텍처. HBM3E 288GB, FP4 데이터 타입 추가. Blackwell B200/B300의 직접 대응자. ROCm 6.x 소프트웨어 스택이 PyTorch / vLLM / SGLang에서 거의 NVIDIA만큼 매끄러워졌다.
MI400 Helios (2026년)
AMD가 2025년 Advancing AI 이벤트에서 공개한 차세대 플랫폼.
- MI400 Instinct GPU — CDNA Next 아키텍처, HBM4 메모리
- Helios rack-scale system — 72개 GPU를 단일 ScaleUP 도메인으로 묶음 (NVL72 대응)
- Pensando DPU + ROCm 7 + UALink 인터커넥트
UALink는 NVLink의 오픈 대안. AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft가 컨소시엄을 구성했고, 2026년 1H에 1.0 사양이 공개되었다.
시장 점유
2025년 데이터센터 GPU 매출에서 NVIDIA가 90%+, AMD가 5-7%, Intel과 in-house가 나머지. AMD는 MI355X로 Microsoft Azure ND-MI355X-v6, Meta 클러스터를 따냈고, MI400 Helios로 Oracle Cloud Infra가 첫 대형 도입을 발표했다.
4장 · Intel Gaudi 3 + Falcon Shores 루머
Gaudi 3 — 마지막 별도 라인
Habana Labs를 2019년 $2B에 인수한 Intel은 Gaudi 1/2/3로 라인을 이어왔다. Gaudi 3는 2024년 4월 발표, TSMC N5 공정, HBM2E 128GB, 8x Ethernet 200Gbps 인터커넥트(InfiniBand 대신 RoCE).
- BF16 1835 TFLOPS
- FP8 1835 TFLOPS
- 가격 카드당 $7K-15K (NVIDIA 대비 절반 이하)
- 약점 — 소프트웨어 스택(SynapseAI). PyTorch가 동작하지만 ROCm / CUDA 만큼의 생태계는 없다
Stability AI, Naver, Intel 자체 Tiber Cloud 등이 도입.
Falcon Shores 루머
Falcon Shores는 원래 Gaudi 후계 + Ponte Vecchio(데이터센터 GPU) 통합 제품으로 2024년 출시 예정이었으나, 2024년 9월 Intel이 외부 출하 취소를 공식 발표했다. 내부 R&D용으로만 활용한다는 입장.
2026년 5월 현재 루머는, Intel이 Gaudi 4 또는 새로운 단일 GPU 라인을 2027년 1H 출시 목표로 준비 중이라는 것. Pat Gelsinger 시기 IFS Cup 행사에서 Lip-Bu Tan(2025년 새 CEO)이 "AI 전용 칩 라인을 재정비한다"고 언급한 게 출발점.
5장 · Apple M5 + M5 Pro + Neural Engine + AC1 서버 칩
M5 / M5 Pro / M5 Max — 2025년 10월
Apple Silicon 5세대. TSMC N3E 공정. CPU 코어 카운트는 동일, GPU에 ray-tracing 가속기 + AI 추론용 행렬 가속 유닛이 신규.
- M5 — 10-core CPU, 10-core GPU, 16-core Neural Engine, 38 TOPS
- M5 Pro — 14-core CPU, 20-core GPU, 16-core NE
- M5 Max — 16-core CPU, 40-core GPU, 16-core NE
Neural Engine은 항상 16개 코어. 변화는 매트릭스 곱 처리량 증가와 INT4 양자화 가속.
AC1 서버 칩 — 2026년 봄 루머
The Information(2025년 11월)과 Bloomberg Mark Gurman의 보도. Apple이 자체 데이터센터 AI 추론용 SoC를 개발 중이라는 것.
- Apple Compute 1 (AC1) — 코드네임, Mac Pro 서버 형태
- 2026년 봄 Apple Intelligence 백엔드 일부에 투입 예상
- M2 Ultra의 후계 (M5 Ultra 기반 가능성)
Apple은 이미 Apple Intelligence Private Cloud Compute(PCC)를 M2 Ultra Mac으로 굴리고 있다. AC1은 PCC의 다음 세대.
6장 · Google TPU v5p + Trillium (v5/v6)
TPU의 계보
- TPU v1 (2015) — 추론 전용, INT8
- TPU v2 (2017) — 학습 + 추론, BF16
- TPU v3 (2018) — 액체 냉각 첫 도입
- TPU v4 (2021) — Optical Circuit Switching
- TPU v5e (2023) — 추론 비용 최적화
- TPU v5p (2023) — 학습 플래그십, Gemini 학습에 사용
- TPU v6 Trillium (2024) — 4.7x v5e 대비 성능
Trillium의 성격
2024년 5월 Google I/O에서 발표. Gemini 2.0 학습의 주력 칩.
- HBM 용량 2x (32GB → 64GB)
- 인터커넥트 2x
- 에너지 효율 67% 개선
Trillium은 TPU pod 단위로 256개를 묶고, ICI(Inter-Chip Interconnect) optical로 8960개 칩까지 확장(SuperPod).
TPU 7세대 — 2026년 후반 루머
Google이 2026년 후반에 TPU v7 발표 예정이라는 루머가 The Information을 통해 흘러나왔다. Anthropic이 TPU에 대규모 의존하고 있다는 점을 감안하면 의미가 크다.
7장 · Cerebras WSE-3 — 4조 트랜지스터, 웨이퍼 스케일
웨이퍼 스케일이라는 발상
표준 칩은 12인치 웨이퍼를 reticle 사이즈(약 858mm²)로 잘라서 만든다. Cerebras는 웨이퍼 한 장 전체를 하나의 칩으로 쓴다.
WSE-3 (2024년 3월 발표):
- 46,225 mm² 면적
- 4조 트랜지스터 (Blackwell의 약 18배)
- 90만 코어 (custom RISC-V style)
- 44GB on-chip SRAM (HBM이 없음, 칩 위 SRAM만)
- 125 PFLOPS FP8
- TSMC 5nm
왜 웨이퍼 스케일인가
칩 간 통신을 없앤다. 메모리(SRAM)가 컴퓨트 코어 옆에 직접 붙어 있어 HBM 대비 수십 배 빠른 대역폭. 모델 weights를 전부 on-wafer SRAM에 올린다 — 70B 모델을 한 장의 웨이퍼에 fit.
한계와 장점
- 장점 — 추론 latency가 압도적. Llama 3.1 70B에서 토큰당 latency가 Groq 다음 가는 수준
- 한계 — 학습은 NVIDIA 대비 가성비 떨어짐. yield와 패키징 비용
- 고객 — G42(UAE), Mayo Clinic, Argonne National Lab 등 특수 도메인
CS-3 시스템 1대 가격은 $2-3M 추정.
8장 · Groq LPU — 순차 추론 속도
LPU의 발상
Groq의 LPU(Language Processing Unit)는 2016년 Google TPU 팀 출신 Jonathan Ross가 창업한 회사의 칩. 결정론적 실행(deterministic execution) — 칩 위의 모든 명령어가 컴파일러가 미리 정한 사이클에 정확히 실행된다.
- 14nm GlobalFoundries
- 230MB on-chip SRAM (HBM 없음)
- 750 TOPS INT8
- Tensor Streaming Processor (TSP) 구조
왜 빠른가
GPU는 dynamic scheduling으로 SM에 워크로드를 분배한다. LPU는 모든 dispatch를 컴파일 타임에 결정 — runtime 분기가 없다. 결과적으로 Llama 70B 추론을 토큰당 200-300 tokens/sec까지 끌어올린다. NVIDIA H100 기준 약 30-50 tokens/sec과 비교해 4-8배 빠르다.
한계
- 학습 불가 — 추론 전용
- 모델 크기에 따라 수십~수백 개의 LPU가 필요 (SRAM이 작아서 weights를 분산)
- 데이터센터 단위 비용으로는 NVIDIA보다 비쌀 수도 있음
대신 latency 우선의 코드 자동완성 / 챗봇 / 음성 어시스턴트에 적합. Groq Cloud는 시간당 $0.59부터 Llama 70B를 제공.
9장 · SambaNova SN40L — Reconfigurable Dataflow
SambaNova의 접근
2017년 창업, 스탠퍼드 Kunle Olukotun 교수와 Rodrigo Liang이 공동 설립. Reconfigurable Dataflow Architecture(RDA) — 매 워크로드마다 칩 위의 데이터 흐름을 새로 구성.
SN40L (2023년):
- TSMC 5nm
- 1.5TB DDR5 + 64GB HBM3
- 638 BF16 TFLOPS
- 칩에 3-tier 메모리(SRAM / HBM / DDR) 통합
왜 RDA인가
GPU의 SIMT 모델은 텐서 곱에 최적화. 하지만 transformer는 attention의 dynamic shape, MoE의 sparse dispatch 같은 비정형 패턴이 많다. RDA는 각 레이어마다 다른 데이터 경로를 컴파일 타임에 구성하므로 sparse 워크로드에 강점.
고객
미국 DOE(Lawrence Livermore, Argonne), Saudi Aramco, SoftBank의 일부 R&D 클러스터.
10장 · Tenstorrent — Jim Keller, RISC-V 오픈 아키텍처
Jim Keller의 회사
전 AMD Zen 아키텍트, 전 Apple A4/A5 리드, 전 Tesla Autopilot 칩 리드, 전 Intel SVP. 2021년 Tenstorrent CEO 합류.
Tenstorrent의 핵심 차별점:
- RISC-V 코어 기반 — 모든 칩의 control plane이 RISC-V
- 오픈 아키텍처 — RTL 일부와 컴파일러를 공개
- Tensix 코어 — 행렬 곱 + 벡터 + 데이터 무브먼트 통합
- 확장 가능한 mesh 인터커넥트 — Ethernet 위에서
라인업
- Grayskull (2020) — 1세대, 데모/평가용
- Wormhole (2023) — 데이터센터 + Ethernet 12x100G 인터커넥트
- Blackhole (2024) — 1세대 패키지, 16 CPU + 32GB GDDR6
- Hub / Galaxy — 32 Wormhole을 묶은 4U 박스, $50K
Hyundai / 삼성 / LG AI Research 투자
2024년 한국 컨소시엄(현대차, 삼성전자 NEXT, LG)이 Tenstorrent에 투자. 한국에서도 차량 AI / 데이터센터 AI에 적용할 의도가 보인다.
11장 · Etched Sohu — transformer 전용 ASIC (2024년 6월)
"한 가지만 잘 하는 칩"
Etched는 Harvard 학부 출신 두 명이 2022년 창업한 스타트업. 2024년 6월 Sohu 칩을 공개하며 큰 화제를 모았다.
- transformer 아키텍처 전용 — CNN, RNN, MLP 다른 아키텍처는 지원 안 함
- 144GB HBM3E
- 4nm TSMC
- 광고된 성능 — Llama 70B에서 H100 대비 20배 빠른 토큰/초
왜 transformer 전용인가
GPU의 면적 중 transformer 추론에 쓰이는 비율이 30% 미만. attention과 FFN의 패턴이 너무 명확하니, 나머지 70%의 실리콘을 잘라내고 그 자리에 attention 유닛을 더 박자는 발상.
위험과 기대
위험은 명확하다. Mamba / RWKV / SSM / diffusion 같은 비-transformer 아키텍처가 부상하면 Sohu는 즉시 무용지물이 된다. 2026년 5월 기준 transformer는 여전히 LLM의 80%+ 점유 — Etched는 이 도박에 베팅한다.
2024년 시리즈 A에서 $120M 조달, Peter Thiel / Stanley Druckenmiller가 투자자.
12장 · AWS Trainium 2 + Inferentia 3
AWS의 자체 칩 전략
AWS는 2018년 Inferentia 1, 2020년 Trainium 1, 2023년 Inferentia 2, 2024년 Trainium 2, 2025년 Inferentia 3로 라인을 키워왔다.
- Trainium 1 (2020) — 학습용 첫 칩
- Inferentia 2 (2023) — Stable Diffusion / Llama 추론
- Trainium 2 (2024) — Anthropic의 Project Rainier 메인 칩
- Inferentia 3 (2025) — Llama 405B 추론을 carrier 워크로드로
Trainium 2 한 instance(Trn2.48xlarge)는 16개 칩, 1.5TB HBM, 약 시간당 $5-6.
Anthropic의 Project Rainier
Anthropic이 2024년 발표한 Trainium 2 기반 거대 클러스터. 400,000개 Trainium 2 칩 규모로 알려졌으며, Claude 4.x 학습에 사용된다(공식 발표).
AWS는 Trainium 3를 2026년 말 출시 예고. Neuron SDK가 PyTorch / JAX와 매끄러워졌다.
13장 · MatX / Tachyum Prodigy — 신예
MatX
2022년 창업, Google TPU 출신과 OpenAI 출신이 공동 설립. LLM 학습 전용 칩을 만든다는 미션. 2025년 시리즈 B에서 $80M 조달, 첫 칩 출시 목표는 2026년 후반.
Tachyum Prodigy
슬로바키아 출신 Radoslav Danilak가 창업한 회사. AI + HPC + 일반 컴퓨팅을 한 칩으로 하겠다는 야심.
- 192-core CPU + AI 텐서 유닛
- 96GB HBM3 + DDR5
- 5nm TSMC
- 2026년 1Q tape-out 완료, 샘플 출하 시작
회의적인 시각도 많지만, EuroHPC(EU 공공 HPC)가 첫 대형 도입처가 될 가능성이 있다.
14장 · 폰 NPU — A18 Pro / Snapdragon 8 Gen 4 / Dimensity 9400 / Tensor G5
Apple A18 Pro (2024년 9월, iPhone 16 Pro)
- 6-core CPU + 6-core GPU + 16-core Neural Engine
- 35 TOPS Neural Engine
- Apple Intelligence on-device 추론 담당
Snapdragon 8 Gen 4 (2024년 10월, Samsung S25 등)
- Qualcomm 자체 Oryon CPU + Adreno GPU + Hexagon NPU
- 45 TOPS (Hexagon)
- 4nm TSMC
MediaTek Dimensity 9400 (2024년 10월)
- 3nm TSMC, Arm Cortex-X925
- 50 TOPS APU 890
- Generative AI 워크로드(SD / Llama) 강조
Google Tensor G5 (2024년 10월, Pixel 9)
- TSMC 3nm으로 Samsung Foundry 떠남(중요한 이동)
- TPU 5세대 모바일 (Edge TPU 후계)
- 자체 ML 가속 + Gemini Nano on-device
폰 NPU의 의미는 on-device 추론 비용 = $0. 클라우드 호출 없이 로컬에서 LLM 응답을 만든다.
15장 · 인터커넥트 — NVLink 5/6 / PCIe Gen 6/7 / CXL
NVLink 5
- Blackwell부터 NVLink 5
- 칩당 1.8TB/s (1.4TB/s GPU-to-GPU, 양방향)
- NVL72 — 72개 GPU all-to-all
NVLink 6는 Rubin(2026)부터 — 칩당 3.6TB/s 추정.
PCIe Gen 6 / Gen 7
- PCIe 6.0 — 2022년 사양 확정, 64GT/s, 첫 양산은 2024년 후반 서버 보드
- PCIe 7.0 — 2025년 사양 확정, 128GT/s, 양산은 2027~2028년
Gen 6의 의미는 PAM4 시그널링 도입. SerDes의 한계를 dual-level에서 four-level로 푼다.
CXL
Compute Express Link. Intel이 주도한 메모리 공유 표준. CPU - GPU - DPU - memory pool을 PCIe 위에서 한 데로 묶는다.
- CXL 1.x — 메모리 attach
- CXL 2.x — 메모리 풀링
- CXL 3.x — 메모리 sharing (cache coherent)
2026년 5월 현재 CXL 3.0 양산 제품(Samsung CMM-D, Micron CZ120)이 본격 배치. NVMe + CXL 메모리 expansion이 Tier 1 / Tier 2 / Tier 3 메모리 계층의 새 paradigm.
UALink (Ultra Accelerator Link)
NVLink의 오픈 대안. AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft 컨소시엄. 2026년 1.0 사양 공개.
16장 · 메모리 — HBM3E / HBM4 / 삼성 + SK Hynix
HBM의 진화
- HBM1 (2015) — 4-Hi, 1GBps/pin
- HBM2 (2016) — 8-Hi, 2GBps
- HBM2E (2018) — 3.6GBps
- HBM3 (2022) — 6.4GBps, 24GB/stack
- HBM3E (2024) — 9.6GBps, 36GB/stack (B200 / MI355X)
- HBM4 (2026) — 16Gbps+, 48GB/stack 예상
HBM은 GPU 다이 옆에 2.5D 또는 3D 스택으로 붙는다. 대역폭은 HBM3E 8-stack 기준 8TB/s를 넘는다.
공급 — SK하이닉스 / 삼성 / Micron
- SK Hynix — HBM3E 첫 양산, NVIDIA 1차 공급사. 2025년 SK Hynix HBM 매출이 회사 매출의 30%+
- Samsung — HBM3 후발이었지만 HBM4 표준 주도. NVIDIA HBM3E 12-Hi 인증을 2025년에 통과
- Micron — 3위, 2024년 HBM3E 양산
NVIDIA Blackwell 1장에 HBM3E 8개 stack, 총 192GB. Stack 1개당 약 2-2.4K.
HBM4
JEDEC 표준 2025년 4월 확정. 16Gbps/pin, 12-Hi / 16-Hi stack. Rubin(2026)에서 첫 양산 적용. 한국 양사가 NVIDIA 인증을 두고 경쟁 중.
17장 · 한국 — FuriosaAI + Rebellions (Sapeon 통합 2024)
FuriosaAI
2017년 창업, Samsung / AMD 출신 백준호 대표. RNGD(Renegade) 칩을 2024년 출시 — Llama 추론 워크로드 타겟.
- TSMC 5nm
- 256GB HBM3
- 512 TFLOPS FP8
- 64 TFLOPS BF16
- TDP 150W
LG AI Research가 EXAONE 추론에 도입, 카카오엔터프라이즈 클라우드와 협업 발표.
Rebellions + Sapeon 통합
- Rebellions (2020 창업) — KT가 주요 투자자. ATOM 칩 — 추론용
- Sapeon (SK텔레콤 사내 분사) — X220 / X330 추론 칩
2024년 7월, Rebellions와 Sapeon이 합병 발표. 합병 후 통합 사명도 Rebellions. KT + SK텔레콤 + Samsung 모두 투자자. REBEL 차세대 칩이 2025년 발표, 2026년 양산 진입.
- 5nm Samsung Foundry
- 144GB HBM3E
- TDP 250W
- 학습 + 추론 겸용
한국 정부의 K-Cloud 프로젝트 — 2030년까지 국산 AI 가속기를 NIA 데이터센터에 50% 배치한다는 목표.
18장 · 일본 — SoftBank Graphcore + Preferred Networks MN-3 + Rapidus 2nm 2027
SoftBank의 Graphcore 인수 (2024년 7월)
SoftBank가 영국 Graphcore를 약 $500M에 인수. Graphcore의 IPU(Intelligence Processing Unit) — Bow IPU, 2세대 Colossus 등. SoftBank의 Cristal Intelligence(자체 AI 인프라) 백본으로 통합 예정.
Preferred Networks MN-3 / MN-Core 2
Preferred Networks는 일본의 대표 AI 회사. MN-Core 라인은 자체 학습 가속기.
- MN-3 (2020) — Green500 1위 (에너지 효율 1위)
- MN-Core 2 (2024) — 7nm, 130 TFLOPS BF16
PFN의 자체 LLM 학습에 사용. 외부 판매보다는 사내 + Toyota 등 일부 협업.
Rapidus — 2nm 2027
일본 정부 + Sony + Toyota + NTT + SoftBank가 출자한 신생 파운드리. 2nm 양산을 2027년 목표. IBM과 기술 제휴, 홋카이도 치토세 공장 건설 중.
미국 / 한국 / 대만(TSMC)이 독점하는 leading edge 파운드리에 일본이 다시 도전한다. 2026년 5월 시점에 시범 라인이 가동, 2027년 양산이 계획대로면 일본 AI 칩의 큰 변수.
19장 · 액체 냉각 + 데이터센터 전력
왜 액체 냉각인가
H100이 700W, B200이 1000W, GB200 NVL72 1랙이 120kW. 공냉으로 처리 불가. 1U 서버에 1000W GPU 8개 = 서버당 8kW. 랙당 30kW가 공냉의 한계, 그 위는 액체 냉각이 강제된다.
액체 냉각의 종류
- Direct-to-Chip (D2C) — 칩 위에 콜드 플레이트 부착, 액체 순환
- Rear-door heat exchanger — 랙 뒷면에 라디에이터
- Immersion cooling — 서버 전체를 dielectric 액체에 담금
GB200 NVL72는 D2C가 표준. 데이터센터 전체에 facility water loop 필요. PUE 1.05 수준으로 떨어진다(공냉 PUE 1.4-1.6 대비).
전력 — 발전소 옆 데이터센터
Anthropic / OpenAI / Meta의 신규 데이터센터는 2GW+ 규모. 미국 평균 가정 200만 호의 소비량.
- Microsoft + Three Mile Island 원전 재가동 (2024년 9월, Constellation Energy)
- Amazon + Cumulus Data 원전 옆 데이터센터
- Google + Kairos Power SMR (소형 모듈 원전) 계약
2026년 5월 — AI 데이터센터 부지가 미국 동부 PJM, 텍사스 ERCOT, 대만 신주, 한국 안성 / 평택, 일본 인접 등으로 확산되며 발전 인프라가 병목.
20장 · 누가 무엇을 골라야 하나 — 학습 / 추론 / 엣지 / 폰
학습 — 큰 모델, 새 모델
| 상황 | 추천 |
|---|---|
| 최첨단 70B+ MoE 학습 | NVIDIA GB200 NVL72 / Rubin (2026 후반) |
| 가성비 학습 (50%+ 저렴) | AMD MI355X / MI400 Helios |
| TPU 친화적 (JAX / TF) | Google TPU v5p / Trillium |
| AWS 락-인 OK | AWS Trainium 2 |
추론 — 대량 처리
| 상황 | 추천 |
|---|---|
| 일반 LLM serving | NVIDIA H200 / B200 / AMD MI300X |
| 초저 latency (코드 자동완성) | Groq LPU / Cerebras WSE-3 |
| transformer 전용 | Etched Sohu (출시 후) |
| 한국 / EXAONE / 국산 모델 | FuriosaAI RNGD / Rebellions REBEL |
엣지 — 로봇 / 차량 / IoT
| 상황 | 추천 |
|---|---|
| 자율주행 | NVIDIA Drive Thor / Tesla FSD HW5 |
| 산업 IoT | NVIDIA Jetson Orin / Hailo-10 / Tenstorrent |
| 데스크탑 워크스테이션 | NVIDIA RTX 5090 / AMD Radeon Pro |
폰 — on-device LLM
| 상황 | 추천 |
|---|---|
| iOS Apple Intelligence | A18 Pro Neural Engine |
| Android Gemini Nano | Snapdragon 8 Gen 4 / Tensor G5 |
| 가성비 Android | Dimensity 9400 |
선택의 기준은 단순하다 — 소프트웨어 스택 호환성 + 단위 비용 + 가용성. NVIDIA의 CUDA 생태계는 여전히 최강이지만, ROCm / XLA / Neuron / SynapseAI가 따라붙고 있다.
21장 · 참고 / References
- NVIDIA — Blackwell architecture: https://www.nvidia.com/en-us/data-center/blackwell-architecture/
- NVIDIA — GTC 2024 keynote: https://www.nvidia.com/gtc/keynote/
- AMD — Instinct MI300X: https://www.amd.com/en/products/accelerators/instinct/mi300/mi300x.html
- AMD — Advancing AI 2024: https://www.amd.com/en/corporate/events/advancing-ai.html
- Intel — Gaudi 3: https://www.intel.com/content/www/us/en/products/details/processors/ai-accelerators/gaudi3.html
- Apple — Apple Intelligence: https://www.apple.com/apple-intelligence/
- Google Cloud — TPU v5p: https://cloud.google.com/tpu/docs/v5p
- Google Cloud — Trillium TPU: https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus
- Cerebras — WSE-3: https://www.cerebras.ai/product-chip
- Groq — LPU: https://groq.com/
- SambaNova — SN40L: https://sambanova.ai/products
- Tenstorrent — Wormhole / Blackhole: https://tenstorrent.com/cards/
- Etched — Sohu: https://www.etched.com/announcing-etched
- AWS — Trainium 2: https://aws.amazon.com/machine-learning/trainium/
- AWS — Inferentia: https://aws.amazon.com/machine-learning/inferentia/
- MatX: https://matx.com/
- Tachyum — Prodigy: https://www.tachyum.com/products/
- Qualcomm — Snapdragon 8 Gen 4: https://www.qualcomm.com/products/mobile/snapdragon/smartphones/snapdragon-8-series-mobile-platforms/snapdragon-8-elite-mobile-platform
- MediaTek — Dimensity 9400: https://www.mediatek.com/products/smartphones-2/mediatek-dimensity-9400
- SemiAnalysis — Blackwell deep dive: https://www.semianalysis.com/
- SK Hynix — HBM: https://www.skhynix.com/hbm/
- Samsung Semiconductor — HBM: https://semiconductor.samsung.com/dram/hbm/
- Micron — HBM3E: https://www.micron.com/products/memory/hbm
- JEDEC — HBM4 standard: https://www.jedec.org/
- CXL Consortium: https://www.computeexpresslink.org/
- UALink Consortium: https://ualinkconsortium.org/
- FuriosaAI: https://www.furiosa.ai/
- Rebellions: https://rebellions.ai/
- Preferred Networks — MN-Core: https://projects.preferred.jp/mn-core/en/
- Rapidus: https://www.rapidus.inc/en/
- Reuters — NVIDIA shipments: https://www.reuters.com/
- The Information — AI hardware coverage: https://www.theinformation.com/
- Anthropic — Trainium / Project Rainier: https://www.anthropic.com/news