AI 하드웨어 가속기 2026 — NVIDIA Blackwell / AMD Instinct MI400 / Google TPU Trillium / Cerebras WSE-3 / Groq LPU / Tenstorrent / Etched Sohu / Furiosa / Rebellions 심층 가이드

1장 · 2026년 AI 하드웨어 지도 — Hyperscaler / Challenger / 인-하우스 / Edge 4 진영

2026년 5월, AI 칩 시장은 다섯 해 전과 완전히 다른 풍경이다. 2020년 V100, 2021년 A100, 2022년 H100, 2023년 H200으로 이어진 NVIDIA의 단일 지배 시대는, 2024년 Blackwell GTC 발표와 함께 새 챕터로 들어섰다. 그리고 2026년 — 칩의 종류는 늘었고, 선택은 어려워졌다.

대략 네 진영으로 정리할 수 있다.

Hyperscaler GPU — NVIDIA Blackwell(B100/B200/GB200/B300, Rubin 2026년 9월 예고), AMD Instinct(MI300X → MI355X → MI400 Helios), Intel Gaudi 3(+Falcon Shores 루머)
Challenger / Specialty — Cerebras WSE-3(웨이퍼 스케일), Groq LPU(순차 추론), SambaNova SN40L(Reconfigurable Dataflow), Tenstorrent(Jim Keller, RISC-V 오픈), Etched Sohu(transformer 전용 ASIC), MatX, Tachyum Prodigy
In-house Cloud — Google TPU v5p / Trillium(v5e / v6), AWS Trainium 2 + Inferentia 3, Meta MTIA, Microsoft Maia, Apple AC1(루머)
Edge / Phone NPU — Apple A18 Pro Neural Engine, Snapdragon 8 Gen 4 Hexagon NPU, MediaTek Dimensity 9400 APU, Google Tensor G5 TPU 모바일

가격으로 보면 2024년 H100 한 장 $30K-40K였던 게 B200은$ 30K-40K, GB200 NVL72 한 랙은 $3M 수준. 클라우드에서 빌리면 H100이 시간당$ 2-4 수준에서 자리잡았고, B200 partial이 시간당 $4-8 사이로 형성되고 있다.

이 글은 사양 → 아키텍처 → 메모리·인터커넥트 → 한국·일본 진영까지 한 장씩 짚는다.

모든 숫자는 2026년 5월 기준 공개 자료 + semianalysis / The Information / Reuters 보도를 기반으로 한다. 비공개 클러스터 가격은 추정치다.

2장 · NVIDIA Blackwell — B100 / B200 / GB200 NVL72 / B300 / Rubin

Blackwell 패밀리의 구조

Blackwell은 2024년 3월 GTC에서 Jensen Huang이 공개한 NVIDIA의 5세대 데이터센터 GPU 아키텍처다. Hopper(H100/H200)의 후계로, TSMC N4P 공정 기반에 두 개의 GPU 다이를 NV-HBI(NVIDIA High-Bandwidth Interconnect, 10TB/s)로 연결한 chiplet 구조를 처음 채택했다.

B100 — 700W TDP, 공냉 가능, HBM3E 192GB, FP8 14 PFLOPS
B200 — 1000W, 액체 냉각 권장, HBM3E 192GB, FP8 18 PFLOPS / FP4 36 PFLOPS
GB200 — Grace CPU 1개 + B200 GPU 2개를 NVLink-C2C 900GB/s로 묶은 superchip
GB200 NVL72 — 36개의 GB200을 NVLink 5(72-GPU all-to-all)로 묶은 1랙 시스템
B300 (Blackwell Ultra) — 2025년 후반, HBM3E 288GB, FP4 추론 강화

NVL72의 의미

72개 B200 GPU가 한 NVLink 도메인. 한 모델이 72개 GPU를 마치 1개처럼 보고 학습 가능. MoE 토큰 라우팅의 all-to-all이 NVLink 위에서 일어나므로 InfiniBand로 가지 않는다. 이게 GPT-4 / Claude 3.5 클래스 모델 학습의 진짜 병목을 푼다.

Rubin — 2026년 9월

Rubin은 NVIDIA의 6세대 아키텍처. 2024 GTC에서 예고, 2026년 9월 GTC에서 공식 발표 예정.

R100 — TSMC N3 공정, HBM4 메모리 (288GB+)
Vera Rubin — Grace의 후계 CPU(Vera) + Rubin GPU 묶음
NVL144 — 144-GPU 도메인으로 확장 예고

NVIDIA의 매년 1세대 페이스("annual cadence")는 2026년에도 이어진다. 2024 Blackwell → 2025 Blackwell Ultra → 2026 Rubin → 2027 Rubin Ultra.

가격과 공급

2024년 H100 1장이 $30K-40K. B200은 partial 기준 시간당$ 4-8 클라우드, 카드 가격으론 $30K-40K. GB200 NVL72 1랙은$ 3M 수준. 2025년 1H에 NVIDIA는 분기당 200만개 이상의 Blackwell GPU를 출하했다(Reuters).

3장 · AMD Instinct — MI300X → MI325X → MI355X → MI400 Helios

MI300X (2023년 12월)

CDNA 3 아키텍처, 192GB HBM3, FP8 5.2 PFLOPS. 메모리 용량에서 H100(80GB)을 2.4배 압도하며 Meta, Microsoft가 Llama 추론에 대량 배치. 카드당 $15K-20K 추정.

MI325X (2024년 4Q)

HBM3E 256GB로 메모리 업그레이드, 클럭 약간 상향. H200 대응 라인.

MI355X (2025년 후반)

CDNA 4 아키텍처. HBM3E 288GB, FP4 데이터 타입 추가. Blackwell B200/B300의 직접 대응자. ROCm 6.x 소프트웨어 스택이 PyTorch / vLLM / SGLang에서 거의 NVIDIA만큼 매끄러워졌다.

MI400 Helios (2026년)

AMD가 2025년 Advancing AI 이벤트에서 공개한 차세대 플랫폼.

MI400 Instinct GPU — CDNA Next 아키텍처, HBM4 메모리
Helios rack-scale system — 72개 GPU를 단일 ScaleUP 도메인으로 묶음 (NVL72 대응)
Pensando DPU + ROCm 7 + UALink 인터커넥트

UALink는 NVLink의 오픈 대안. AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft가 컨소시엄을 구성했고, 2026년 1H에 1.0 사양이 공개되었다.

시장 점유

2025년 데이터센터 GPU 매출에서 NVIDIA가 90%+, AMD가 5-7%, Intel과 in-house가 나머지. AMD는 MI355X로 Microsoft Azure ND-MI355X-v6, Meta 클러스터를 따냈고, MI400 Helios로 Oracle Cloud Infra가 첫 대형 도입을 발표했다.

4장 · Intel Gaudi 3 + Falcon Shores 루머

Gaudi 3 — 마지막 별도 라인

Habana Labs를 2019년 $2B에 인수한 Intel은 Gaudi 1/2/3로 라인을 이어왔다. Gaudi 3는 2024년 4월 발표, TSMC N5 공정, HBM2E 128GB, 8x Ethernet 200Gbps 인터커넥트(InfiniBand 대신 RoCE).

BF16 1835 TFLOPS
FP8 1835 TFLOPS
가격 카드당 $7K-15K (NVIDIA 대비 절반 이하)
약점 — 소프트웨어 스택(SynapseAI). PyTorch가 동작하지만 ROCm / CUDA 만큼의 생태계는 없다

Stability AI, Naver, Intel 자체 Tiber Cloud 등이 도입.

Falcon Shores 루머

Falcon Shores는 원래 Gaudi 후계 + Ponte Vecchio(데이터센터 GPU) 통합 제품으로 2024년 출시 예정이었으나, 2024년 9월 Intel이 외부 출하 취소를 공식 발표했다. 내부 R&D용으로만 활용한다는 입장.

2026년 5월 현재 루머는, Intel이 Gaudi 4 또는 새로운 단일 GPU 라인을 2027년 1H 출시 목표로 준비 중이라는 것. Pat Gelsinger 시기 IFS Cup 행사에서 Lip-Bu Tan(2025년 새 CEO)이 "AI 전용 칩 라인을 재정비한다"고 언급한 게 출발점.

5장 · Apple M5 + M5 Pro + Neural Engine + AC1 서버 칩

M5 / M5 Pro / M5 Max — 2025년 10월

Apple Silicon 5세대. TSMC N3E 공정. CPU 코어 카운트는 동일, GPU에 ray-tracing 가속기 + AI 추론용 행렬 가속 유닛이 신규.

M5 — 10-core CPU, 10-core GPU, 16-core Neural Engine, 38 TOPS
M5 Pro — 14-core CPU, 20-core GPU, 16-core NE
M5 Max — 16-core CPU, 40-core GPU, 16-core NE

Neural Engine은 항상 16개 코어. 변화는 매트릭스 곱 처리량 증가와 INT4 양자화 가속.

AC1 서버 칩 — 2026년 봄 루머

The Information(2025년 11월)과 Bloomberg Mark Gurman의 보도. Apple이 자체 데이터센터 AI 추론용 SoC를 개발 중이라는 것.

Apple Compute 1 (AC1) — 코드네임, Mac Pro 서버 형태
2026년 봄 Apple Intelligence 백엔드 일부에 투입 예상
M2 Ultra의 후계 (M5 Ultra 기반 가능성)

Apple은 이미 Apple Intelligence Private Cloud Compute(PCC)를 M2 Ultra Mac으로 굴리고 있다. AC1은 PCC의 다음 세대.

6장 · Google TPU v5p + Trillium (v5/v6)

TPU의 계보

TPU v1 (2015) — 추론 전용, INT8
TPU v2 (2017) — 학습 + 추론, BF16
TPU v3 (2018) — 액체 냉각 첫 도입
TPU v4 (2021) — Optical Circuit Switching
TPU v5e (2023) — 추론 비용 최적화
TPU v5p (2023) — 학습 플래그십, Gemini 학습에 사용
TPU v6 Trillium (2024) — 4.7x v5e 대비 성능

Trillium의 성격

2024년 5월 Google I/O에서 발표. Gemini 2.0 학습의 주력 칩.

HBM 용량 2x (32GB → 64GB)
인터커넥트 2x
에너지 효율 67% 개선

Trillium은 TPU pod 단위로 256개를 묶고, ICI(Inter-Chip Interconnect) optical로 8960개 칩까지 확장(SuperPod).

TPU 7세대 — 2026년 후반 루머

Google이 2026년 후반에 TPU v7 발표 예정이라는 루머가 The Information을 통해 흘러나왔다. Anthropic이 TPU에 대규모 의존하고 있다는 점을 감안하면 의미가 크다.

7장 · Cerebras WSE-3 — 4조 트랜지스터, 웨이퍼 스케일

웨이퍼 스케일이라는 발상

표준 칩은 12인치 웨이퍼를 reticle 사이즈(약 858mm²)로 잘라서 만든다. Cerebras는 웨이퍼 한 장 전체를 하나의 칩으로 쓴다.

WSE-3 (2024년 3월 발표):

46,225 mm² 면적
4조 트랜지스터 (Blackwell의 약 18배)
90만 코어 (custom RISC-V style)
44GB on-chip SRAM (HBM이 없음, 칩 위 SRAM만)
125 PFLOPS FP8
TSMC 5nm

왜 웨이퍼 스케일인가

칩 간 통신을 없앤다. 메모리(SRAM)가 컴퓨트 코어 옆에 직접 붙어 있어 HBM 대비 수십 배 빠른 대역폭. 모델 weights를 전부 on-wafer SRAM에 올린다 — 70B 모델을 한 장의 웨이퍼에 fit.

한계와 장점

장점 — 추론 latency가 압도적. Llama 3.1 70B에서 토큰당 latency가 Groq 다음 가는 수준
한계 — 학습은 NVIDIA 대비 가성비 떨어짐. yield와 패키징 비용
고객 — G42(UAE), Mayo Clinic, Argonne National Lab 등 특수 도메인

CS-3 시스템 1대 가격은 $2-3M 추정.

8장 · Groq LPU — 순차 추론 속도

LPU의 발상

Groq의 LPU(Language Processing Unit)는 2016년 Google TPU 팀 출신 Jonathan Ross가 창업한 회사의 칩. 결정론적 실행(deterministic execution) — 칩 위의 모든 명령어가 컴파일러가 미리 정한 사이클에 정확히 실행된다.

14nm GlobalFoundries
230MB on-chip SRAM (HBM 없음)
750 TOPS INT8
Tensor Streaming Processor (TSP) 구조

왜 빠른가

GPU는 dynamic scheduling으로 SM에 워크로드를 분배한다. LPU는 모든 dispatch를 컴파일 타임에 결정 — runtime 분기가 없다. 결과적으로 Llama 70B 추론을 토큰당 200-300 tokens/sec까지 끌어올린다. NVIDIA H100 기준 약 30-50 tokens/sec과 비교해 4-8배 빠르다.

한계

학습 불가 — 추론 전용
모델 크기에 따라 수십~수백 개의 LPU가 필요 (SRAM이 작아서 weights를 분산)
데이터센터 단위 비용으로는 NVIDIA보다 비쌀 수도 있음

대신 latency 우선의 코드 자동완성 / 챗봇 / 음성 어시스턴트에 적합. Groq Cloud는 시간당 $0.59부터 Llama 70B를 제공.

9장 · SambaNova SN40L — Reconfigurable Dataflow

SambaNova의 접근

2017년 창업, 스탠퍼드 Kunle Olukotun 교수와 Rodrigo Liang이 공동 설립. Reconfigurable Dataflow Architecture(RDA) — 매 워크로드마다 칩 위의 데이터 흐름을 새로 구성.

SN40L (2023년):

TSMC 5nm
1.5TB DDR5 + 64GB HBM3
638 BF16 TFLOPS
칩에 3-tier 메모리(SRAM / HBM / DDR) 통합

왜 RDA인가

GPU의 SIMT 모델은 텐서 곱에 최적화. 하지만 transformer는 attention의 dynamic shape, MoE의 sparse dispatch 같은 비정형 패턴이 많다. RDA는 각 레이어마다 다른 데이터 경로를 컴파일 타임에 구성하므로 sparse 워크로드에 강점.

고객

미국 DOE(Lawrence Livermore, Argonne), Saudi Aramco, SoftBank의 일부 R&D 클러스터.

10장 · Tenstorrent — Jim Keller, RISC-V 오픈 아키텍처

Jim Keller의 회사

전 AMD Zen 아키텍트, 전 Apple A4/A5 리드, 전 Tesla Autopilot 칩 리드, 전 Intel SVP. 2021년 Tenstorrent CEO 합류.

Tenstorrent의 핵심 차별점:

RISC-V 코어 기반 — 모든 칩의 control plane이 RISC-V
오픈 아키텍처 — RTL 일부와 컴파일러를 공개
Tensix 코어 — 행렬 곱 + 벡터 + 데이터 무브먼트 통합
확장 가능한 mesh 인터커넥트 — Ethernet 위에서

라인업

Grayskull (2020) — 1세대, 데모/평가용
Wormhole (2023) — 데이터센터 + Ethernet 12x100G 인터커넥트
Blackhole (2024) — 1세대 패키지, 16 CPU + 32GB GDDR6
Hub / Galaxy — 32 Wormhole을 묶은 4U 박스, $50K

Hyundai / 삼성 / LG AI Research 투자

2024년 한국 컨소시엄(현대차, 삼성전자 NEXT, LG)이 Tenstorrent에 투자. 한국에서도 차량 AI / 데이터센터 AI에 적용할 의도가 보인다.

11장 · Etched Sohu — transformer 전용 ASIC (2024년 6월)

"한 가지만 잘 하는 칩"

Etched는 Harvard 학부 출신 두 명이 2022년 창업한 스타트업. 2024년 6월 Sohu 칩을 공개하며 큰 화제를 모았다.

transformer 아키텍처 전용 — CNN, RNN, MLP 다른 아키텍처는 지원 안 함
144GB HBM3E
4nm TSMC
광고된 성능 — Llama 70B에서 H100 대비 20배 빠른 토큰/초

왜 transformer 전용인가

GPU의 면적 중 transformer 추론에 쓰이는 비율이 30% 미만. attention과 FFN의 패턴이 너무 명확하니, 나머지 70%의 실리콘을 잘라내고 그 자리에 attention 유닛을 더 박자는 발상.

위험과 기대

위험은 명확하다. Mamba / RWKV / SSM / diffusion 같은 비-transformer 아키텍처가 부상하면 Sohu는 즉시 무용지물이 된다. 2026년 5월 기준 transformer는 여전히 LLM의 80%+ 점유 — Etched는 이 도박에 베팅한다.

2024년 시리즈 A에서 $120M 조달, Peter Thiel / Stanley Druckenmiller가 투자자.

12장 · AWS Trainium 2 + Inferentia 3

AWS의 자체 칩 전략

AWS는 2018년 Inferentia 1, 2020년 Trainium 1, 2023년 Inferentia 2, 2024년 Trainium 2, 2025년 Inferentia 3로 라인을 키워왔다.

Trainium 1 (2020) — 학습용 첫 칩
Inferentia 2 (2023) — Stable Diffusion / Llama 추론
Trainium 2 (2024) — Anthropic의 Project Rainier 메인 칩
Inferentia 3 (2025) — Llama 405B 추론을 carrier 워크로드로

Trainium 2 한 instance(Trn2.48xlarge)는 16개 칩, 1.5TB HBM, 약 시간당 $5-6.

Anthropic의 Project Rainier

Anthropic이 2024년 발표한 Trainium 2 기반 거대 클러스터. 400,000개 Trainium 2 칩 규모로 알려졌으며, Claude 4.x 학습에 사용된다(공식 발표).

AWS는 Trainium 3를 2026년 말 출시 예고. Neuron SDK가 PyTorch / JAX와 매끄러워졌다.

13장 · MatX / Tachyum Prodigy — 신예

MatX

2022년 창업, Google TPU 출신과 OpenAI 출신이 공동 설립. LLM 학습 전용 칩을 만든다는 미션. 2025년 시리즈 B에서 $80M 조달, 첫 칩 출시 목표는 2026년 후반.

Tachyum Prodigy

슬로바키아 출신 Radoslav Danilak가 창업한 회사. AI + HPC + 일반 컴퓨팅을 한 칩으로 하겠다는 야심.

192-core CPU + AI 텐서 유닛
96GB HBM3 + DDR5
5nm TSMC
2026년 1Q tape-out 완료, 샘플 출하 시작

회의적인 시각도 많지만, EuroHPC(EU 공공 HPC)가 첫 대형 도입처가 될 가능성이 있다.

14장 · 폰 NPU — A18 Pro / Snapdragon 8 Gen 4 / Dimensity 9400 / Tensor G5

Apple A18 Pro (2024년 9월, iPhone 16 Pro)

6-core CPU + 6-core GPU + 16-core Neural Engine
35 TOPS Neural Engine
Apple Intelligence on-device 추론 담당

Snapdragon 8 Gen 4 (2024년 10월, Samsung S25 등)

Qualcomm 자체 Oryon CPU + Adreno GPU + Hexagon NPU
45 TOPS (Hexagon)
4nm TSMC

MediaTek Dimensity 9400 (2024년 10월)

3nm TSMC, Arm Cortex-X925
50 TOPS APU 890
Generative AI 워크로드(SD / Llama) 강조

Google Tensor G5 (2024년 10월, Pixel 9)

TSMC 3nm으로 Samsung Foundry 떠남(중요한 이동)
TPU 5세대 모바일 (Edge TPU 후계)
자체 ML 가속 + Gemini Nano on-device

폰 NPU의 의미는 on-device 추론 비용 = $0. 클라우드 호출 없이 로컬에서 LLM 응답을 만든다.

15장 · 인터커넥트 — NVLink 5/6 / PCIe Gen 6/7 / CXL

NVLink 5

Blackwell부터 NVLink 5
칩당 1.8TB/s (1.4TB/s GPU-to-GPU, 양방향)
NVL72 — 72개 GPU all-to-all

NVLink 6는 Rubin(2026)부터 — 칩당 3.6TB/s 추정.

PCIe Gen 6 / Gen 7

PCIe 6.0 — 2022년 사양 확정, 64GT/s, 첫 양산은 2024년 후반 서버 보드
PCIe 7.0 — 2025년 사양 확정, 128GT/s, 양산은 2027~2028년

Gen 6의 의미는 PAM4 시그널링 도입. SerDes의 한계를 dual-level에서 four-level로 푼다.

CXL

Compute Express Link. Intel이 주도한 메모리 공유 표준. CPU - GPU - DPU - memory pool을 PCIe 위에서 한 데로 묶는다.

CXL 1.x — 메모리 attach
CXL 2.x — 메모리 풀링
CXL 3.x — 메모리 sharing (cache coherent)

2026년 5월 현재 CXL 3.0 양산 제품(Samsung CMM-D, Micron CZ120)이 본격 배치. NVMe + CXL 메모리 expansion이 Tier 1 / Tier 2 / Tier 3 메모리 계층의 새 paradigm.

UALink (Ultra Accelerator Link)

NVLink의 오픈 대안. AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft 컨소시엄. 2026년 1.0 사양 공개.

16장 · 메모리 — HBM3E / HBM4 / 삼성 + SK Hynix

HBM의 진화

HBM1 (2015) — 4-Hi, 1GBps/pin
HBM2 (2016) — 8-Hi, 2GBps
HBM2E (2018) — 3.6GBps
HBM3 (2022) — 6.4GBps, 24GB/stack
HBM3E (2024) — 9.6GBps, 36GB/stack (B200 / MI355X)
HBM4 (2026) — 16Gbps+, 48GB/stack 예상

HBM은 GPU 다이 옆에 2.5D 또는 3D 스택으로 붙는다. 대역폭은 HBM3E 8-stack 기준 8TB/s를 넘는다.

공급 — SK하이닉스 / 삼성 / Micron

SK Hynix — HBM3E 첫 양산, NVIDIA 1차 공급사. 2025년 SK Hynix HBM 매출이 회사 매출의 30%+
Samsung — HBM3 후발이었지만 HBM4 표준 주도. NVIDIA HBM3E 12-Hi 인증을 2025년에 통과
Micron — 3위, 2024년 HBM3E 양산

NVIDIA Blackwell 1장에 HBM3E 8개 stack, 총 192GB. Stack 1개당 약 $250-300. 즉 HBM만 칩당$ 2-2.4K.

HBM4

JEDEC 표준 2025년 4월 확정. 16Gbps/pin, 12-Hi / 16-Hi stack. Rubin(2026)에서 첫 양산 적용. 한국 양사가 NVIDIA 인증을 두고 경쟁 중.

17장 · 한국 — FuriosaAI + Rebellions (Sapeon 통합 2024)

FuriosaAI

2017년 창업, Samsung / AMD 출신 백준호 대표. RNGD(Renegade) 칩을 2024년 출시 — Llama 추론 워크로드 타겟.

TSMC 5nm
256GB HBM3
512 TFLOPS FP8
64 TFLOPS BF16
TDP 150W

LG AI Research가 EXAONE 추론에 도입, 카카오엔터프라이즈 클라우드와 협업 발표.

Rebellions + Sapeon 통합

Rebellions (2020 창업) — KT가 주요 투자자. ATOM 칩 — 추론용
Sapeon (SK텔레콤 사내 분사) — X220 / X330 추론 칩

2024년 7월, Rebellions와 Sapeon이 합병 발표. 합병 후 통합 사명도 Rebellions. KT + SK텔레콤 + Samsung 모두 투자자. REBEL 차세대 칩이 2025년 발표, 2026년 양산 진입.

5nm Samsung Foundry
144GB HBM3E
TDP 250W
학습 + 추론 겸용

한국 정부의 K-Cloud 프로젝트 — 2030년까지 국산 AI 가속기를 NIA 데이터센터에 50% 배치한다는 목표.

18장 · 일본 — SoftBank Graphcore + Preferred Networks MN-3 + Rapidus 2nm 2027

SoftBank의 Graphcore 인수 (2024년 7월)

SoftBank가 영국 Graphcore를 약 $500M에 인수. Graphcore의 IPU(Intelligence Processing Unit) — Bow IPU, 2세대 Colossus 등. SoftBank의 Cristal Intelligence(자체 AI 인프라) 백본으로 통합 예정.

Preferred Networks MN-3 / MN-Core 2

Preferred Networks는 일본의 대표 AI 회사. MN-Core 라인은 자체 학습 가속기.

MN-3 (2020) — Green500 1위 (에너지 효율 1위)
MN-Core 2 (2024) — 7nm, 130 TFLOPS BF16

PFN의 자체 LLM 학습에 사용. 외부 판매보다는 사내 + Toyota 등 일부 협업.

Rapidus — 2nm 2027

일본 정부 + Sony + Toyota + NTT + SoftBank가 출자한 신생 파운드리. 2nm 양산을 2027년 목표. IBM과 기술 제휴, 홋카이도 치토세 공장 건설 중.

미국 / 한국 / 대만(TSMC)이 독점하는 leading edge 파운드리에 일본이 다시 도전한다. 2026년 5월 시점에 시범 라인이 가동, 2027년 양산이 계획대로면 일본 AI 칩의 큰 변수.

19장 · 액체 냉각 + 데이터센터 전력

왜 액체 냉각인가

H100이 700W, B200이 1000W, GB200 NVL72 1랙이 120kW. 공냉으로 처리 불가. 1U 서버에 1000W GPU 8개 = 서버당 8kW. 랙당 30kW가 공냉의 한계, 그 위는 액체 냉각이 강제된다.

액체 냉각의 종류

Direct-to-Chip (D2C) — 칩 위에 콜드 플레이트 부착, 액체 순환
Rear-door heat exchanger — 랙 뒷면에 라디에이터
Immersion cooling — 서버 전체를 dielectric 액체에 담금

GB200 NVL72는 D2C가 표준. 데이터센터 전체에 facility water loop 필요. PUE 1.05 수준으로 떨어진다(공냉 PUE 1.4-1.6 대비).

전력 — 발전소 옆 데이터센터

Anthropic / OpenAI / Meta의 신규 데이터센터는 2GW+ 규모. 미국 평균 가정 200만 호의 소비량.

Microsoft + Three Mile Island 원전 재가동 (2024년 9월, Constellation Energy)
Amazon + Cumulus Data 원전 옆 데이터센터
Google + Kairos Power SMR (소형 모듈 원전) 계약

2026년 5월 — AI 데이터센터 부지가 미국 동부 PJM, 텍사스 ERCOT, 대만 신주, 한국 안성 / 평택, 일본 인접 등으로 확산되며 발전 인프라가 병목.

20장 · 누가 무엇을 골라야 하나 — 학습 / 추론 / 엣지 / 폰

학습 — 큰 모델, 새 모델

상황	추천
최첨단 70B+ MoE 학습	NVIDIA GB200 NVL72 / Rubin (2026 후반)
가성비 학습 (50%+ 저렴)	AMD MI355X / MI400 Helios
TPU 친화적 (JAX / TF)	Google TPU v5p / Trillium
AWS 락-인 OK	AWS Trainium 2

추론 — 대량 처리

상황	추천
일반 LLM serving	NVIDIA H200 / B200 / AMD MI300X
초저 latency (코드 자동완성)	Groq LPU / Cerebras WSE-3
transformer 전용	Etched Sohu (출시 후)
한국 / EXAONE / 국산 모델	FuriosaAI RNGD / Rebellions REBEL

엣지 — 로봇 / 차량 / IoT

상황	추천
자율주행	NVIDIA Drive Thor / Tesla FSD HW5
산업 IoT	NVIDIA Jetson Orin / Hailo-10 / Tenstorrent
데스크탑 워크스테이션	NVIDIA RTX 5090 / AMD Radeon Pro

폰 — on-device LLM

상황	추천
iOS Apple Intelligence	A18 Pro Neural Engine
Android Gemini Nano	Snapdragon 8 Gen 4 / Tensor G5
가성비 Android	Dimensity 9400

선택의 기준은 단순하다 — 소프트웨어 스택 호환성 + 단위 비용 + 가용성. NVIDIA의 CUDA 생태계는 여전히 최강이지만, ROCm / XLA / Neuron / SynapseAI가 따라붙고 있다.

21장 · 참고 / References

NVIDIA — Blackwell architecture: https://www.nvidia.com/en-us/data-center/blackwell-architecture/
NVIDIA — GTC 2024 keynote: https://www.nvidia.com/gtc/keynote/
AMD — Instinct MI300X: https://www.amd.com/en/products/accelerators/instinct/mi300/mi300x.html
AMD — Advancing AI 2024: https://www.amd.com/en/corporate/events/advancing-ai.html
Intel — Gaudi 3: https://www.intel.com/content/www/us/en/products/details/processors/ai-accelerators/gaudi3.html
Apple — Apple Intelligence: https://www.apple.com/apple-intelligence/
Google Cloud — TPU v5p: https://cloud.google.com/tpu/docs/v5p
Google Cloud — Trillium TPU: https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus
Cerebras — WSE-3: https://www.cerebras.ai/product-chip
Groq — LPU: https://groq.com/
SambaNova — SN40L: https://sambanova.ai/products
Tenstorrent — Wormhole / Blackhole: https://tenstorrent.com/cards/
Etched — Sohu: https://www.etched.com/announcing-etched
AWS — Trainium 2: https://aws.amazon.com/machine-learning/trainium/
AWS — Inferentia: https://aws.amazon.com/machine-learning/inferentia/
MatX: https://matx.com/
Tachyum — Prodigy: https://www.tachyum.com/products/
Qualcomm — Snapdragon 8 Gen 4: https://www.qualcomm.com/products/mobile/snapdragon/smartphones/snapdragon-8-series-mobile-platforms/snapdragon-8-elite-mobile-platform
MediaTek — Dimensity 9400: https://www.mediatek.com/products/smartphones-2/mediatek-dimensity-9400
SemiAnalysis — Blackwell deep dive: https://www.semianalysis.com/
SK Hynix — HBM: https://www.skhynix.com/hbm/
Samsung Semiconductor — HBM: https://semiconductor.samsung.com/dram/hbm/
Micron — HBM3E: https://www.micron.com/products/memory/hbm
JEDEC — HBM4 standard: https://www.jedec.org/
CXL Consortium: https://www.computeexpresslink.org/
UALink Consortium: https://ualinkconsortium.org/
FuriosaAI: https://www.furiosa.ai/
Rebellions: https://rebellions.ai/
Preferred Networks — MN-Core: https://projects.preferred.jp/mn-core/en/
Rapidus: https://www.rapidus.inc/en/
Reuters — NVIDIA shipments: https://www.reuters.com/
The Information — AI hardware coverage: https://www.theinformation.com/
Anthropic — Trainium / Project Rainier: https://www.anthropic.com/news