Skip to content
Published on

AI 하드웨어 가속기 2026 — NVIDIA Blackwell / AMD Instinct MI400 / Google TPU Trillium / Cerebras WSE-3 / Groq LPU / Tenstorrent / Etched Sohu / Furiosa / Rebellions 심층 가이드

Authors

1장 · 2026년 AI 하드웨어 지도 — Hyperscaler / Challenger / 인-하우스 / Edge 4 진영

2026년 5월, AI 칩 시장은 다섯 해 전과 완전히 다른 풍경이다. 2020년 V100, 2021년 A100, 2022년 H100, 2023년 H200으로 이어진 NVIDIA의 단일 지배 시대는, 2024년 Blackwell GTC 발표와 함께 새 챕터로 들어섰다. 그리고 2026년 — 칩의 종류는 늘었고, 선택은 어려워졌다.

대략 네 진영으로 정리할 수 있다.

  • Hyperscaler GPU — NVIDIA Blackwell(B100/B200/GB200/B300, Rubin 2026년 9월 예고), AMD Instinct(MI300X → MI355X → MI400 Helios), Intel Gaudi 3(+Falcon Shores 루머)
  • Challenger / Specialty — Cerebras WSE-3(웨이퍼 스케일), Groq LPU(순차 추론), SambaNova SN40L(Reconfigurable Dataflow), Tenstorrent(Jim Keller, RISC-V 오픈), Etched Sohu(transformer 전용 ASIC), MatX, Tachyum Prodigy
  • In-house Cloud — Google TPU v5p / Trillium(v5e / v6), AWS Trainium 2 + Inferentia 3, Meta MTIA, Microsoft Maia, Apple AC1(루머)
  • Edge / Phone NPU — Apple A18 Pro Neural Engine, Snapdragon 8 Gen 4 Hexagon NPU, MediaTek Dimensity 9400 APU, Google Tensor G5 TPU 모바일

가격으로 보면 2024년 H100 한 장 30K40K였던게B20030K-40K였던 게 B200은 30K-40K, GB200 NVL72 한 랙은 3M수준.클라우드에서빌리면H100이시간당3M 수준. 클라우드에서 빌리면 H100이 시간당 2-4 수준에서 자리잡았고, B200 partial이 시간당 $4-8 사이로 형성되고 있다.

이 글은 사양 → 아키텍처 → 메모리·인터커넥트 → 한국·일본 진영까지 한 장씩 짚는다.

모든 숫자는 2026년 5월 기준 공개 자료 + semianalysis / The Information / Reuters 보도를 기반으로 한다. 비공개 클러스터 가격은 추정치다.


2장 · NVIDIA Blackwell — B100 / B200 / GB200 NVL72 / B300 / Rubin

Blackwell 패밀리의 구조

Blackwell은 2024년 3월 GTC에서 Jensen Huang이 공개한 NVIDIA의 5세대 데이터센터 GPU 아키텍처다. Hopper(H100/H200)의 후계로, TSMC N4P 공정 기반에 두 개의 GPU 다이를 NV-HBI(NVIDIA High-Bandwidth Interconnect, 10TB/s)로 연결한 chiplet 구조를 처음 채택했다.

  • B100 — 700W TDP, 공냉 가능, HBM3E 192GB, FP8 14 PFLOPS
  • B200 — 1000W, 액체 냉각 권장, HBM3E 192GB, FP8 18 PFLOPS / FP4 36 PFLOPS
  • GB200 — Grace CPU 1개 + B200 GPU 2개를 NVLink-C2C 900GB/s로 묶은 superchip
  • GB200 NVL72 — 36개의 GB200을 NVLink 5(72-GPU all-to-all)로 묶은 1랙 시스템
  • B300 (Blackwell Ultra) — 2025년 후반, HBM3E 288GB, FP4 추론 강화

NVL72의 의미

72개 B200 GPU가 한 NVLink 도메인. 한 모델이 72개 GPU를 마치 1개처럼 보고 학습 가능. MoE 토큰 라우팅의 all-to-all이 NVLink 위에서 일어나므로 InfiniBand로 가지 않는다. 이게 GPT-4 / Claude 3.5 클래스 모델 학습의 진짜 병목을 푼다.

Rubin — 2026년 9월

Rubin은 NVIDIA의 6세대 아키텍처. 2024 GTC에서 예고, 2026년 9월 GTC에서 공식 발표 예정.

  • R100 — TSMC N3 공정, HBM4 메모리 (288GB+)
  • Vera Rubin — Grace의 후계 CPU(Vera) + Rubin GPU 묶음
  • NVL144 — 144-GPU 도메인으로 확장 예고

NVIDIA의 매년 1세대 페이스("annual cadence")는 2026년에도 이어진다. 2024 Blackwell → 2025 Blackwell Ultra → 2026 Rubin → 2027 Rubin Ultra.

가격과 공급

2024년 H100 1장이 30K40K.B200partial기준시간당30K-40K. B200은 partial 기준 시간당 4-8 클라우드, 카드 가격으론 30K40K.GB200NVL721랙은30K-40K. GB200 NVL72 1랙은 3M 수준. 2025년 1H에 NVIDIA는 분기당 200만개 이상의 Blackwell GPU를 출하했다(Reuters).


3장 · AMD Instinct — MI300X → MI325X → MI355X → MI400 Helios

MI300X (2023년 12월)

CDNA 3 아키텍처, 192GB HBM3, FP8 5.2 PFLOPS. 메모리 용량에서 H100(80GB)을 2.4배 압도하며 Meta, Microsoft가 Llama 추론에 대량 배치. 카드당 $15K-20K 추정.

MI325X (2024년 4Q)

HBM3E 256GB로 메모리 업그레이드, 클럭 약간 상향. H200 대응 라인.

MI355X (2025년 후반)

CDNA 4 아키텍처. HBM3E 288GB, FP4 데이터 타입 추가. Blackwell B200/B300의 직접 대응자. ROCm 6.x 소프트웨어 스택이 PyTorch / vLLM / SGLang에서 거의 NVIDIA만큼 매끄러워졌다.

MI400 Helios (2026년)

AMD가 2025년 Advancing AI 이벤트에서 공개한 차세대 플랫폼.

  • MI400 Instinct GPU — CDNA Next 아키텍처, HBM4 메모리
  • Helios rack-scale system — 72개 GPU를 단일 ScaleUP 도메인으로 묶음 (NVL72 대응)
  • Pensando DPU + ROCm 7 + UALink 인터커넥트

UALink는 NVLink의 오픈 대안. AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft가 컨소시엄을 구성했고, 2026년 1H에 1.0 사양이 공개되었다.

시장 점유

2025년 데이터센터 GPU 매출에서 NVIDIA가 90%+, AMD가 5-7%, Intel과 in-house가 나머지. AMD는 MI355X로 Microsoft Azure ND-MI355X-v6, Meta 클러스터를 따냈고, MI400 Helios로 Oracle Cloud Infra가 첫 대형 도입을 발표했다.


4장 · Intel Gaudi 3 + Falcon Shores 루머

Gaudi 3 — 마지막 별도 라인

Habana Labs를 2019년 $2B에 인수한 Intel은 Gaudi 1/2/3로 라인을 이어왔다. Gaudi 3는 2024년 4월 발표, TSMC N5 공정, HBM2E 128GB, 8x Ethernet 200Gbps 인터커넥트(InfiniBand 대신 RoCE).

  • BF16 1835 TFLOPS
  • FP8 1835 TFLOPS
  • 가격 카드당 $7K-15K (NVIDIA 대비 절반 이하)
  • 약점 — 소프트웨어 스택(SynapseAI). PyTorch가 동작하지만 ROCm / CUDA 만큼의 생태계는 없다

Stability AI, Naver, Intel 자체 Tiber Cloud 등이 도입.

Falcon Shores 루머

Falcon Shores는 원래 Gaudi 후계 + Ponte Vecchio(데이터센터 GPU) 통합 제품으로 2024년 출시 예정이었으나, 2024년 9월 Intel이 외부 출하 취소를 공식 발표했다. 내부 R&D용으로만 활용한다는 입장.

2026년 5월 현재 루머는, Intel이 Gaudi 4 또는 새로운 단일 GPU 라인을 2027년 1H 출시 목표로 준비 중이라는 것. Pat Gelsinger 시기 IFS Cup 행사에서 Lip-Bu Tan(2025년 새 CEO)이 "AI 전용 칩 라인을 재정비한다"고 언급한 게 출발점.


5장 · Apple M5 + M5 Pro + Neural Engine + AC1 서버 칩

M5 / M5 Pro / M5 Max — 2025년 10월

Apple Silicon 5세대. TSMC N3E 공정. CPU 코어 카운트는 동일, GPU에 ray-tracing 가속기 + AI 추론용 행렬 가속 유닛이 신규.

  • M5 — 10-core CPU, 10-core GPU, 16-core Neural Engine, 38 TOPS
  • M5 Pro — 14-core CPU, 20-core GPU, 16-core NE
  • M5 Max — 16-core CPU, 40-core GPU, 16-core NE

Neural Engine은 항상 16개 코어. 변화는 매트릭스 곱 처리량 증가와 INT4 양자화 가속.

AC1 서버 칩 — 2026년 봄 루머

The Information(2025년 11월)과 Bloomberg Mark Gurman의 보도. Apple이 자체 데이터센터 AI 추론용 SoC를 개발 중이라는 것.

  • Apple Compute 1 (AC1) — 코드네임, Mac Pro 서버 형태
  • 2026년 봄 Apple Intelligence 백엔드 일부에 투입 예상
  • M2 Ultra의 후계 (M5 Ultra 기반 가능성)

Apple은 이미 Apple Intelligence Private Cloud Compute(PCC)를 M2 Ultra Mac으로 굴리고 있다. AC1은 PCC의 다음 세대.


6장 · Google TPU v5p + Trillium (v5/v6)

TPU의 계보

  • TPU v1 (2015) — 추론 전용, INT8
  • TPU v2 (2017) — 학습 + 추론, BF16
  • TPU v3 (2018) — 액체 냉각 첫 도입
  • TPU v4 (2021) — Optical Circuit Switching
  • TPU v5e (2023) — 추론 비용 최적화
  • TPU v5p (2023) — 학습 플래그십, Gemini 학습에 사용
  • TPU v6 Trillium (2024) — 4.7x v5e 대비 성능

Trillium의 성격

2024년 5월 Google I/O에서 발표. Gemini 2.0 학습의 주력 칩.

  • HBM 용량 2x (32GB → 64GB)
  • 인터커넥트 2x
  • 에너지 효율 67% 개선

Trillium은 TPU pod 단위로 256개를 묶고, ICI(Inter-Chip Interconnect) optical로 8960개 칩까지 확장(SuperPod).

TPU 7세대 — 2026년 후반 루머

Google이 2026년 후반에 TPU v7 발표 예정이라는 루머가 The Information을 통해 흘러나왔다. Anthropic이 TPU에 대규모 의존하고 있다는 점을 감안하면 의미가 크다.


7장 · Cerebras WSE-3 — 4조 트랜지스터, 웨이퍼 스케일

웨이퍼 스케일이라는 발상

표준 칩은 12인치 웨이퍼를 reticle 사이즈(약 858mm²)로 잘라서 만든다. Cerebras는 웨이퍼 한 장 전체를 하나의 칩으로 쓴다.

WSE-3 (2024년 3월 발표):

  • 46,225 mm² 면적
  • 4조 트랜지스터 (Blackwell의 약 18배)
  • 90만 코어 (custom RISC-V style)
  • 44GB on-chip SRAM (HBM이 없음, 칩 위 SRAM만)
  • 125 PFLOPS FP8
  • TSMC 5nm

왜 웨이퍼 스케일인가

칩 간 통신을 없앤다. 메모리(SRAM)가 컴퓨트 코어 옆에 직접 붙어 있어 HBM 대비 수십 배 빠른 대역폭. 모델 weights를 전부 on-wafer SRAM에 올린다 — 70B 모델을 한 장의 웨이퍼에 fit.

한계와 장점

  • 장점 — 추론 latency가 압도적. Llama 3.1 70B에서 토큰당 latency가 Groq 다음 가는 수준
  • 한계 — 학습은 NVIDIA 대비 가성비 떨어짐. yield와 패키징 비용
  • 고객 — G42(UAE), Mayo Clinic, Argonne National Lab 등 특수 도메인

CS-3 시스템 1대 가격은 $2-3M 추정.


8장 · Groq LPU — 순차 추론 속도

LPU의 발상

Groq의 LPU(Language Processing Unit)는 2016년 Google TPU 팀 출신 Jonathan Ross가 창업한 회사의 칩. 결정론적 실행(deterministic execution) — 칩 위의 모든 명령어가 컴파일러가 미리 정한 사이클에 정확히 실행된다.

  • 14nm GlobalFoundries
  • 230MB on-chip SRAM (HBM 없음)
  • 750 TOPS INT8
  • Tensor Streaming Processor (TSP) 구조

왜 빠른가

GPU는 dynamic scheduling으로 SM에 워크로드를 분배한다. LPU는 모든 dispatch를 컴파일 타임에 결정 — runtime 분기가 없다. 결과적으로 Llama 70B 추론을 토큰당 200-300 tokens/sec까지 끌어올린다. NVIDIA H100 기준 약 30-50 tokens/sec과 비교해 4-8배 빠르다.

한계

  • 학습 불가 — 추론 전용
  • 모델 크기에 따라 수십~수백 개의 LPU가 필요 (SRAM이 작아서 weights를 분산)
  • 데이터센터 단위 비용으로는 NVIDIA보다 비쌀 수도 있음

대신 latency 우선의 코드 자동완성 / 챗봇 / 음성 어시스턴트에 적합. Groq Cloud는 시간당 $0.59부터 Llama 70B를 제공.


9장 · SambaNova SN40L — Reconfigurable Dataflow

SambaNova의 접근

2017년 창업, 스탠퍼드 Kunle Olukotun 교수와 Rodrigo Liang이 공동 설립. Reconfigurable Dataflow Architecture(RDA) — 매 워크로드마다 칩 위의 데이터 흐름을 새로 구성.

SN40L (2023년):

  • TSMC 5nm
  • 1.5TB DDR5 + 64GB HBM3
  • 638 BF16 TFLOPS
  • 칩에 3-tier 메모리(SRAM / HBM / DDR) 통합

왜 RDA인가

GPU의 SIMT 모델은 텐서 곱에 최적화. 하지만 transformer는 attention의 dynamic shape, MoE의 sparse dispatch 같은 비정형 패턴이 많다. RDA는 각 레이어마다 다른 데이터 경로를 컴파일 타임에 구성하므로 sparse 워크로드에 강점.

고객

미국 DOE(Lawrence Livermore, Argonne), Saudi Aramco, SoftBank의 일부 R&D 클러스터.


10장 · Tenstorrent — Jim Keller, RISC-V 오픈 아키텍처

Jim Keller의 회사

전 AMD Zen 아키텍트, 전 Apple A4/A5 리드, 전 Tesla Autopilot 칩 리드, 전 Intel SVP. 2021년 Tenstorrent CEO 합류.

Tenstorrent의 핵심 차별점:

  • RISC-V 코어 기반 — 모든 칩의 control plane이 RISC-V
  • 오픈 아키텍처 — RTL 일부와 컴파일러를 공개
  • Tensix 코어 — 행렬 곱 + 벡터 + 데이터 무브먼트 통합
  • 확장 가능한 mesh 인터커넥트 — Ethernet 위에서

라인업

  • Grayskull (2020) — 1세대, 데모/평가용
  • Wormhole (2023) — 데이터센터 + Ethernet 12x100G 인터커넥트
  • Blackhole (2024) — 1세대 패키지, 16 CPU + 32GB GDDR6
  • Hub / Galaxy — 32 Wormhole을 묶은 4U 박스, $50K

Hyundai / 삼성 / LG AI Research 투자

2024년 한국 컨소시엄(현대차, 삼성전자 NEXT, LG)이 Tenstorrent에 투자. 한국에서도 차량 AI / 데이터센터 AI에 적용할 의도가 보인다.


11장 · Etched Sohu — transformer 전용 ASIC (2024년 6월)

"한 가지만 잘 하는 칩"

Etched는 Harvard 학부 출신 두 명이 2022년 창업한 스타트업. 2024년 6월 Sohu 칩을 공개하며 큰 화제를 모았다.

  • transformer 아키텍처 전용 — CNN, RNN, MLP 다른 아키텍처는 지원 안 함
  • 144GB HBM3E
  • 4nm TSMC
  • 광고된 성능 — Llama 70B에서 H100 대비 20배 빠른 토큰/초

왜 transformer 전용인가

GPU의 면적 중 transformer 추론에 쓰이는 비율이 30% 미만. attention과 FFN의 패턴이 너무 명확하니, 나머지 70%의 실리콘을 잘라내고 그 자리에 attention 유닛을 더 박자는 발상.

위험과 기대

위험은 명확하다. Mamba / RWKV / SSM / diffusion 같은 비-transformer 아키텍처가 부상하면 Sohu는 즉시 무용지물이 된다. 2026년 5월 기준 transformer는 여전히 LLM의 80%+ 점유 — Etched는 이 도박에 베팅한다.

2024년 시리즈 A에서 $120M 조달, Peter Thiel / Stanley Druckenmiller가 투자자.


12장 · AWS Trainium 2 + Inferentia 3

AWS의 자체 칩 전략

AWS는 2018년 Inferentia 1, 2020년 Trainium 1, 2023년 Inferentia 2, 2024년 Trainium 2, 2025년 Inferentia 3로 라인을 키워왔다.

  • Trainium 1 (2020) — 학습용 첫 칩
  • Inferentia 2 (2023) — Stable Diffusion / Llama 추론
  • Trainium 2 (2024) — Anthropic의 Project Rainier 메인 칩
  • Inferentia 3 (2025) — Llama 405B 추론을 carrier 워크로드로

Trainium 2 한 instance(Trn2.48xlarge)는 16개 칩, 1.5TB HBM, 약 시간당 $5-6.

Anthropic의 Project Rainier

Anthropic이 2024년 발표한 Trainium 2 기반 거대 클러스터. 400,000개 Trainium 2 칩 규모로 알려졌으며, Claude 4.x 학습에 사용된다(공식 발표).

AWS는 Trainium 3를 2026년 말 출시 예고. Neuron SDK가 PyTorch / JAX와 매끄러워졌다.


13장 · MatX / Tachyum Prodigy — 신예

MatX

2022년 창업, Google TPU 출신과 OpenAI 출신이 공동 설립. LLM 학습 전용 칩을 만든다는 미션. 2025년 시리즈 B에서 $80M 조달, 첫 칩 출시 목표는 2026년 후반.

Tachyum Prodigy

슬로바키아 출신 Radoslav Danilak가 창업한 회사. AI + HPC + 일반 컴퓨팅을 한 칩으로 하겠다는 야심.

  • 192-core CPU + AI 텐서 유닛
  • 96GB HBM3 + DDR5
  • 5nm TSMC
  • 2026년 1Q tape-out 완료, 샘플 출하 시작

회의적인 시각도 많지만, EuroHPC(EU 공공 HPC)가 첫 대형 도입처가 될 가능성이 있다.


14장 · 폰 NPU — A18 Pro / Snapdragon 8 Gen 4 / Dimensity 9400 / Tensor G5

Apple A18 Pro (2024년 9월, iPhone 16 Pro)

  • 6-core CPU + 6-core GPU + 16-core Neural Engine
  • 35 TOPS Neural Engine
  • Apple Intelligence on-device 추론 담당

Snapdragon 8 Gen 4 (2024년 10월, Samsung S25 등)

  • Qualcomm 자체 Oryon CPU + Adreno GPU + Hexagon NPU
  • 45 TOPS (Hexagon)
  • 4nm TSMC

MediaTek Dimensity 9400 (2024년 10월)

  • 3nm TSMC, Arm Cortex-X925
  • 50 TOPS APU 890
  • Generative AI 워크로드(SD / Llama) 강조

Google Tensor G5 (2024년 10월, Pixel 9)

  • TSMC 3nm으로 Samsung Foundry 떠남(중요한 이동)
  • TPU 5세대 모바일 (Edge TPU 후계)
  • 자체 ML 가속 + Gemini Nano on-device

폰 NPU의 의미는 on-device 추론 비용 = $0. 클라우드 호출 없이 로컬에서 LLM 응답을 만든다.


  • Blackwell부터 NVLink 5
  • 칩당 1.8TB/s (1.4TB/s GPU-to-GPU, 양방향)
  • NVL72 — 72개 GPU all-to-all

NVLink 6는 Rubin(2026)부터 — 칩당 3.6TB/s 추정.

PCIe Gen 6 / Gen 7

  • PCIe 6.0 — 2022년 사양 확정, 64GT/s, 첫 양산은 2024년 후반 서버 보드
  • PCIe 7.0 — 2025년 사양 확정, 128GT/s, 양산은 2027~2028년

Gen 6의 의미는 PAM4 시그널링 도입. SerDes의 한계를 dual-level에서 four-level로 푼다.

CXL

Compute Express Link. Intel이 주도한 메모리 공유 표준. CPU - GPU - DPU - memory pool을 PCIe 위에서 한 데로 묶는다.

  • CXL 1.x — 메모리 attach
  • CXL 2.x — 메모리 풀링
  • CXL 3.x — 메모리 sharing (cache coherent)

2026년 5월 현재 CXL 3.0 양산 제품(Samsung CMM-D, Micron CZ120)이 본격 배치. NVMe + CXL 메모리 expansion이 Tier 1 / Tier 2 / Tier 3 메모리 계층의 새 paradigm.

NVLink의 오픈 대안. AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft 컨소시엄. 2026년 1.0 사양 공개.


16장 · 메모리 — HBM3E / HBM4 / 삼성 + SK Hynix

HBM의 진화

  • HBM1 (2015) — 4-Hi, 1GBps/pin
  • HBM2 (2016) — 8-Hi, 2GBps
  • HBM2E (2018) — 3.6GBps
  • HBM3 (2022) — 6.4GBps, 24GB/stack
  • HBM3E (2024) — 9.6GBps, 36GB/stack (B200 / MI355X)
  • HBM4 (2026) — 16Gbps+, 48GB/stack 예상

HBM은 GPU 다이 옆에 2.5D 또는 3D 스택으로 붙는다. 대역폭은 HBM3E 8-stack 기준 8TB/s를 넘는다.

공급 — SK하이닉스 / 삼성 / Micron

  • SK Hynix — HBM3E 첫 양산, NVIDIA 1차 공급사. 2025년 SK Hynix HBM 매출이 회사 매출의 30%+
  • Samsung — HBM3 후발이었지만 HBM4 표준 주도. NVIDIA HBM3E 12-Hi 인증을 2025년에 통과
  • Micron — 3위, 2024년 HBM3E 양산

NVIDIA Blackwell 1장에 HBM3E 8개 stack, 총 192GB. Stack 1개당 약 250300.HBM만칩당250-300. 즉 HBM만 칩당 2-2.4K.

HBM4

JEDEC 표준 2025년 4월 확정. 16Gbps/pin, 12-Hi / 16-Hi stack. Rubin(2026)에서 첫 양산 적용. 한국 양사가 NVIDIA 인증을 두고 경쟁 중.


17장 · 한국 — FuriosaAI + Rebellions (Sapeon 통합 2024)

FuriosaAI

2017년 창업, Samsung / AMD 출신 백준호 대표. RNGD(Renegade) 칩을 2024년 출시 — Llama 추론 워크로드 타겟.

  • TSMC 5nm
  • 256GB HBM3
  • 512 TFLOPS FP8
  • 64 TFLOPS BF16
  • TDP 150W

LG AI Research가 EXAONE 추론에 도입, 카카오엔터프라이즈 클라우드와 협업 발표.

Rebellions + Sapeon 통합

  • Rebellions (2020 창업) — KT가 주요 투자자. ATOM 칩 — 추론용
  • Sapeon (SK텔레콤 사내 분사) — X220 / X330 추론 칩

2024년 7월, Rebellions와 Sapeon이 합병 발표. 합병 후 통합 사명도 Rebellions. KT + SK텔레콤 + Samsung 모두 투자자. REBEL 차세대 칩이 2025년 발표, 2026년 양산 진입.

  • 5nm Samsung Foundry
  • 144GB HBM3E
  • TDP 250W
  • 학습 + 추론 겸용

한국 정부의 K-Cloud 프로젝트 — 2030년까지 국산 AI 가속기를 NIA 데이터센터에 50% 배치한다는 목표.


18장 · 일본 — SoftBank Graphcore + Preferred Networks MN-3 + Rapidus 2nm 2027

SoftBank의 Graphcore 인수 (2024년 7월)

SoftBank가 영국 Graphcore를 약 $500M에 인수. Graphcore의 IPU(Intelligence Processing Unit) — Bow IPU, 2세대 Colossus 등. SoftBank의 Cristal Intelligence(자체 AI 인프라) 백본으로 통합 예정.

Preferred Networks MN-3 / MN-Core 2

Preferred Networks는 일본의 대표 AI 회사. MN-Core 라인은 자체 학습 가속기.

  • MN-3 (2020) — Green500 1위 (에너지 효율 1위)
  • MN-Core 2 (2024) — 7nm, 130 TFLOPS BF16

PFN의 자체 LLM 학습에 사용. 외부 판매보다는 사내 + Toyota 등 일부 협업.

Rapidus — 2nm 2027

일본 정부 + Sony + Toyota + NTT + SoftBank가 출자한 신생 파운드리. 2nm 양산을 2027년 목표. IBM과 기술 제휴, 홋카이도 치토세 공장 건설 중.

미국 / 한국 / 대만(TSMC)이 독점하는 leading edge 파운드리에 일본이 다시 도전한다. 2026년 5월 시점에 시범 라인이 가동, 2027년 양산이 계획대로면 일본 AI 칩의 큰 변수.


19장 · 액체 냉각 + 데이터센터 전력

왜 액체 냉각인가

H100이 700W, B200이 1000W, GB200 NVL72 1랙이 120kW. 공냉으로 처리 불가. 1U 서버에 1000W GPU 8개 = 서버당 8kW. 랙당 30kW가 공냉의 한계, 그 위는 액체 냉각이 강제된다.

액체 냉각의 종류

  • Direct-to-Chip (D2C) — 칩 위에 콜드 플레이트 부착, 액체 순환
  • Rear-door heat exchanger — 랙 뒷면에 라디에이터
  • Immersion cooling — 서버 전체를 dielectric 액체에 담금

GB200 NVL72는 D2C가 표준. 데이터센터 전체에 facility water loop 필요. PUE 1.05 수준으로 떨어진다(공냉 PUE 1.4-1.6 대비).

전력 — 발전소 옆 데이터센터

Anthropic / OpenAI / Meta의 신규 데이터센터는 2GW+ 규모. 미국 평균 가정 200만 호의 소비량.

  • Microsoft + Three Mile Island 원전 재가동 (2024년 9월, Constellation Energy)
  • Amazon + Cumulus Data 원전 옆 데이터센터
  • Google + Kairos Power SMR (소형 모듈 원전) 계약

2026년 5월 — AI 데이터센터 부지가 미국 동부 PJM, 텍사스 ERCOT, 대만 신주, 한국 안성 / 평택, 일본 인접 등으로 확산되며 발전 인프라가 병목.


20장 · 누가 무엇을 골라야 하나 — 학습 / 추론 / 엣지 / 폰

학습 — 큰 모델, 새 모델

상황추천
최첨단 70B+ MoE 학습NVIDIA GB200 NVL72 / Rubin (2026 후반)
가성비 학습 (50%+ 저렴)AMD MI355X / MI400 Helios
TPU 친화적 (JAX / TF)Google TPU v5p / Trillium
AWS 락-인 OKAWS Trainium 2

추론 — 대량 처리

상황추천
일반 LLM servingNVIDIA H200 / B200 / AMD MI300X
초저 latency (코드 자동완성)Groq LPU / Cerebras WSE-3
transformer 전용Etched Sohu (출시 후)
한국 / EXAONE / 국산 모델FuriosaAI RNGD / Rebellions REBEL

엣지 — 로봇 / 차량 / IoT

상황추천
자율주행NVIDIA Drive Thor / Tesla FSD HW5
산업 IoTNVIDIA Jetson Orin / Hailo-10 / Tenstorrent
데스크탑 워크스테이션NVIDIA RTX 5090 / AMD Radeon Pro

폰 — on-device LLM

상황추천
iOS Apple IntelligenceA18 Pro Neural Engine
Android Gemini NanoSnapdragon 8 Gen 4 / Tensor G5
가성비 AndroidDimensity 9400

선택의 기준은 단순하다 — 소프트웨어 스택 호환성 + 단위 비용 + 가용성. NVIDIA의 CUDA 생태계는 여전히 최강이지만, ROCm / XLA / Neuron / SynapseAI가 따라붙고 있다.


21장 · 참고 / References