Skip to content

필사 모드: AI 하드웨어 가속기 2026 — NVIDIA Blackwell / AMD Instinct MI400 / Google TPU Trillium / Cerebras WSE-3 / Groq LPU / Tenstorrent / Etched Sohu / Furiosa / Rebellions 심층 가이드

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

1장 · 2026년 AI 하드웨어 지도 — Hyperscaler / Challenger / 인-하우스 / Edge 4 진영

2026년 5월, AI 칩 시장은 다섯 해 전과 완전히 다른 풍경이다. 2020년 V100, 2021년 A100, 2022년 H100, 2023년 H200으로 이어진 NVIDIA의 단일 지배 시대는, 2024년 Blackwell GTC 발표와 함께 새 챕터로 들어섰다. 그리고 2026년 — **칩의 종류는 늘었고, 선택은 어려워졌다.**

대략 네 진영으로 정리할 수 있다.

- **Hyperscaler GPU** — NVIDIA Blackwell(B100/B200/GB200/B300, Rubin 2026년 9월 예고), AMD Instinct(MI300X → MI355X → MI400 Helios), Intel Gaudi 3(+Falcon Shores 루머)

- **Challenger / Specialty** — Cerebras WSE-3(웨이퍼 스케일), Groq LPU(순차 추론), SambaNova SN40L(Reconfigurable Dataflow), Tenstorrent(Jim Keller, RISC-V 오픈), Etched Sohu(transformer 전용 ASIC), MatX, Tachyum Prodigy

- **In-house Cloud** — Google TPU v5p / Trillium(v5e / v6), AWS Trainium 2 + Inferentia 3, Meta MTIA, Microsoft Maia, Apple AC1(루머)

- **Edge / Phone NPU** — Apple A18 Pro Neural Engine, Snapdragon 8 Gen 4 Hexagon NPU, MediaTek Dimensity 9400 APU, Google Tensor G5 TPU 모바일

가격으로 보면 2024년 H100 한 장 $30K-40K였던 게 B200은 $30K-40K, GB200 NVL72 한 랙은 $3M 수준. 클라우드에서 빌리면 H100이 시간당 $2-4 수준에서 자리잡았고, B200 partial이 시간당 $4-8 사이로 형성되고 있다.

이 글은 사양 → 아키텍처 → 메모리·인터커넥트 → 한국·일본 진영까지 한 장씩 짚는다.

> 모든 숫자는 2026년 5월 기준 공개 자료 + semianalysis / The Information / Reuters 보도를 기반으로 한다. 비공개 클러스터 가격은 추정치다.

2장 · NVIDIA Blackwell — B100 / B200 / GB200 NVL72 / B300 / Rubin

Blackwell 패밀리의 구조

Blackwell은 2024년 3월 GTC에서 Jensen Huang이 공개한 NVIDIA의 5세대 데이터센터 GPU 아키텍처다. Hopper(H100/H200)의 후계로, TSMC N4P 공정 기반에 **두 개의 GPU 다이를 NV-HBI(NVIDIA High-Bandwidth Interconnect, 10TB/s)로 연결**한 chiplet 구조를 처음 채택했다.

- **B100** — 700W TDP, 공냉 가능, HBM3E 192GB, FP8 14 PFLOPS

- **B200** — 1000W, 액체 냉각 권장, HBM3E 192GB, FP8 18 PFLOPS / FP4 36 PFLOPS

- **GB200** — Grace CPU 1개 + B200 GPU 2개를 NVLink-C2C 900GB/s로 묶은 superchip

- **GB200 NVL72** — 36개의 GB200을 NVLink 5(72-GPU all-to-all)로 묶은 1랙 시스템

- **B300 (Blackwell Ultra)** — 2025년 후반, HBM3E 288GB, FP4 추론 강화

NVL72의 의미

72개 B200 GPU가 한 NVLink 도메인. 한 모델이 72개 GPU를 마치 1개처럼 보고 학습 가능. **MoE 토큰 라우팅의 all-to-all이 NVLink 위에서 일어나므로 InfiniBand로 가지 않는다.** 이게 GPT-4 / Claude 3.5 클래스 모델 학습의 진짜 병목을 푼다.

Rubin — 2026년 9월

Rubin은 NVIDIA의 6세대 아키텍처. 2024 GTC에서 예고, 2026년 9월 GTC에서 공식 발표 예정.

- **R100** — TSMC N3 공정, HBM4 메모리 (288GB+)

- **Vera Rubin** — Grace의 후계 CPU(Vera) + Rubin GPU 묶음

- **NVL144** — 144-GPU 도메인으로 확장 예고

NVIDIA의 매년 1세대 페이스("annual cadence")는 2026년에도 이어진다. 2024 Blackwell → 2025 Blackwell Ultra → 2026 Rubin → 2027 Rubin Ultra.

가격과 공급

2024년 H100 1장이 $30K-40K. B200은 partial 기준 시간당 $4-8 클라우드, 카드 가격으론 $30K-40K. GB200 NVL72 1랙은 $3M 수준. 2025년 1H에 NVIDIA는 분기당 200만개 이상의 Blackwell GPU를 출하했다(Reuters).

3장 · AMD Instinct — MI300X → MI325X → MI355X → MI400 Helios

MI300X (2023년 12월)

CDNA 3 아키텍처, 192GB HBM3, FP8 5.2 PFLOPS. 메모리 용량에서 H100(80GB)을 2.4배 압도하며 Meta, Microsoft가 Llama 추론에 대량 배치. 카드당 $15K-20K 추정.

MI325X (2024년 4Q)

HBM3E 256GB로 메모리 업그레이드, 클럭 약간 상향. H200 대응 라인.

MI355X (2025년 후반)

CDNA 4 아키텍처. HBM3E 288GB, FP4 데이터 타입 추가. Blackwell B200/B300의 직접 대응자. ROCm 6.x 소프트웨어 스택이 PyTorch / vLLM / SGLang에서 거의 NVIDIA만큼 매끄러워졌다.

MI400 Helios (2026년)

AMD가 2025년 Advancing AI 이벤트에서 공개한 차세대 플랫폼.

- **MI400 Instinct GPU** — CDNA Next 아키텍처, HBM4 메모리

- **Helios rack-scale system** — 72개 GPU를 단일 ScaleUP 도메인으로 묶음 (NVL72 대응)

- **Pensando DPU** + ROCm 7 + UALink 인터커넥트

UALink는 NVLink의 오픈 대안. AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft가 컨소시엄을 구성했고, 2026년 1H에 1.0 사양이 공개되었다.

시장 점유

2025년 데이터센터 GPU 매출에서 NVIDIA가 90%+, AMD가 5-7%, Intel과 in-house가 나머지. AMD는 MI355X로 Microsoft Azure ND-MI355X-v6, Meta 클러스터를 따냈고, MI400 Helios로 Oracle Cloud Infra가 첫 대형 도입을 발표했다.

4장 · Intel Gaudi 3 + Falcon Shores 루머

Gaudi 3 — 마지막 별도 라인

Habana Labs를 2019년 $2B에 인수한 Intel은 Gaudi 1/2/3로 라인을 이어왔다. Gaudi 3는 2024년 4월 발표, TSMC N5 공정, HBM2E 128GB, 8x Ethernet 200Gbps 인터커넥트(InfiniBand 대신 RoCE).

- BF16 1835 TFLOPS

- FP8 1835 TFLOPS

- 가격 카드당 $7K-15K (NVIDIA 대비 절반 이하)

- 약점 — 소프트웨어 스택(SynapseAI). PyTorch가 동작하지만 ROCm / CUDA 만큼의 생태계는 없다

Stability AI, Naver, Intel 자체 Tiber Cloud 등이 도입.

Falcon Shores 루머

Falcon Shores는 원래 Gaudi 후계 + Ponte Vecchio(데이터센터 GPU) 통합 제품으로 2024년 출시 예정이었으나, **2024년 9월 Intel이 외부 출하 취소를 공식 발표**했다. 내부 R&D용으로만 활용한다는 입장.

2026년 5월 현재 루머는, Intel이 Gaudi 4 또는 새로운 단일 GPU 라인을 2027년 1H 출시 목표로 준비 중이라는 것. Pat Gelsinger 시기 IFS Cup 행사에서 Lip-Bu Tan(2025년 새 CEO)이 "AI 전용 칩 라인을 재정비한다"고 언급한 게 출발점.

5장 · Apple M5 + M5 Pro + Neural Engine + AC1 서버 칩

M5 / M5 Pro / M5 Max — 2025년 10월

Apple Silicon 5세대. TSMC N3E 공정. CPU 코어 카운트는 동일, **GPU에 ray-tracing 가속기 + AI 추론용 행렬 가속 유닛이 신규**.

- **M5** — 10-core CPU, 10-core GPU, 16-core Neural Engine, 38 TOPS

- **M5 Pro** — 14-core CPU, 20-core GPU, 16-core NE

- **M5 Max** — 16-core CPU, 40-core GPU, 16-core NE

Neural Engine은 항상 16개 코어. 변화는 매트릭스 곱 처리량 증가와 INT4 양자화 가속.

AC1 서버 칩 — 2026년 봄 루머

The Information(2025년 11월)과 Bloomberg Mark Gurman의 보도. Apple이 자체 데이터센터 AI 추론용 SoC를 개발 중이라는 것.

- **Apple Compute 1 (AC1)** — 코드네임, Mac Pro 서버 형태

- 2026년 봄 Apple Intelligence 백엔드 일부에 투입 예상

- M2 Ultra의 후계 (M5 Ultra 기반 가능성)

Apple은 이미 Apple Intelligence Private Cloud Compute(PCC)를 M2 Ultra Mac으로 굴리고 있다. AC1은 PCC의 다음 세대.

6장 · Google TPU v5p + Trillium (v5/v6)

TPU의 계보

- **TPU v1** (2015) — 추론 전용, INT8

- **TPU v2** (2017) — 학습 + 추론, BF16

- **TPU v3** (2018) — 액체 냉각 첫 도입

- **TPU v4** (2021) — Optical Circuit Switching

- **TPU v5e** (2023) — 추론 비용 최적화

- **TPU v5p** (2023) — 학습 플래그십, Gemini 학습에 사용

- **TPU v6 Trillium** (2024) — 4.7x v5e 대비 성능

Trillium의 성격

2024년 5월 Google I/O에서 발표. **Gemini 2.0 학습의 주력 칩**.

- HBM 용량 2x (32GB → 64GB)

- 인터커넥트 2x

- 에너지 효율 67% 개선

Trillium은 TPU pod 단위로 256개를 묶고, ICI(Inter-Chip Interconnect) optical로 8960개 칩까지 확장(SuperPod).

TPU 7세대 — 2026년 후반 루머

Google이 2026년 후반에 TPU v7 발표 예정이라는 루머가 The Information을 통해 흘러나왔다. Anthropic이 TPU에 대규모 의존하고 있다는 점을 감안하면 의미가 크다.

7장 · Cerebras WSE-3 — 4조 트랜지스터, 웨이퍼 스케일

웨이퍼 스케일이라는 발상

표준 칩은 12인치 웨이퍼를 reticle 사이즈(약 858mm²)로 잘라서 만든다. Cerebras는 **웨이퍼 한 장 전체를 하나의 칩으로 쓴다**.

WSE-3 (2024년 3월 발표):

- 46,225 mm² 면적

- **4조 트랜지스터** (Blackwell의 약 18배)

- **90만 코어** (custom RISC-V style)

- **44GB on-chip SRAM** (HBM이 없음, 칩 위 SRAM만)

- **125 PFLOPS FP8**

- TSMC 5nm

왜 웨이퍼 스케일인가

칩 간 통신을 없앤다. 메모리(SRAM)가 컴퓨트 코어 옆에 직접 붙어 있어 HBM 대비 수십 배 빠른 대역폭. **모델 weights를 전부 on-wafer SRAM에 올린다 — 70B 모델을 한 장의 웨이퍼에 fit.**

한계와 장점

- **장점** — 추론 latency가 압도적. Llama 3.1 70B에서 토큰당 latency가 Groq 다음 가는 수준

- **한계** — 학습은 NVIDIA 대비 가성비 떨어짐. yield와 패키징 비용

- **고객** — G42(UAE), Mayo Clinic, Argonne National Lab 등 특수 도메인

CS-3 시스템 1대 가격은 $2-3M 추정.

8장 · Groq LPU — 순차 추론 속도

LPU의 발상

Groq의 LPU(Language Processing Unit)는 2016년 Google TPU 팀 출신 Jonathan Ross가 창업한 회사의 칩. **결정론적 실행(deterministic execution)** — 칩 위의 모든 명령어가 컴파일러가 미리 정한 사이클에 정확히 실행된다.

- 14nm GlobalFoundries

- 230MB on-chip SRAM (HBM 없음)

- 750 TOPS INT8

- Tensor Streaming Processor (TSP) 구조

왜 빠른가

GPU는 dynamic scheduling으로 SM에 워크로드를 분배한다. LPU는 모든 dispatch를 컴파일 타임에 결정 — runtime 분기가 없다. 결과적으로 **Llama 70B 추론을 토큰당 200-300 tokens/sec까지 끌어올린다**. NVIDIA H100 기준 약 30-50 tokens/sec과 비교해 4-8배 빠르다.

한계

- 학습 불가 — 추론 전용

- 모델 크기에 따라 수십~수백 개의 LPU가 필요 (SRAM이 작아서 weights를 분산)

- **데이터센터 단위 비용**으로는 NVIDIA보다 비쌀 수도 있음

대신 latency 우선의 코드 자동완성 / 챗봇 / 음성 어시스턴트에 적합. Groq Cloud는 시간당 $0.59부터 Llama 70B를 제공.

9장 · SambaNova SN40L — Reconfigurable Dataflow

SambaNova의 접근

2017년 창업, 스탠퍼드 Kunle Olukotun 교수와 Rodrigo Liang이 공동 설립. **Reconfigurable Dataflow Architecture(RDA)** — 매 워크로드마다 칩 위의 데이터 흐름을 새로 구성.

SN40L (2023년):

- TSMC 5nm

- 1.5TB DDR5 + 64GB HBM3

- 638 BF16 TFLOPS

- 칩에 3-tier 메모리(SRAM / HBM / DDR) 통합

왜 RDA인가

GPU의 SIMT 모델은 텐서 곱에 최적화. 하지만 transformer는 attention의 dynamic shape, MoE의 sparse dispatch 같은 비정형 패턴이 많다. RDA는 **각 레이어마다 다른 데이터 경로를 컴파일 타임에 구성**하므로 sparse 워크로드에 강점.

고객

미국 DOE(Lawrence Livermore, Argonne), Saudi Aramco, SoftBank의 일부 R&D 클러스터.

10장 · Tenstorrent — Jim Keller, RISC-V 오픈 아키텍처

Jim Keller의 회사

전 AMD Zen 아키텍트, 전 Apple A4/A5 리드, 전 Tesla Autopilot 칩 리드, 전 Intel SVP. 2021년 Tenstorrent CEO 합류.

Tenstorrent의 핵심 차별점:

- **RISC-V 코어 기반** — 모든 칩의 control plane이 RISC-V

- **오픈 아키텍처** — RTL 일부와 컴파일러를 공개

- **Tensix 코어** — 행렬 곱 + 벡터 + 데이터 무브먼트 통합

- **확장 가능한 mesh 인터커넥트** — Ethernet 위에서

라인업

- **Grayskull** (2020) — 1세대, 데모/평가용

- **Wormhole** (2023) — 데이터센터 + Ethernet 12x100G 인터커넥트

- **Blackhole** (2024) — 1세대 패키지, 16 CPU + 32GB GDDR6

- **Hub / Galaxy** — 32 Wormhole을 묶은 4U 박스, $50K

Hyundai / 삼성 / LG AI Research 투자

2024년 한국 컨소시엄(현대차, 삼성전자 NEXT, LG)이 Tenstorrent에 투자. 한국에서도 차량 AI / 데이터센터 AI에 적용할 의도가 보인다.

11장 · Etched Sohu — transformer 전용 ASIC (2024년 6월)

"한 가지만 잘 하는 칩"

Etched는 Harvard 학부 출신 두 명이 2022년 창업한 스타트업. 2024년 6월 Sohu 칩을 공개하며 큰 화제를 모았다.

- **transformer 아키텍처 전용** — CNN, RNN, MLP 다른 아키텍처는 지원 안 함

- 144GB HBM3E

- 4nm TSMC

- 광고된 성능 — **Llama 70B에서 H100 대비 20배 빠른 토큰/초**

왜 transformer 전용인가

GPU의 면적 중 transformer 추론에 쓰이는 비율이 30% 미만. attention과 FFN의 패턴이 너무 명확하니, **나머지 70%의 실리콘을 잘라내고 그 자리에 attention 유닛을 더 박자**는 발상.

위험과 기대

위험은 명확하다. Mamba / RWKV / SSM / diffusion 같은 비-transformer 아키텍처가 부상하면 Sohu는 즉시 무용지물이 된다. 2026년 5월 기준 transformer는 여전히 LLM의 80%+ 점유 — Etched는 이 도박에 베팅한다.

2024년 시리즈 A에서 $120M 조달, Peter Thiel / Stanley Druckenmiller가 투자자.

12장 · AWS Trainium 2 + Inferentia 3

AWS의 자체 칩 전략

AWS는 2018년 Inferentia 1, 2020년 Trainium 1, 2023년 Inferentia 2, 2024년 Trainium 2, 2025년 Inferentia 3로 라인을 키워왔다.

- **Trainium 1** (2020) — 학습용 첫 칩

- **Inferentia 2** (2023) — Stable Diffusion / Llama 추론

- **Trainium 2** (2024) — Anthropic의 Project Rainier 메인 칩

- **Inferentia 3** (2025) — Llama 405B 추론을 carrier 워크로드로

Trainium 2 한 instance(Trn2.48xlarge)는 16개 칩, 1.5TB HBM, 약 시간당 $5-6.

Anthropic의 Project Rainier

Anthropic이 2024년 발표한 Trainium 2 기반 거대 클러스터. **400,000개 Trainium 2 칩** 규모로 알려졌으며, Claude 4.x 학습에 사용된다(공식 발표).

AWS는 Trainium 3를 2026년 말 출시 예고. Neuron SDK가 PyTorch / JAX와 매끄러워졌다.

13장 · MatX / Tachyum Prodigy — 신예

MatX

2022년 창업, Google TPU 출신과 OpenAI 출신이 공동 설립. **LLM 학습 전용 칩**을 만든다는 미션. 2025년 시리즈 B에서 $80M 조달, 첫 칩 출시 목표는 2026년 후반.

Tachyum Prodigy

슬로바키아 출신 Radoslav Danilak가 창업한 회사. **AI + HPC + 일반 컴퓨팅을 한 칩으로** 하겠다는 야심.

- 192-core CPU + AI 텐서 유닛

- 96GB HBM3 + DDR5

- 5nm TSMC

- 2026년 1Q tape-out 완료, 샘플 출하 시작

회의적인 시각도 많지만, EuroHPC(EU 공공 HPC)가 첫 대형 도입처가 될 가능성이 있다.

14장 · 폰 NPU — A18 Pro / Snapdragon 8 Gen 4 / Dimensity 9400 / Tensor G5

Apple A18 Pro (2024년 9월, iPhone 16 Pro)

- 6-core CPU + 6-core GPU + 16-core Neural Engine

- 35 TOPS Neural Engine

- Apple Intelligence on-device 추론 담당

Snapdragon 8 Gen 4 (2024년 10월, Samsung S25 등)

- Qualcomm 자체 Oryon CPU + Adreno GPU + Hexagon NPU

- 45 TOPS (Hexagon)

- 4nm TSMC

MediaTek Dimensity 9400 (2024년 10월)

- 3nm TSMC, Arm Cortex-X925

- 50 TOPS APU 890

- Generative AI 워크로드(SD / Llama) 강조

Google Tensor G5 (2024년 10월, Pixel 9)

- TSMC 3nm으로 Samsung Foundry 떠남(중요한 이동)

- TPU 5세대 모바일 (Edge TPU 후계)

- 자체 ML 가속 + Gemini Nano on-device

폰 NPU의 의미는 **on-device 추론 비용 = $0**. 클라우드 호출 없이 로컬에서 LLM 응답을 만든다.

15장 · 인터커넥트 — NVLink 5/6 / PCIe Gen 6/7 / CXL

NVLink 5

- Blackwell부터 NVLink 5

- 칩당 1.8TB/s (1.4TB/s GPU-to-GPU, 양방향)

- NVL72 — 72개 GPU all-to-all

NVLink 6는 Rubin(2026)부터 — 칩당 3.6TB/s 추정.

PCIe Gen 6 / Gen 7

- **PCIe 6.0** — 2022년 사양 확정, 64GT/s, 첫 양산은 2024년 후반 서버 보드

- **PCIe 7.0** — 2025년 사양 확정, 128GT/s, 양산은 2027~2028년

Gen 6의 의미는 PAM4 시그널링 도입. SerDes의 한계를 dual-level에서 four-level로 푼다.

CXL

Compute Express Link. Intel이 주도한 메모리 공유 표준. CPU - GPU - DPU - memory pool을 PCIe 위에서 한 데로 묶는다.

- **CXL 1.x** — 메모리 attach

- **CXL 2.x** — 메모리 풀링

- **CXL 3.x** — 메모리 sharing (cache coherent)

2026년 5월 현재 CXL 3.0 양산 제품(Samsung CMM-D, Micron CZ120)이 본격 배치. NVMe + CXL 메모리 expansion이 Tier 1 / Tier 2 / Tier 3 메모리 계층의 새 paradigm.

UALink (Ultra Accelerator Link)

NVLink의 오픈 대안. AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft 컨소시엄. 2026년 1.0 사양 공개.

16장 · 메모리 — HBM3E / HBM4 / 삼성 + SK Hynix

HBM의 진화

- **HBM1** (2015) — 4-Hi, 1GBps/pin

- **HBM2** (2016) — 8-Hi, 2GBps

- **HBM2E** (2018) — 3.6GBps

- **HBM3** (2022) — 6.4GBps, 24GB/stack

- **HBM3E** (2024) — 9.6GBps, 36GB/stack (B200 / MI355X)

- **HBM4** (2026) — 16Gbps+, 48GB/stack 예상

HBM은 GPU 다이 옆에 2.5D 또는 3D 스택으로 붙는다. 대역폭은 HBM3E 8-stack 기준 8TB/s를 넘는다.

공급 — SK하이닉스 / 삼성 / Micron

- **SK Hynix** — HBM3E 첫 양산, NVIDIA 1차 공급사. 2025년 SK Hynix HBM 매출이 회사 매출의 30%+

- **Samsung** — HBM3 후발이었지만 HBM4 표준 주도. NVIDIA HBM3E 12-Hi 인증을 2025년에 통과

- **Micron** — 3위, 2024년 HBM3E 양산

NVIDIA Blackwell 1장에 HBM3E 8개 stack, 총 192GB. Stack 1개당 약 $250-300. 즉 HBM만 칩당 $2-2.4K.

HBM4

JEDEC 표준 2025년 4월 확정. 16Gbps/pin, 12-Hi / 16-Hi stack. Rubin(2026)에서 첫 양산 적용. 한국 양사가 NVIDIA 인증을 두고 경쟁 중.

17장 · 한국 — FuriosaAI + Rebellions (Sapeon 통합 2024)

FuriosaAI

2017년 창업, Samsung / AMD 출신 백준호 대표. **RNGD(Renegade)** 칩을 2024년 출시 — Llama 추론 워크로드 타겟.

- TSMC 5nm

- 256GB HBM3

- 512 TFLOPS FP8

- 64 TFLOPS BF16

- TDP 150W

LG AI Research가 EXAONE 추론에 도입, 카카오엔터프라이즈 클라우드와 협업 발표.

Rebellions + Sapeon 통합

- **Rebellions** (2020 창업) — KT가 주요 투자자. ATOM 칩 — 추론용

- **Sapeon** (SK텔레콤 사내 분사) — X220 / X330 추론 칩

2024년 7월, Rebellions와 Sapeon이 합병 발표. 합병 후 통합 사명도 **Rebellions**. KT + SK텔레콤 + Samsung 모두 투자자. **REBEL** 차세대 칩이 2025년 발표, 2026년 양산 진입.

- 5nm Samsung Foundry

- 144GB HBM3E

- TDP 250W

- 학습 + 추론 겸용

한국 정부의 K-Cloud 프로젝트 — 2030년까지 국산 AI 가속기를 NIA 데이터센터에 50% 배치한다는 목표.

18장 · 일본 — SoftBank Graphcore + Preferred Networks MN-3 + Rapidus 2nm 2027

SoftBank의 Graphcore 인수 (2024년 7월)

SoftBank가 영국 Graphcore를 약 $500M에 인수. Graphcore의 IPU(Intelligence Processing Unit) — Bow IPU, 2세대 Colossus 등. SoftBank의 Cristal Intelligence(자체 AI 인프라) 백본으로 통합 예정.

Preferred Networks MN-3 / MN-Core 2

Preferred Networks는 일본의 대표 AI 회사. MN-Core 라인은 자체 학습 가속기.

- **MN-3** (2020) — Green500 1위 (에너지 효율 1위)

- **MN-Core 2** (2024) — 7nm, 130 TFLOPS BF16

PFN의 자체 LLM 학습에 사용. 외부 판매보다는 사내 + Toyota 등 일부 협업.

Rapidus — 2nm 2027

일본 정부 + Sony + Toyota + NTT + SoftBank가 출자한 신생 파운드리. **2nm 양산을 2027년 목표**. IBM과 기술 제휴, 홋카이도 치토세 공장 건설 중.

미국 / 한국 / 대만(TSMC)이 독점하는 leading edge 파운드리에 일본이 다시 도전한다. 2026년 5월 시점에 시범 라인이 가동, 2027년 양산이 계획대로면 일본 AI 칩의 큰 변수.

19장 · 액체 냉각 + 데이터센터 전력

왜 액체 냉각인가

H100이 700W, B200이 1000W, GB200 NVL72 1랙이 120kW. **공냉으로 처리 불가**. 1U 서버에 1000W GPU 8개 = 서버당 8kW. 랙당 30kW가 공냉의 한계, 그 위는 액체 냉각이 강제된다.

액체 냉각의 종류

- **Direct-to-Chip (D2C)** — 칩 위에 콜드 플레이트 부착, 액체 순환

- **Rear-door heat exchanger** — 랙 뒷면에 라디에이터

- **Immersion cooling** — 서버 전체를 dielectric 액체에 담금

GB200 NVL72는 D2C가 표준. 데이터센터 전체에 facility water loop 필요. **PUE 1.05 수준**으로 떨어진다(공냉 PUE 1.4-1.6 대비).

전력 — 발전소 옆 데이터센터

Anthropic / OpenAI / Meta의 신규 데이터센터는 **2GW+** 규모. 미국 평균 가정 200만 호의 소비량.

- Microsoft + Three Mile Island 원전 재가동 (2024년 9월, Constellation Energy)

- Amazon + Cumulus Data 원전 옆 데이터센터

- Google + Kairos Power SMR (소형 모듈 원전) 계약

2026년 5월 — AI 데이터센터 부지가 미국 동부 PJM, 텍사스 ERCOT, 대만 신주, 한국 안성 / 평택, 일본 인접 등으로 확산되며 발전 인프라가 병목.

20장 · 누가 무엇을 골라야 하나 — 학습 / 추론 / 엣지 / 폰

학습 — 큰 모델, 새 모델

| 상황 | 추천 |

| --- | --- |

| 최첨단 70B+ MoE 학습 | NVIDIA GB200 NVL72 / Rubin (2026 후반) |

| 가성비 학습 (50%+ 저렴) | AMD MI355X / MI400 Helios |

| TPU 친화적 (JAX / TF) | Google TPU v5p / Trillium |

| AWS 락-인 OK | AWS Trainium 2 |

추론 — 대량 처리

| 상황 | 추천 |

| --- | --- |

| 일반 LLM serving | NVIDIA H200 / B200 / AMD MI300X |

| 초저 latency (코드 자동완성) | Groq LPU / Cerebras WSE-3 |

| transformer 전용 | Etched Sohu (출시 후) |

| 한국 / EXAONE / 국산 모델 | FuriosaAI RNGD / Rebellions REBEL |

엣지 — 로봇 / 차량 / IoT

| 상황 | 추천 |

| --- | --- |

| 자율주행 | NVIDIA Drive Thor / Tesla FSD HW5 |

| 산업 IoT | NVIDIA Jetson Orin / Hailo-10 / Tenstorrent |

| 데스크탑 워크스테이션 | NVIDIA RTX 5090 / AMD Radeon Pro |

폰 — on-device LLM

| 상황 | 추천 |

| --- | --- |

| iOS Apple Intelligence | A18 Pro Neural Engine |

| Android Gemini Nano | Snapdragon 8 Gen 4 / Tensor G5 |

| 가성비 Android | Dimensity 9400 |

선택의 기준은 단순하다 — **소프트웨어 스택 호환성 + 단위 비용 + 가용성**. NVIDIA의 CUDA 생태계는 여전히 최강이지만, ROCm / XLA / Neuron / SynapseAI가 따라붙고 있다.

21장 · 참고 / References

- NVIDIA — Blackwell architecture: https://www.nvidia.com/en-us/data-center/blackwell-architecture/

- NVIDIA — GTC 2024 keynote: https://www.nvidia.com/gtc/keynote/

- AMD — Instinct MI300X: https://www.amd.com/en/products/accelerators/instinct/mi300/mi300x.html

- AMD — Advancing AI 2024: https://www.amd.com/en/corporate/events/advancing-ai.html

- Intel — Gaudi 3: https://www.intel.com/content/www/us/en/products/details/processors/ai-accelerators/gaudi3.html

- Apple — Apple Intelligence: https://www.apple.com/apple-intelligence/

- Google Cloud — TPU v5p: https://cloud.google.com/tpu/docs/v5p

- Google Cloud — Trillium TPU: https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus

- Cerebras — WSE-3: https://www.cerebras.ai/product-chip

- Groq — LPU: https://groq.com/

- SambaNova — SN40L: https://sambanova.ai/products

- Tenstorrent — Wormhole / Blackhole: https://tenstorrent.com/cards/

- Etched — Sohu: https://www.etched.com/announcing-etched

- AWS — Trainium 2: https://aws.amazon.com/machine-learning/trainium/

- AWS — Inferentia: https://aws.amazon.com/machine-learning/inferentia/

- MatX: https://matx.com/

- Tachyum — Prodigy: https://www.tachyum.com/products/

- Qualcomm — Snapdragon 8 Gen 4: https://www.qualcomm.com/products/mobile/snapdragon/smartphones/snapdragon-8-series-mobile-platforms/snapdragon-8-elite-mobile-platform

- MediaTek — Dimensity 9400: https://www.mediatek.com/products/smartphones-2/mediatek-dimensity-9400

- SemiAnalysis — Blackwell deep dive: https://www.semianalysis.com/

- SK Hynix — HBM: https://www.skhynix.com/hbm/

- Samsung Semiconductor — HBM: https://semiconductor.samsung.com/dram/hbm/

- Micron — HBM3E: https://www.micron.com/products/memory/hbm

- JEDEC — HBM4 standard: https://www.jedec.org/

- CXL Consortium: https://www.computeexpresslink.org/

- UALink Consortium: https://ualinkconsortium.org/

- FuriosaAI: https://www.furiosa.ai/

- Rebellions: https://rebellions.ai/

- Preferred Networks — MN-Core: https://projects.preferred.jp/mn-core/en/

- Rapidus: https://www.rapidus.inc/en/

- Reuters — NVIDIA shipments: https://www.reuters.com/

- The Information — AI hardware coverage: https://www.theinformation.com/

- Anthropic — Trainium / Project Rainier: https://www.anthropic.com/news

현재 단락 (1/252)

2026년 5월, AI 칩 시장은 다섯 해 전과 완전히 다른 풍경이다. 2020년 V100, 2021년 A100, 2022년 H100, 2023년 H200으로 이어진 NVIDIA의...

작성 글자: 0원문 글자: 14,525작성 단락: 0/252