Skip to content
Published on

AI ハードウェアアクセラレータ 2026 — NVIDIA Blackwell / AMD Instinct MI400 / Google TPU Trillium / Cerebras WSE-3 / Groq LPU / Tenstorrent / Etched Sohu / Furiosa / Rebellions 徹底解説

Authors

1. 2026 年の AI ハードウェアマップ — Hyperscaler / Challenger / インハウス / Edge の 4 陣営

2026 年 5 月、AI チップ市場は 5 年前とまったく異なる風景にある。2020 年 V100、2021 年 A100、2022 年 H100、2023 年 H200 と続いた NVIDIA の単独支配時代は、2024 年の Blackwell GTC 発表とともに新章へ進んだ。そして 2026 年 — チップの種類は増え、選択は難しくなった

おおむね 4 つの陣営に整理できる。

  • Hyperscaler GPU — NVIDIA Blackwell (B100/B200/GB200/B300、Rubin は 2026 年 9 月予定)、AMD Instinct (MI300X → MI355X → MI400 Helios)、Intel Gaudi 3 (+ Falcon Shores の噂)
  • Challenger / Specialty — Cerebras WSE-3 (ウェハースケール)、Groq LPU (逐次推論)、SambaNova SN40L (Reconfigurable Dataflow)、Tenstorrent (Jim Keller、RISC-V オープン)、Etched Sohu (transformer 専用 ASIC)、MatX、Tachyum Prodigy
  • インハウスクラウド — Google TPU v5p / Trillium (v5e / v6)、AWS Trainium 2 + Inferentia 3、Meta MTIA、Microsoft Maia、Apple AC1 (噂)
  • Edge / 携帯 NPU — Apple A18 Pro Neural Engine、Snapdragon 8 Gen 4 Hexagon NPU、MediaTek Dimensity 9400 APU、Google Tensor G5 モバイル TPU

価格でみると、2024 年に H100 1 枚が 30K40Kだったところ、B20030K-40K だったところ、B200 は 30K-40K、GB200 NVL72 ラックは 3M水準。クラウドで借りる場合H100は時間あたり3M 水準。クラウドで借りる場合 H100 は時間あたり 2-4、B200 partial は時間あたり $4-8 程度に落ち着いている。

本稿は仕様 → アーキテクチャ → メモリ・インターコネクト → 韓国・日本の陣営まで、章ごとに見ていく。

すべての数値は 2026 年 5 月時点の公開資料に加え、SemiAnalysis / The Information / Reuters の報道に基づく。非公開クラスタの価格は推定値である。


2. NVIDIA Blackwell — B100 / B200 / GB200 NVL72 / B300 / Rubin

Blackwell ファミリーの構造

Blackwell は 2024 年 3 月の GTC で Jensen Huang が公開した NVIDIA 第 5 世代データセンタ GPU アーキテクチャ。Hopper (H100/H200) の後継で、TSMC N4P プロセス上で GPU ダイを 2 つ NV-HBI (NVIDIA High-Bandwidth Interconnect、10 TB/s) で結ぶ chiplet 構造を初採用した。

  • B100 — TDP 700W、空冷可、HBM3E 192GB、FP8 14 PFLOPS
  • B200 — 1000W、液冷推奨、HBM3E 192GB、FP8 18 PFLOPS / FP4 36 PFLOPS
  • GB200 — Grace CPU 1 個 + B200 GPU 2 個を NVLink-C2C 900 GB/s で束ねた superchip
  • GB200 NVL72 — 36 個の GB200 を NVLink 5 (72-GPU all-to-all) で束ねた 1 ラックシステム
  • B300 (Blackwell Ultra) — 2025 年後半、HBM3E 288GB、FP4 推論強化

NVL72 の意味

72 個の B200 GPU が単一の NVLink ドメイン。1 モデルが 72 GPU を 1 つのように扱って学習できる。MoE のトークンルーティング、つまり all-to-all が NVLink 上で行われ、InfiniBand に出ない。これが GPT-4 / Claude 3.5 級モデル学習の真のボトルネックを解消する。

Rubin — 2026 年 9 月

Rubin は NVIDIA 第 6 世代アーキテクチャ。2024 GTC で予告され、2026 年 9 月 GTC で正式発表予定。

  • R100 — TSMC N3 プロセス、HBM4 メモリ (288GB 以上)
  • Vera Rubin — Grace の後継 CPU である Vera と Rubin GPU を束ねる
  • NVL144 — 144-GPU ドメインに拡張

NVIDIA の毎年新世代ペース (annual cadence) は 2026 年も続く。2024 Blackwell → 2025 Blackwell Ultra → 2026 Rubin → 2027 Rubin Ultra。

価格と供給

2024 年の H100 1 枚は 30K40KB200partial単位で時間あたり30K-40K。B200 は partial 単位で時間あたり 4-8 のクラウド、カード単価で 30K40KGB200NVL72ラックは30K-40K。GB200 NVL72 ラックは 3M 水準。2025 年上期、NVIDIA は四半期あたり 200 万枚以上の Blackwell GPU を出荷した (Reuters)。


3. AMD Instinct — MI300X → MI325X → MI355X → MI400 Helios

MI300X (2023 年 12 月)

CDNA 3 アーキテクチャ、HBM3 192GB、FP8 5.2 PFLOPS。メモリ容量で H100 (80GB) を 2.4 倍上回り、Meta、Microsoft が Llama 推論に大量配備。カード単価 $15K-20K の推定。

MI325X (2024 年 4Q)

HBM3E 256GB に増量、クロックも微増。H200 対応ライン。

MI355X (2025 年後半)

CDNA 4 アーキテクチャ。HBM3E 288GB、FP4 データタイプ追加。Blackwell B200/B300 への直接対応。ROCm 6.x ソフトウェアスタックが PyTorch / vLLM / SGLang でほぼ NVIDIA 並みに滑らかになった。

MI400 Helios (2026 年)

AMD が Advancing AI 2025 で公開した次世代プラットフォーム。

  • MI400 Instinct GPU — CDNA Next アーキテクチャ、HBM4 メモリ
  • Helios ラックスケールシステム — 72 GPU を単一 ScaleUP ドメインに束ねる (NVL72 相当)
  • Pensando DPU + ROCm 7 + UALink インターコネクト

UALink は NVLink のオープン代替。AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft がコンソーシアムを構成し、2026 年上期に 1.0 仕様が公開された。

市場シェア

2025 年のデータセンタ GPU 売上で NVIDIA が 90%+、AMD が 5-7%、Intel とインハウスが残り。AMD は MI355X で Microsoft Azure ND-MI355X-v6、Meta クラスタを獲得し、MI400 Helios で Oracle Cloud Infra が最初の大型導入を発表した。


4. Intel Gaudi 3 + Falcon Shores の噂

Gaudi 3 — 最後の独立ライン

Intel は 2019 年に Habana Labs を $2B で買収、Gaudi 1/2/3 でラインを継いできた。Gaudi 3 は 2024 年 4 月発表、TSMC N5、HBM2E 128GB、8x Ethernet 200 Gbps インターコネクト (InfiniBand ではなく RoCE)。

  • BF16 1835 TFLOPS
  • FP8 1835 TFLOPS
  • カード単価 $7K-15K (NVIDIA の半分以下)
  • 弱点 — ソフトウェアスタック (SynapseAI)。PyTorch は動くが、エコシステムは CUDA / ROCm に比肩しない

Stability AI、Naver、Intel 自身の Tiber Cloud などが導入。

Falcon Shores の噂

Falcon Shores はもともと Gaudi 後継と Ponte Vecchio (データセンタ GPU) の統合製品として 2024 年出荷予定だったが、2024 年 9 月に Intel が外部出荷キャンセルを公式発表。社内 R&D 用にのみ活用する姿勢。

2026 年 5 月時点での噂は、Intel が Gaudi 4 もしくは新たな単一 GPU ラインを 2027 年上期目標で準備している、というもの。Pat Gelsinger 時代の IFS Cup イベントで Lip-Bu Tan (2025 年からの新 CEO) が「AI 専用チップラインを再編する」と発言したのが発端。


5. Apple M5 + M5 Pro + Neural Engine + AC1 サーバチップ

M5 / M5 Pro / M5 Max — 2025 年 10 月

Apple Silicon 第 5 世代。TSMC N3E プロセス。CPU コア数は据え置きで、GPU にレイトレーシングアクセラレータと AI 推論向け行列エンジンが新搭載

  • M5 — 10 コア CPU、10 コア GPU、16 コア Neural Engine、38 TOPS
  • M5 Pro — 14 コア CPU、20 コア GPU、16 コア NE
  • M5 Max — 16 コア CPU、40 コア GPU、16 コア NE

Neural Engine は常に 16 コア。変化は行列乗算スループットの増加と INT4 量子化アクセラレーション。

AC1 サーバチップ — 2026 年春の噂

The Information (2025 年 11 月) と Bloomberg の Mark Gurman の報道。Apple が自社データセンタ AI 推論向け SoC を開発中というもの。

  • Apple Compute 1 (AC1) — コードネーム、Mac Pro サーバ形態
  • 2026 年春の Apple Intelligence バックエンドの一部に投入予定
  • M2 Ultra Mac Pro の後継 (M5 Ultra ベースの可能性)

Apple はすでに Apple Intelligence Private Cloud Compute (PCC) を M2 Ultra Mac で動かしている。AC1 は PCC の次世代シリコン。


6. Google TPU v5p + Trillium (v5/v6)

TPU の系譜

  • TPU v1 (2015) — 推論専用、INT8
  • TPU v2 (2017) — 学習 + 推論、BF16
  • TPU v3 (2018) — 液冷初導入
  • TPU v4 (2021) — Optical Circuit Switching
  • TPU v5e (2023) — 推論コスト最適化
  • TPU v5p (2023) — 学習フラッグシップ、Gemini 学習で使用
  • TPU v6 Trillium (2024) — v5e 比 4.7 倍の性能

Trillium の性格

2024 年 5 月 Google I/O で発表。Gemini 2.0 学習の主力チップ

  • HBM 容量 2 倍 (32GB → 64GB)
  • インターコネクト 2 倍
  • エネルギー効率 67% 改善

Trillium は TPU pod 単位で 256 チップを束ね、ICI (Inter-Chip Interconnect) の光接続で 8960 チップまで拡張 (SuperPod)。

TPU 第 7 世代 — 2026 年後半の噂

Google が 2026 年後半に TPU v7 を発表予定との噂が The Information で報じられた。Anthropic が TPU に大きく依存している点を踏まえると意味が大きい。


7. Cerebras WSE-3 — 4 兆トランジスタ、ウェハースケール

ウェハースケールという発想

標準的なチップは 12 インチウェハーを reticle サイズ (約 858 mm²) に切り出して作る。Cerebras は ウェハー 1 枚全体を 1 つのチップとして使う

WSE-3 (2024 年 3 月発表):

  • 面積 46,225 mm²
  • 4 兆トランジスタ (Blackwell の約 18 倍)
  • 90 万コア (custom RISC-V スタイル)
  • オンチップ SRAM 44GB (HBM なし、チップ上 SRAM のみ)
  • 125 PFLOPS FP8
  • TSMC 5nm

なぜウェハースケールか

チップ間通信を排除する。メモリ (SRAM) が計算コアの隣に直接配置され、HBM 比で数十倍速い帯域。モデル重みをすべてオンウェハー SRAM に載せる — 70B モデルが 1 枚に fit する

制約と強み

  • 強み — 推論レイテンシが圧倒的。Llama 3.1 70B のトークン当たりレイテンシで Groq に次ぐ水準
  • 制約 — 学習コストパフォーマンスは NVIDIA より劣る。歩留まりとパッケージング費用
  • 顧客 — G42 (UAE)、Mayo Clinic、Argonne National Lab などの特殊ドメイン

CS-3 システム 1 台あたり $2-3M の推定。


8. Groq LPU — 逐次推論の速度

LPU の発想

Groq の LPU (Language Processing Unit) は、2016 年に Google TPU チーム出身の Jonathan Ross が創業した会社のチップ。決定論的実行 (deterministic execution) — チップ上のすべての命令がコンパイラが事前に決定したサイクルで正確に実行される。

  • 14nm GlobalFoundries
  • オンチップ SRAM 230MB (HBM なし)
  • INT8 750 TOPS
  • Tensor Streaming Processor (TSP) 構造

なぜ速いか

GPU は dynamic scheduling で SM にワークロードを分配する。LPU はすべての dispatch をコンパイルタイムに決定 — runtime 分岐がない。結果として Llama 70B 推論をトークン当たり 200-300 tokens/sec まで引き上げる。NVIDIA H100 基準の約 30-50 tokens/sec と比べて 4-8 倍速い。

制約

  • 学習不可 — 推論専用
  • モデルサイズに応じて数十〜数百個の LPU が必要 (SRAM が小さいため重みを分散)
  • データセンタ単位コストでは NVIDIA より高くなることもある

代わりにレイテンシ優先のコード自動補完 / チャットボット / 音声アシスタントに最適。Groq Cloud は時間あたり $0.59 から Llama 70B を提供。


9. SambaNova SN40L — Reconfigurable Dataflow

SambaNova のアプローチ

2017 年創業、Stanford の Kunle Olukotun 教授と Rodrigo Liang が共同設立。Reconfigurable Dataflow Architecture (RDA) — ワークロードごとにチップ上のデータフローを再構成する。

SN40L (2023 年):

  • TSMC 5nm
  • DDR5 1.5TB + HBM3 64GB
  • BF16 638 TFLOPS
  • チップに 3 階層メモリ (SRAM / HBM / DDR) を統合

なぜ RDA か

GPU の SIMT モデルはテンソル乗算に最適化されている。しかし transformer は attention の dynamic shape、MoE の sparse dispatch など不定形パターンが多い。RDA は 各レイヤごとに異なるデータ経路をコンパイルタイムに構成するため、sparse ワークロードに強い。

顧客

米 DOE (Lawrence Livermore、Argonne)、Saudi Aramco、SoftBank の一部 R&D クラスタ。


10. Tenstorrent — Jim Keller、RISC-V オープンアーキテクチャ

Jim Keller の会社

元 AMD Zen アーキテクト、元 Apple A4/A5 リード、元 Tesla Autopilot チップリード、元 Intel SVP。2021 年に Tenstorrent CEO 就任。

Tenstorrent のコア差別化点:

  • RISC-V コアベース — すべてのチップの制御プレーンが RISC-V
  • オープンアーキテクチャ — RTL の一部とコンパイラを公開
  • Tensix コア — 行列乗算 + ベクトル + データ移動の統合
  • 拡張可能な mesh インターコネクト — Ethernet 上で動作

ラインアップ

  • Grayskull (2020) — 第 1 世代、評価用
  • Wormhole (2023) — データセンタ + Ethernet 12x100G インターコネクト
  • Blackhole (2024) — 第 1 世代パッケージ、CPU 16 個 + GDDR6 32GB
  • Hub / Galaxy — 32 Wormhole を束ねた 4U ボックス、$50K

Hyundai / Samsung / LG AI Research 投資

2024 年、韓国コンソーシアム (Hyundai Motor、Samsung NEXT、LG) が Tenstorrent に投資。韓国でも車載 AI / データセンタ AI への適用が見えている。


11. Etched Sohu — transformer 専用 ASIC (2024 年 6 月)

「1 つだけうまくやる」チップ

Etched は Harvard 学部出身の 2 人が 2022 年に創業したスタートアップ。2024 年 6 月の Sohu チップ公開で大きな話題になった。

  • transformer アーキテクチャ専用 — CNN、RNN、MLP の他アーキテクチャはサポートしない
  • HBM3E 144GB
  • TSMC 4nm
  • 公称性能 — Llama 70B で H100 比 20 倍速いトークン/秒

なぜ transformer 専用か

GPU の面積のうち、transformer 推論に使われる割合は 30% 未満。attention と FFN のパターンが明確すぎるので、残り 70% のシリコンを切り捨て、その分 attention ユニットをさらに敷き詰めるという発想。

リスクと期待

リスクは明確。Mamba / RWKV / SSM / diffusion など非 transformer アーキテクチャが台頭すれば、Sohu は一夜にして無用となる。2026 年 5 月時点で transformer は依然として LLM の 80% 以上を占めており、Etched はそこに賭けている。

2024 年シリーズ A で $120M を調達、Peter Thiel / Stanley Druckenmiller が投資家。


12. AWS Trainium 2 + Inferentia 3

AWS の自社チップ戦略

AWS は 2018 年 Inferentia 1、2020 年 Trainium 1、2023 年 Inferentia 2、2024 年 Trainium 2、2025 年 Inferentia 3 とラインを成長させてきた。

  • Trainium 1 (2020) — 学習用初チップ
  • Inferentia 2 (2023) — Stable Diffusion / Llama 推論
  • Trainium 2 (2024) — Anthropic の Project Rainier のメインチップ
  • Inferentia 3 (2025) — Llama 405B 推論を carrier ワークロードに

Trainium 2 1 インスタンス (Trn2.48xlarge) は 16 チップ、HBM 1.5TB で時間あたり約 $5-6。

Anthropic の Project Rainier

Anthropic が 2024 年に発表した Trainium 2 ベースの巨大クラスタ。40 万個の Trainium 2 チップ規模とされ、Claude 4.x の学習に使われている (公式発表)。

AWS は Trainium 3 を 2026 年末出荷予定。Neuron SDK が PyTorch / JAX とネイティブ並みに滑らかになった。


13. MatX / Tachyum Prodigy — 新興

MatX

2022 年創業、Google TPU 出身と OpenAI 出身が共同設立。LLM 学習専用チップをミッションに掲げる。2025 年シリーズ B で $80M 調達、初チップは 2026 年後半が目標。

Tachyum Prodigy

スロバキア出身の Radoslav Danilak が創業。AI + HPC + 一般計算を 1 チップでという野心。

  • 192 コア CPU + AI テンソルユニット
  • HBM3 96GB + DDR5
  • TSMC 5nm
  • 2026 年第 1 四半期に tape-out 完了、サンプル出荷開始

懐疑的な見方も多いが、EuroHPC (EU 公共 HPC) が最初の大型導入先となる可能性がある。


14. スマートフォン NPU — A18 Pro / Snapdragon 8 Gen 4 / Dimensity 9400 / Tensor G5

Apple A18 Pro (2024 年 9 月、iPhone 16 Pro)

  • 6 コア CPU + 6 コア GPU + 16 コア Neural Engine
  • Neural Engine 35 TOPS
  • Apple Intelligence の on-device 推論を担当

Snapdragon 8 Gen 4 (2024 年 10 月、Samsung S25 など)

  • Qualcomm 自社 Oryon CPU + Adreno GPU + Hexagon NPU
  • 45 TOPS (Hexagon)
  • TSMC 4nm

MediaTek Dimensity 9400 (2024 年 10 月)

  • TSMC 3nm、Arm Cortex-X925
  • APU 890 で 50 TOPS
  • Generative AI ワークロード (SD / Llama) を強調

Google Tensor G5 (2024 年 10 月、Pixel 9)

  • TSMC 3nm に移行し Samsung Foundry から離脱 (重要な転換)
  • TPU 第 5 世代モバイル (Edge TPU の後継)
  • 自社 ML アクセラレータ + on-device Gemini Nano

スマートフォン NPU の意味は明確 — on-device 推論コスト = $0。クラウド呼び出しなしでローカルに LLM 応答を生成する。


  • Blackwell から NVLink 5
  • チップあたり 1.8 TB/s (1.4 TB/s GPU 間、双方向)
  • NVL72 — 72 GPU all-to-all

NVLink 6 は Rubin (2026) から — チップあたり 3.6 TB/s の推定。

PCIe Gen 6 / Gen 7

  • PCIe 6.0 — 2022 年に仕様確定、64 GT/s、初の量産は 2024 年後半のサーバボード
  • PCIe 7.0 — 2025 年に仕様確定、128 GT/s、量産は 2027〜2028 年

Gen 6 の意義は PAM4 シグナリング導入。SerDes の限界を dual-level から four-level に解消する。

CXL

Compute Express Link。Intel 主導のメモリ共有標準。CPU / GPU / DPU / メモリプールを PCIe 上で 1 つに束ねる。

  • CXL 1.x — メモリアタッチ
  • CXL 2.x — メモリプーリング
  • CXL 3.x — メモリ共有 (cache coherent)

2026 年 5 月時点で CXL 3.0 量産品 (Samsung CMM-D、Micron CZ120) が本格配備。NVMe + CXL メモリ拡張が Tier 1 / Tier 2 / Tier 3 メモリ階層の新しいパラダイム。

NVLink のオープン代替。AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft のコンソーシアム。2026 年に 1.0 仕様が公開された。


16. メモリ — HBM3E / HBM4 / Samsung + SK Hynix

HBM の進化

  • HBM1 (2015) — 4-Hi、1 GBps/pin
  • HBM2 (2016) — 8-Hi、2 GBps
  • HBM2E (2018) — 3.6 GBps
  • HBM3 (2022) — 6.4 GBps、24GB/stack
  • HBM3E (2024) — 9.6 GBps、36GB/stack (B200、MI355X)
  • HBM4 (2026) — 16 Gbps 以上、48GB/stack の見込み

HBM は GPU ダイの隣に 2.5D もしくは 3D スタックで配置。HBM3E 8 スタック構成で帯域は 8 TB/s を超える。

供給 — SK Hynix / Samsung / Micron

  • SK Hynix — HBM3E 初量産、NVIDIA の主力サプライヤ。2025 年の HBM 売上が全社売上の 30% 以上
  • Samsung — HBM3 は後発だったが、HBM4 標準を主導。NVIDIA HBM3E 12-Hi 認定を 2025 年に通過
  • Micron — 3 位、2024 年に HBM3E 量産

NVIDIA Blackwell 1 枚に HBM3E スタック 8 個、合計 192GB。スタック 1 個あたり 250300程度。つまりHBMだけでチップあたり250-300 程度。つまり HBM だけでチップあたり 2-2.4K。

HBM4

JEDEC 標準は 2025 年 4 月に確定。16 Gbps/pin、12-Hi / 16-Hi スタック。Rubin (2026) で初量産。韓国 2 社が NVIDIA 認定を競っている。


17. 韓国 — FuriosaAI + Rebellions (Sapeon 統合 2024 年)

FuriosaAI

2017 年創業、Samsung / AMD 出身の白俊浩 (June Paik) 代表。RNGD (Renegade) チップを 2024 年に発表 — Llama 推論ワークロードがターゲット。

  • TSMC 5nm
  • HBM3 256GB
  • FP8 512 TFLOPS
  • BF16 64 TFLOPS
  • TDP 150W

LG AI Research が EXAONE 推論で採用、Kakao Enterprise Cloud との協業も発表。

Rebellions + Sapeon の統合

  • Rebellions (2020 年創業) — KT が主要投資家。ATOM チップ — 推論用
  • Sapeon (SK Telecom 内分社) — X220 / X330 推論チップ

2024 年 7 月、Rebellions と Sapeon が合併発表。合併後の社名も Rebellions。KT + SK Telecom + Samsung のすべてが投資家。REBEL 次世代チップが 2025 年に発表、2026 年量産入り。

  • 5nm Samsung Foundry
  • HBM3E 144GB
  • TDP 250W
  • 学習 + 推論両対応

韓国政府の K-Cloud プロジェクトは、2030 年までに国産 AI アクセラレータを NIA データセンタの 50% に配備する目標。


18. 日本 — SoftBank Graphcore + Preferred Networks MN-3 + Rapidus 2nm 2027

SoftBank の Graphcore 買収 (2024 年 7 月)

SoftBank が英 Graphcore を約 $500M で買収。Graphcore の IPU (Intelligence Processing Unit) — Bow IPU、第 2 世代 Colossus など — を SoftBank の Cristal Intelligence (自社 AI インフラ) のバックボーンに統合する予定。

Preferred Networks MN-3 / MN-Core 2

Preferred Networks は日本を代表する AI 企業。MN-Core ラインは自社学習アクセラレータ。

  • MN-3 (2020) — Green500 1 位 (エネルギー効率)
  • MN-Core 2 (2024) — 7nm、BF16 130 TFLOPS

PFN の自社 LLM 学習に使用。外販よりも社内 + Toyota など一部協業中心。

Rapidus — 2nm を 2027 年に

日本政府 + Sony + Toyota + NTT + SoftBank が出資する新興ファウンドリ。2nm 量産を 2027 年に目標。IBM と技術提携、北海道千歳に工場建設中。

米国 / 韓国 / 台湾 (TSMC) が独占する先端ファウンドリに日本が再挑戦する。2026 年 5 月時点で試作ラインが稼働、2027 年の量産が計画どおりなら日本 AI チップ最大の変数となる。


19. 液冷 + データセンタ電力

なぜ液冷か

H100 は 700W、B200 は 1000W、GB200 NVL72 ラックは 120 kW。空冷では処理不能。1U サーバに 1000W GPU 8 個 = サーバあたり 8 kW。ラックあたり 30 kW が空冷の上限で、その上は液冷が強制される。

液冷の種類

  • Direct-to-Chip (D2C) — チップ上にコールドプレートを取り付け、液体循環
  • Rear-door heat exchanger — ラック背面のラジエータ
  • Immersion cooling — サーバ全体を誘電液に浸漬

GB200 NVL72 は D2C が標準。データセンタ全体に facility water loop が必要。PUE は 1.05 水準まで下がる (空冷の PUE 1.4-1.6 比)。

電力 — 発電所隣接データセンタ

Anthropic / OpenAI / Meta の新規データセンタは 2 GW 以上規模。米国平均家庭 200 万世帯分の消費量。

  • Microsoft + Three Mile Island 原発再稼働 (2024 年 9 月、Constellation Energy)
  • Amazon + Cumulus Data 原発隣接データセンタ
  • Google + Kairos Power SMR (小型モジュール原発) 契約

2026 年 5 月 — AI データセンタの立地が米国東部 PJM、テキサス ERCOT、台湾新竹、韓国安城・平澤、日本首都圏近隣などに拡散し、発電インフラがボトルネックとなっている。


20. 誰が何を選ぶべきか — 学習 / 推論 / エッジ / 携帯

学習 — 大規模モデル、新モデル

状況推奨
最先端 70B+ MoE 学習NVIDIA GB200 NVL72 / Rubin (2026 年後半)
コスト最適化学習 (50% 以上安い)AMD MI355X / MI400 Helios
TPU 親和的 (JAX / TF)Google TPU v5p / Trillium
AWS ロックイン OKAWS Trainium 2

推論 — 大量処理

状況推奨
一般 LLM サービングNVIDIA H200 / B200 / AMD MI300X
超低レイテンシ (コード補完)Groq LPU / Cerebras WSE-3
transformer 専用Etched Sohu (出荷後)
韓国 / EXAONE / 国産モデルFuriosaAI RNGD / Rebellions REBEL

エッジ — ロボット / 車両 / IoT

状況推奨
自動運転NVIDIA Drive Thor / Tesla FSD HW5
産業 IoTNVIDIA Jetson Orin / Hailo-10 / Tenstorrent
デスクトップワークステーションNVIDIA RTX 5090 / AMD Radeon Pro

携帯 — on-device LLM

状況推奨
iOS Apple IntelligenceA18 Pro Neural Engine
Android Gemini NanoSnapdragon 8 Gen 4 / Tensor G5
コスパ AndroidDimensity 9400

選択基準はシンプル — ソフトウェアスタック互換性 + 単価 + 入手性。NVIDIA の CUDA エコシステムは依然として最強だが、ROCm / XLA / Neuron / SynapseAI が追いついてきている。


21. 参考 / References