- Authors

- Name
- Youngju Kim
- @fjvbn20031
はじめに
AIワークロードが多様化するにつれ、ハードウェアアクセラレータ市場は急速に広がっています。NVIDIA GPUが依然として主流ですが、Google TPU、Cerebras WSE-3、AWS Inferentia、Apple Neural Engineなど、専用アクセラレータが急速に独自のニッチを確立しています。
このガイドでは、主要なAIハードウェアアクセラレータのアーキテクチャ、パフォーマンス特性、ユースケースを体系的に比較します。学習用GPUの選定からエッジチップへのモデルデプロイまで、適切なハードウェアの意思決定に必要なすべてを網羅しています。
1. NVIDIA Hopperアーキテクチャ:H100とH200
Hopper SMの構造
NVIDIA H100はHopperマイクロアーキテクチャを採用しています。各Streaming Multiprocessor(SM)は以下のコンポーネントで構成されています。
- 4つのワープスケジューラ:各32スレッドのワープを同時に4つスケジューリング
- 第4世代Tensor Core:FP8、FP16、BF16、TF32、FP64をサポート
- 共有メモリ:SMあたり最大228KB(L1キャッシュ含む)
- レジスタファイル:SMあたり65,536個の32ビットレジスタ
H100 SXM5の主要スペックは以下のとおりです。
| スペック | H100 SXM5 | H200 SXM5 |
|---|---|---|
| SM数 | 132 | 132 |
| CUDAコア数 | 16,896 | 16,896 |
| Tensor Core(第4世代) | 528 | 528 |
| FP8 TFLOPS | 3,958 | 3,958 |
| BF16 TFLOPS | 1,979 | 1,979 |
| メモリタイプ | HBM3 | HBM3e |
| メモリ容量 | 80GB | 141GB |
| メモリ帯域幅 | 3.35TB/s | 4.8TB/s |
| TDP | 700W | 700W |
| NVLink帯域幅 | 900GB/s | 900GB/s |
第4世代Tensor CoreとTransformer Engine
H100の重要なイノベーションはTransformer Engineです。このエンジンは精度の損失を最小限に抑えながらFP8演算をサポートします。
動作原理:Transformerの各レイヤーでアクティベーションの統計情報(最大値、標準偏差)を追跡し、そこから動的スケーリングファクターを算出します。FP8演算を使用しながら、スケーリングにより数値的安定性を維持します。
# CUDAデバイスプロパティの確認
import torch
def query_gpu_properties():
if not torch.cuda.is_available():
print("CUDA is not available.")
return
for i in range(torch.cuda.device_count()):
props = torch.cuda.get_device_properties(i)
print(f"GPU {i}: {props.name}")
print(f" Compute Capability: {props.major}.{props.minor}")
print(f" Total Memory: {props.total_memory / 1024**3:.1f} GB")
print(f" Multiprocessors: {props.multi_processor_count}")
print(f" Max Threads/SM: {props.max_threads_per_multi_processor}")
print(f" L2 Cache Size: {props.l2_cache_size / 1024**2:.1f} MB")
# Hopper(Compute Capability 9.0)かどうかを確認
if props.major == 9:
print(f" Architecture: Hopper (H100/H200)")
elif props.major == 8:
print(f" Architecture: Ampere (A100/A800)")
query_gpu_properties()
NVLink 4.0とNVSwitch
大規模モデルの学習には、複数GPU間の高速通信が不可欠です。H100のNVLink 4.0はGPUあたり900GB/sの双方向帯域幅を実現します。
- NVLink 3.0(A100):GPUあたり600GB/s
- NVLink 4.0(H100):GPUあたり900GB/s
- NVSwitch 第3世代:スイッチあたり合計7.2TB/sの帯域幅
DGX H100システム(8 GPU)では、3つのNVSwitchユニットがすべてのGPUをフルメッシュトポロジーで接続します。これにより、任意のGPU間通信がPCIeより7倍以上高速になります。
2. Google TPU:シストリックアレイアーキテクチャ
TPUの心臓部:シストリックアレイ
TPU(Tensor Processing Unit)は行列乗算に特化したASICです。中核となる演算ユニットであるシストリックアレイは、データが波のように(シストリック)流れながら演算が行われる構造です。
TPU v4のMXU(Matrix Multiply Unit)は128x128のシストリックアレイを使用しています。各セルは前のセルからの入力を受け取り、MAC(乗算累積)演算を実行して結果を次のセルに渡します。
この構造の利点は以下のとおりです。
- メモリアクセスの最小化:データがアレイを通過する際に再利用される
- 高い演算強度:データ要素あたりより多くの演算を実行
- 決定論的な実行:予測可能なレイテンシ
TPU v4 vs v5e 比較
| スペック | TPU v4 | TPU v5e |
|---|---|---|
| BF16 TFLOPS | 275 | 197 |
| INT8 TOPS | 275 | 394 |
| HBM容量 | 32GB | 16GB |
| HBM帯域幅 | 1,200GB/s | 1,600GB/s |
| ICI帯域幅 | 1,200GB/s/チップ | 1,600GB/s/チップ |
| 消費電力 | 約170W | 約90W |
| コスト効率 | 学習最適化 | 推論最適化 |
TPU v5eは電力効率に最適化されており、推論ワークロードに特に経済的です。
TPU PodとICI
TPU Podは、高速ICI(Inter-Chip Interconnect)で接続された数千のTPUチップのクラスターです。ICIはデータセンターネットワークの代わりに直接チップ間接続を使用することで、レイテンシを大幅に削減します。
- TPU v4 Pod:4,096チップ、1エクサFLOPS超(BF16)
- ICIトポロジー:3Dトーラスメッシュ
JAX/XLAでのTPU使用
# JAX on TPU 基本例
import jax
import jax.numpy as jnp
from jax import random
# 利用可能なデバイスの確認
devices = jax.devices()
print(f"Available devices: {devices}")
# データシャーディングを使用してTPU Pod全体を活用
from jax.sharding import Mesh, PartitionSpec, NamedSharding
import numpy as np
# 8方向テンソル並列処理のセットアップ
mesh = Mesh(np.array(jax.devices()).reshape(2, 4), ('batch', 'model'))
def matrix_multiply_tpu(a, b):
# XLAはTPUシストリックアレイの使用を自動最適化
return jnp.dot(a, b)
# jitコンパイルでXLA最適化を適用
compiled_matmul = jax.jit(matrix_multiply_tpu)
key = random.PRNGKey(0)
a = random.normal(key, (4096, 4096), dtype=jnp.bfloat16)
b = random.normal(key, (4096, 4096), dtype=jnp.bfloat16)
result = compiled_matmul(a, b)
print(f"Result shape: {result.shape}, dtype: {result.dtype}")
3. AI ASIC:専用アクセラレータ
Cerebras WSE-3:ウェーハスケールエンジン
Cerebras WSE-3(Wafer Scale Engine 3)は、シリコンウェーハ全体を1枚のチップとして使用する画期的な設計です。
| スペック | WSE-3 |
|---|---|
| ダイサイズ | 46,225 mm²(ウェーハ全体) |
| AIコア数 | 900,000 |
| オンチップSRAM | 44GB |
| メモリ帯域幅 | 21PB/s(オンチップ) |
| FP16性能 | 125 PFLOPS |
| ファブリック帯域幅 | 220Pb/s |
最大の利点は、チップ間通信ボトルネックの完全な排除です。従来のGPUクラスターでは、数百のGPUがネットワークやNVLinkで接続され、通信オーバーヘッドが発生します。WSE-3では、すべてのコアが単一ウェーハ上のオンチップファブリックで接続されており、レイテンシはナノ秒単位です。
Cerebrasは、単一のCS-3システムが大規模モデル学習において最大24ラックのGPUクラスターを置き換えられると主張しています。
Graphcore IPU
GraphcoreのIPU(Intelligence Processing Unit)は、BSP(Bulk Synchronous Parallel)実行モデルを採用しています。
- MK2 GC200:1,472 IPUタイル、各タイルに8,832スレッド
- オンチップメモリ:900MB(SRAM)
- 帯域幅:45TB/s
- 強み:スパース演算に最適化、グラフニューラルネットワークに優秀
IPUは不規則なグラフ構造の計算でGPUを上回り、強化学習やGNNワークロードに優れています。
Groq LPU
Groq LPU(Language Processing Unit)はLLM推論に特化したASICであり、決定論的実行アーキテクチャが特徴です。
- ソフトウェア定義メモリ:実行時の動的メモリ管理なし
- SIMDストリーミング:すべてのメモリアクセスパターンをコンパイル時に決定
- クロックサイクルあたりのスループット:予測可能なレイテンシ
その結果、GroqはLLaMA-3 70Bの推論において毎秒240トークン超を達成しており、GPUより10倍以上高速です。
SambaNova DataScale
SambaNovaのRDU(Reconfigurable Dataflow Unit)はデータフローアーキテクチャを採用しています。
- モデルの重みをすべてオンチップSRAMに格納
- DRAMアクセスを最小化し、メモリボトルネックを排除
- GPT-4クラスのモデル推論をサポート
4. 推論専用チップ
AWS Inferentia 2
AWSが社内設計した独自の推論チップです。Trainiumとともに、AWSのAIハードウェア戦略の中核を担います。
| スペック | Inferentia 1 | Inferentia 2 |
|---|---|---|
| NeuronCore数 | 4 | 2(強化設計) |
| FP16 TFLOPS | 128 | 384 |
| メモリ | 8GB | 32GB HBM |
| メモリ帯域幅 | 50GB/s | 820GB/s |
| NeuronLink帯域幅 | — | 384GB/s |
| 価格(1時間あたり) | inf1.xlarge 約$0.228 | inf2.xlarge 約$0.758 |
Inferentia 2はNeuronSDKを通じてPyTorch、TensorFlow、JAXモデルを透過的にサポートします。
Intel Gaudi 3
Habana Labs(Intelが買収)が設計したIntel Gaudi 3はH100と直接競合します。
| スペック | Gaudi 3 | H100 SXM5 |
|---|---|---|
| BF16 TFLOPS | 1,835 | 1,979 |
| FP8 TOPS | 1,835 | 3,958 |
| HBM容量 | 96GB HBM2e | 80GB HBM3 |
| HBM帯域幅 | 3.7TB/s | 3.35TB/s |
| ネットワーク | 24x 200GbE RoCE | NVLink 4.0 |
| TDP | 900W | 700W |
コスト効率の面では、Gaudi 3はH100より約30%安価なクラウドインスタンスを提供します。
Qualcomm Cloud AI 100
Qualcommのデータセンター推論チップであり、電力効率が強みです。
- AI 100 Ultra:960 TOPS(INT8)、400W
- オンチップメモリ:144MB SRAM
- メモリ帯域幅:3.6TB/s
- サーバーあたり最大8カードをサポート
5. エッジAIチップ
Apple Neural Engine(ANE)
Apple SiliconのNeural EngineはiPhone、iPad、Macデバイスに内蔵された専用AIアクセラレータです。
| チップ | ANE性能 | リリース年 |
|---|---|---|
| A15 Bionic | 15.8 TOPS | 2021 |
| A16 Bionic | 17 TOPS | 2022 |
| A17 Pro | 35 TOPS | 2023 |
| M4 | 38 TOPS | 2024 |
ANEはCoreMLフレームワークからアクセスでき、モデル推論においてCPUより最大10倍の電力効率を実現します。
# Apple CoreMLを使用したエッジAIのデプロイ
import coremltools as ct
import torch
import torchvision
# PyTorchモデルをCoreMLに変換
model = torchvision.models.mobilenet_v3_small(pretrained=True)
model.eval()
# サンプル入力でトレース
example_input = torch.rand(1, 3, 224, 224)
traced_model = torch.jit.trace(model, example_input)
# CoreML変換(Neural Engineをターゲットに)
mlmodel = ct.convert(
traced_model,
inputs=[ct.ImageType(
name="input",
shape=example_input.shape,
color_layout=ct.colorlayout.RGB
)],
compute_units=ct.ComputeUnit.ALL, # ANE + GPU + CPUを自動選択
minimum_deployment_target=ct.target.iOS17,
)
mlmodel.save("mobilenet_v3_small.mlpackage")
print("CoreMLモデルを保存しました - Neural Engine最適化を適用")
Qualcomm Hexagon DSP
Qualcomm Snapdragonに内蔵されたHexagon DSPはスマートフォンのAI処理の中核です。
- Hexagon 698(Snapdragon 8 Gen 3):98 TOPS
- HVX(Hexagon Vector eXtensions):SIMDベクトル演算
- HTA(Hexagon Tensor Accelerator):Transformer専用アクセラレーション
TensorFlow/PyTorchモデルはQualcomm Neural Processing SDK(SNPE)経由でHexagonにデプロイできます。
Raspberry Pi 5 AI HAT
Raspberry Pi AI HAT+はHailo-8Lチップを搭載したエッジAIアクセラレータです。
- Hailo-8L:13 TOPS
- M.2インターフェース経由でRPi 5に接続
- 価格:約70ドル
- ユースケース:リアルタイム映像解析、物体検出
6. メモリ技術:HBM3e vs GDDR7
HBM(High Bandwidth Memory)アーキテクチャ
HBMはDRAMダイを垂直にスタック(3D積層)し、シリコンインターポーザーを通じてGPUに接続するメモリ技術です。
| メモリ | 帯域幅 | 容量 | 消費電力 | ピン数 | 主な用途 |
|---|---|---|---|---|---|
| HBM2e | 3.2TB/s | 最大80GB | 約460W | 1,024 | A100 |
| HBM3 | 3.35TB/s | 最大80GB | 約700W | 1,024 | H100 |
| HBM3e | 4.8TB/s | 最大141GB | 約700W | 1,024 | H200、MI300X |
| GDDR6X | 576GB/s | 最大24GB | 低 | 384 | RTX 4090 |
| GDDR7 | 960GB/s | 最大32GB | 低 | 512 | RTX 5090 |
AI学習においてHBMが優れている主な理由は3つあります。
- 帯域幅:GDDR7より5倍以上高いメモリ帯域幅が、大バッチ学習時のメモリボトルネックを直接解消します。
- 容量:1枚のGPUあたり80〜141GBにより、70BパラメータモデルをシングルGPUで推論できます。
- エネルギー効率:GDDRよりもバイトあたりの消費電力が低く、TCOが改善されます。
ニアメモリコンピューティング
ニアメモリコンピューティング(Processing-in-Memory、PIMとも呼ばれる)は、演算ユニットをメモリ内部に配置する技術です。Samsung HBM-PIMとSK Hynix AiM(Accelerator in Memory)が代表例です。
- メモリと演算ユニット間のデータ移動を最小化
- メモリ帯域幅ボトルネックを根本的に解消
- 推論時のメモリバウンド演算に特に効果的
CXL(Compute Express Link)
CXLはPCIe物理層上でCPU、アクセラレータ、メモリ拡張デバイスを接続する次世代インターコネクト標準です。
- CXL 1.1:Type 1(アクセラレータ)、Type 2(アクセラレータ+メモリ)、Type 3(メモリ拡張)
- CXL 2.0:スイッチングによるマルチホスト共有
- CXL 3.0:P2P通信、ファブリックサポート
AIサーバーにおいてCXL Type 3メモリ拡張を使用してGPUのVRAM不足を解消しようとする試みが増えています。
7. ハードウェア選定ガイド
学習 vs 推論
ワークロードの種類によって最適なハードウェアは異なります。
大規模学習(事前学習)
- 最適:H100 SXM5(NVLink必須)、TPU v4 Pod
- 理由:高いMFU(Model FLOP Utilization)、NVLink/ICIによる高速なCollective通信
- バッチサイズ:可能な限り大きく(数百万トークンのグローバルバッチ)
ファインチューニング
- 最適:H100/A100、AMD MI300X、Gaudi 3
- 理由:中規模GPUクラスター、コスト効率
- バッチサイズ:中規模(512〜4,096トークン)
大規模推論(サービング、高スループット)
- 最適:H100、Inferentia 2、Gaudi 3
- 理由:大容量KVキャッシュ、高スループット
- バッチサイズ:動的(継続的バッチング)
低レイテンシ推論(レイテンシ重視)
- 最適:Groq LPU、Cerebras CS-3
- 理由:決定論的実行、メモリボトルネックなし
- バッチサイズ:小(1〜8)
モデルサイズ別VRAMの必要量(推論)
| モデルサイズ | パラメータ数 | FP16 VRAM | 最小GPU(BF16) |
|---|---|---|---|
| Small | 7B | 14GB | 1x A10G(24GB) |
| Medium | 13B | 26GB | 1x A100(40GB) |
| Large | 34B | 68GB | 2x A100(80GB) |
| XL | 70B | 140GB | 2x H100(80GB) |
| XXL | 405B | 810GB | 10x H100(80GB) |
PyTorchのデバイス選定とベンチマーク
# PyTorchのデバイス選定とベンチマーク
import torch
import time
def benchmark_matmul(device_name: str, size: int = 4096, dtype=torch.float16):
"""行列乗算ベンチマーク"""
device = torch.device(device_name)
a = torch.randn(size, size, dtype=dtype, device=device)
b = torch.randn(size, size, dtype=dtype, device=device)
# ウォームアップ
for _ in range(5):
_ = torch.matmul(a, b)
if device.type == 'cuda':
torch.cuda.synchronize()
start = time.perf_counter()
for _ in range(100):
c = torch.matmul(a, b)
if device.type == 'cuda':
torch.cuda.synchronize()
elapsed = time.perf_counter() - start
ops = 2 * size ** 3 * 100 # FLOPs
tflops = ops / elapsed / 1e12
print(f"{device_name} ({dtype}): {tflops:.2f} TFLOPS ({elapsed*1000/100:.2f} ms/iter)")
# 利用可能なデバイスを自動選択
if torch.cuda.is_available():
benchmark_matmul("cuda:0", dtype=torch.float16)
benchmark_matmul("cuda:0", dtype=torch.bfloat16)
if hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
benchmark_matmul("mps", dtype=torch.float16)
benchmark_matmul("cpu", dtype=torch.float32)
torch.compileによるハードウェア最適化
# torch.compileを使ったハードウェア最適化
import torch
import torch.nn as nn
class TransformerBlock(nn.Module):
def __init__(self, d_model=1024, nhead=16):
super().__init__()
self.attn = nn.MultiheadAttention(d_model, nhead, batch_first=True)
self.ff = nn.Sequential(
nn.Linear(d_model, d_model * 4),
nn.GELU(),
nn.Linear(d_model * 4, d_model),
)
self.norm1 = nn.LayerNorm(d_model)
self.norm2 = nn.LayerNorm(d_model)
def forward(self, x):
attn_out, _ = self.attn(x, x, x)
x = self.norm1(x + attn_out)
x = self.norm2(x + self.ff(x))
return x
model = TransformerBlock().cuda().to(torch.bfloat16)
# torch.compile: Tritonカーネルによる自動最適化
# H100上でHopper専用のFlashAttentionを活用
compiled_model = torch.compile(model, mode="max-autotune")
x = torch.randn(8, 512, 1024, dtype=torch.bfloat16, device="cuda")
# 初回実行時にコンパイルが発生(数秒かかる)
with torch.autocast("cuda", dtype=torch.bfloat16):
out = compiled_model(x)
print(f"Output shape: {out.shape}")
コスト効率分析(クラウド時間単価、2025年)
| インスタンス | GPU | 時間単価 | TFLOPS(BF16) | $/TFLOP |
|---|---|---|---|---|
| p4d.24xlarge | 8x A100 40GB | $32.77 | 8 x 312 = 2,496 | $13.1 |
| p4de.24xlarge | 8x A100 80GB | $40.96 | 8 x 312 = 2,496 | $16.4 |
| p5.48xlarge | 8x H100 80GB | $98.32 | 8 x 1,979 = 15,832 | $6.2 |
| trn1.32xlarge | 16x Trainium | $21.50 | 16 x 420 = 6,720 | $3.2 |
| inf2.48xlarge | 12x Inferentia2 | $12.98 | 12 x 384 = 4,608 | $2.8 |
| g6.48xlarge | 8x L40S 48GB | $16.29 | 8 x 733 = 5,864 | $2.8 |
推論ワークロードでは、Inferentia 2とTrainiumが最もコスト効率に優れています。
8. 総合ハードウェア比較
| アクセラレータ | タイプ | BF16 TFLOPS | メモリ | 帯域幅 | TDP | 主な用途 |
|---|---|---|---|---|---|---|
| H100 SXM5 | GPU | 1,979 | 80GB HBM3 | 3.35TB/s | 700W | 学習/推論 |
| H200 SXM5 | GPU | 1,979 | 141GB HBM3e | 4.8TB/s | 700W | 大規模モデル推論 |
| A100 SXM4 | GPU | 312 | 80GB HBM2e | 2.0TB/s | 400W | 汎用 |
| AMD MI300X | GPU | 1,307 | 192GB HBM3 | 5.3TB/s | 750W | 大規模モデル |
| TPU v5e | ASIC | 197(INT8: 394) | 16GB HBM | 1.6TB/s | 90W | 大規模推論 |
| Cerebras WSE-3 | ASIC | 125,000 | 44GB SRAM | 21PB/s | 23kW/システム | 超大規模学習 |
| Groq LPU | ASIC | 750 | 230MB SRAM | 80TB/s | 300W | 低レイテンシ推論 |
| Gaudi 3 | ASIC | 1,835 | 96GB HBM2e | 3.7TB/s | 900W | コスト効率の高い学習 |
| Inferentia 2 | ASIC | 384 | 32GB HBM | 820GB/s | 75W | クラウド推論 |
| Apple M4 ANE | エッジ | 38 TOPS | 共有 | 共有 | 約10W | デバイス上推論 |
| Hailo-8L | エッジ | 13 TOPS | — | — | 1W | 組み込み |
クイズ
Q1. NVIDIA H100のTransformer EngineはFP8学習時にどのように精度を維持しますか?
答え:Dynamic Scalingと混合精度アキュムレーションの組み合わせ
解説:Transformer Engineは各レイヤーのアクティベーションと重みの統計情報(最大値)を追跡します。ここからFP8量子化のための最適なスケールファクターを算出します。フォワードパスはFP8で実行されますが、勾配アキュムレーションはBF16/FP32で維持されます。またエンジンはレイヤーごとの数値範囲を監視し、オーバーフローやアンダーフローが検出された場合は自動的に再スケーリングします。このDelayed Scalingメカニズムにより、FP8の速度上の利点を享受しながら、BF16に近い学習の安定性が確保されます。
Q2. Google TPUのシストリックアレイはどのように行列乗算を並列化していますか?
答え:パイプライン式のMAC演算アレイによるデータ再利用
解説:シストリックアレイはNxN個のMAC(乗算累積)ユニットをグリッド状に配置した構造です。行列Aの行データが左から右に流れ、行列Bの列データが上から下に流れます。各セルは通過する2つの値を乗算し、前のセルからの累積値に加算します。データが波のように(シストリックに)流れるため、各データ要素はアレイ内の関連するすべてのセルに再利用されます。TPU v4の128x128 MXUは1クロックサイクルあたり128x128=16,384回のMAC演算を実行し、すべてメモリアクセスなしにオンチップで処理されます。
Q3. AI学習においてHBMがGDDRより優れている理由は何ですか(帯域幅と容量)?
答え:HBMは帯域幅と容量の両面で優位性を持ちます
解説:帯域幅の面では、HBM3e(H200)は4.8TB/s、GDDR7(RTX 5090)は960GB/sで約5倍の差があります。AI学習にはメモリバウンドな演算が多く、この差がパフォーマンスに直結します。容量の面では、H200の141GB HBM3eはRTX 5090の32GB GDDR7の4倍以上であり、70Bパラメータモデルをシングル GPU で処理できます。構造的にはHBMがDRAMダイを垂直に積層し、何千もの広いバスでGPUに接続することで、高帯域幅とエネルギー効率を同時に実現しています。
Q4. Cerebras WSE-3のウェーハスケール統合はどのようにチップ間通信ボトルネックを排除しますか?
答え:単一ウェーハ上のオンチップファブリックですべてのコアを接続
解説:従来のGPUクラスターでは、数百のチップがNVLink、InfiniBandなどのネットワークで接続されています。このチップ間通信はマイクロ秒単位のレイテンシを持ち、帯域幅にも限界があります。WSE-3の900,000個のAIコアはすべて単一のウェーハ上に存在するため、すべてのコア間通信はオンチップファブリックを通じます。オンチップファブリックのレイテンシはナノ秒単位で、帯域幅は220Pb/sに達します。また44GBのSRAMがコア近くに分散配置されており、メモリアクセスレイテンシを最小化します。これにより、大規模モデル学習ではほぼ通信オーバーヘッドなしに線形に近いスケーリングが可能です。
Q5. Groq LPUはどのようなアーキテクチャ上の選択によりLLM推論でGPUより低レイテンシを実現していますか?
答え:コンパイル時の決定論的メモリスケジューリング
解説:GPUでLLM推論のレイテンシが高い主な原因は、不規則なメモリアクセスパターンと実行時の動的スケジューリングにあります。Groq LPUはコンパイル時にすべてのテンソルのメモリ位置と移動経路を静的に決定します。実行中はメモリの確保・解放やスケジューラのオーバーヘッドが発生しません。SRAMベースのメモリアーキテクチャにより、DRAMの不規則なアクセスレイテンシも排除されます。すべての演算が事前に決まったクロックサイクルで実行されるため、レイテンシは完全に予測可能です。この決定論的実行により、GroqはLLaMA-3 70Bで毎秒240トークン超のスループットと非常に低いTTFT(Time-to-First-Token)レイテンシを実現しています。
まとめ
AIハードウェアアクセラレータ市場は2024年から2026年にかけて急速に多様化しています。NVIDIA H100/H200は学習ワークロードのゴールドスタンダードであり続けていますが、特定のユースケースでは専用アクセラレータが優位性を示しています。
主要な選定原則は以下のとおりです。
- 学習:帯域幅とNVLinkが重要 — H100 SXM5、TPU v4 Pod
- 高スループット推論:コスト効率が重要 — Inferentia 2、Gaudi 3、TPU v5e
- 低レイテンシ推論:決定論的実行 — Groq LPU
- エッジデプロイ:電力効率 — Apple ANE、Qualcomm Hexagon
- 超大規模学習:チップ間ボトルネックなし — Cerebras WSE-3
ハードウェアの選定は最終的にはワークロードの特性、予算、エコシステムの成熟度のバランスです。NVIDIAエコシステムの成熟度は依然として強力な優位性ですが、特定のワークロードでは専用ASICの方がはるかに経済的です。