- Authors

- Name
- Youngju Kim
- @fjvbn20031
はじめに
GPUはAIと深層学習の爆発的な成長を支える中心的な存在です。GPT-4、Llama 3、GeminiのようなLLMのトレーニングには、数千台のGPUを数週間から数ヶ月間稼働させる必要があります。なぜGPUがAIにとってそれほど重要なのか?どのGPUを選べばいいのか?
このガイドでは、AIエンジニア、研究者、ML実践者向けに、アーキテクチャの基礎から最新のBlackwell GPU、クラウドサービスの比較、そして実践的な選定ガイダンスまで、GPUハードウェアについてすべてを解説します。
1. GPUとCPU:AIトレーニングにGPUが必要な理由
並列コンピューティング:AIの本質
深層学習のコア演算は行列乗算です。ニューラルネットワークの順伝播と逆伝播は、何十億もの乗算と加算で構成されています。これらの演算は互いに独立しているため、並列化に最適です。
CPUは高性能なシリアル処理のために最適化されています。一般的なサーバーCPUは64〜128コアを持ち、それぞれが複雑な制御ロジック、大きなキャッシュ、分岐予測を備えています。これはシーケンシャルなタスク、複雑な条件分岐、OSの管理に優れています。
一方GPUは、数千から数万の小さなコアを詰め込み、SIMD(Single Instruction, Multiple Data)方式で同じ演算を同時に実行します。NVIDIA H100には驚異的な16,896個のCUDAコアがあります。行列乗算のような同じ演算を繰り返すワークロードでは、GPUはCPUの何百倍ものスループットを発揮できます。
FLOPS:計算性能の指標
深層学習の性能議論で最もよく使われる単位はFLOPS(Floating Point Operations Per Second)です。
- TFLOPS(テラフロップス):毎秒1兆回の浮動小数点演算
- PFLOPS(ペタフロップス):毎秒1000兆回の浮動小数点演算
最新のAIワークロードは主にこれらの精度を使用します:
- FP32(単精度浮動小数点数):トレーニング中のマスター重みの保存
- FP16(半精度浮動小数点数):混合精度トレーニング
- BF16(Brain Float 16):FP16より安定したトレーニング
- TF32(TensorFloat-32):NVIDIA A100以降でサポート
- FP8:HopperとBlackwellでサポート;推論とトレーニングの両方に使用
- FP4:Blackwellの新機能;超高密度推論
NVIDIA H100のFP16テンソルコア性能は驚異の989TFLOPSに達します — 約1 PFLOPSです。
メモリ帯域幅:真のボトルネック
多くのAIワークロードは計算ではなく、メモリ帯域幅によって制限されます — これをメモリバウンドと呼びます。
LLM(大規模言語モデル)推論を例に挙げると:トークンを生成するたびに、モデルの重み全体をメモリから読み出す必要があります。FP16のLlama 3 70Bモデルは約140GBのメモリを占有します。1秒間に数十トークンを生成するには、毎秒テラバイト単位のメモリ読み出しが必要です。
最新GPUのメモリ帯域幅:
- NVIDIA A100 SXM:2,000 GB/s
- NVIDIA H100 SXM:3,350 GB/s
- NVIDIA H200 SXM:4,800 GB/s
- NVIDIA B200:8,000 GB/s(予定)
このためHBM(高帯域幅メモリ)がデータセンターGPUに採用されています。HBMは従来のGDDRメモリよりはるかに高い帯域幅を提供します。
2. NVIDIA GPUアーキテクチャの歴史
Pascalアーキテクチャ(2016年):AIルネサンスの始まり
エンジニアのBlaise Pascalにちなんで命名されたPascalアーキテクチャは2016年に登場しました。GTX 1080(コンシューマー)とP100(データセンター)がこのアーキテクチャを採用しました。
P100の主要スペック:
- CUDAコア:3,584
- FP32性能:9.3 TFLOPS
- FP16性能:18.7 TFLOPS
- メモリ:16GB HBM2、720 GB/s
P100はHBM2メモリを採用した最初のデータセンターGPUでした。この時代にNVLink 1.0も導入されました。AlphaGoがイ・セドルに勝利した頃、AIブームが本格的に始まりました。
Voltaアーキテクチャ(2017年):テンソルコアの登場
VoltaアーキテクチャはGPU史における転換点を画します。2017年にリリースされたV100は、テンソルコアを世界に初めて紹介しました。テンソルコアは行列乗算を高速化する専用ハードウェアユニットです。
V100の主要スペック:
- CUDAコア:5,120
- 第1世代テンソルコア:640
- FP32性能:14 TFLOPS
- FP16テンソルコア性能:112 TFLOPS(8倍向上!)
- メモリ:32GB HBM2、900 GB/s
- NVLink 2.0:300 GB/s
1つのテンソルコアは、1サイクルで4x4行列積累算(D = A*B + C)を実行します。これによりFP16性能がFP32の8倍となり、深層学習トレーニングの速度を革命的に向上させました。
Turingアーキテクチャ(2018年):RTコアとDLSS
Turingアーキテクチャはコンシューマー向けRTXシリーズで有名です。RTコア(専用レイトレーシングユニット)とDLSS(AI画像アップスケーリング)がここで登場しました。
RTX 2080 Tiの主要スペック:
- CUDAコア:4,352
- テンソルコア:544(第2世代)
- FP32性能:13.4 TFLOPS
- FP16テンソルコア:107 TFLOPS
- メモリ:11GB GDDR6、616 GB/s
AIの観点からは、TuringのINT8量子化推論のサポートが重要でした。推論サーバーでモデルをINT8に量子化することで、FP16と比較して2倍高速な推論を実現しました。
Ampereアーキテクチャ(2020年):A100と第3世代テンソルコア
Ampereアーキテクチャはパラダイムを再び変えました。A100は今日でも多くのデータセンターで主力GPUとして活躍しています。
A100 SXM4 80GBの主要スペック:
- CUDAコア:6,912
- 第3世代テンソルコア:432
- FP32性能:19.5 TFLOPS
- FP16テンソルコア:312 TFLOPS
- TF32テンソルコア:156 TFLOPS
- BF16テンソルコア:312 TFLOPS
- INT8テンソルコア:624 TOPS
- メモリ:80GB HBM2e、2,000 GB/s
- NVLink 3.0:600 GB/s
Ampereの主要な革新:
TF32(TensorFloat-32):FP32とFP16のハイブリッド。指数ビットはFP32と一致(8ビット);仮数部はFP16と一致(10ビット)。既存のFP32コードを変更せずにテンソルコアの速度を活用でき、数値的安定性と速度のバランスを取ります。
スパース性サポート:A100はハードウェアで2:4構造的スパース性をサポートします。モデルパラメータの50%をゼロにする(プルーニング)ことで、テンソルコアがこれを活用して追加で2倍の性能向上を実現。INT8では理論上1,248 TOPSに達します。
マルチインスタンスGPU(MIG):A100を最大7つの独立したGPUインスタンスに分割できます。推論サーバーで複数の小さなモデルを分離した環境で実行するのに便利です。
Hopperアーキテクチャ(2022年):トランスフォーマーエンジン
Hopperアーキテクチャはトランスフォーマーモデルに特化した革新をもたらしました。H100は現在最も広く展開されているトップクラスのAIトレーニングGPUです。
H100 SXM5 80GBの主要スペック:
- CUDAコア:16,896
- 第4世代テンソルコア:528
- FP32性能:60 TFLOPS
- FP16/BF16テンソルコア:989 TFLOPS(約1 PFLOPS!)
- FP8テンソルコア:1,979 TFLOPS(約2 PFLOPS)
- メモリ:80GB HBM3、3,350 GB/s
- NVLink 4.0:900 GB/s
- TDP:700W
Hopperの主要な革新:
トランスフォーマーエンジン:トランスフォーマーモデルのアテンションレイヤーとMLPレイヤーのハードウェアレベル最適化。レイヤーごとにFP8とFP16を自動的に切り替え。リリース時にA100比最大9倍のAI性能。
FP8サポート:E4M3とE5M2のFP8フォーマットをサポート。FP16比でテンソルコアの性能が2倍。メモリ使用量が半分。
スレッドブロッククラスター:SM(ストリーミングマルチプロセッサ)が共有メモリのように互いに通信できます。分散共有メモリが可能になります。
NVLink 4.0:900 GB/s、前世代比1.5倍の改善。最大8GPUのフルメッシュ接続。
H200 SXM 141GBの主要スペック:
- 計算性能:H100と同じ
- メモリ:141GB HBM3e(H100より76%多い)
- 帯域幅:4,800 GB/s(H100より43%多い)
- LLM推論スループット最大2倍
- 単一GPUで大規模モデル(70B以上のLLM)を搭載可能
Blackwellアーキテクチャ(2024年):次世代AI加速
2024年に発表されたBlackwellアーキテクチャはNVIDIAの最新です。
B200 SXMの主要スペック:
- 計算性能:20 PFLOPS(FP4)
- FP8性能:9 PFLOPS
- メモリ:192GB HBM3e、8,000 GB/s
- NVLink 5.0:1,800 GB/s
Blackwellの主要な革新:
FP4サポート:4ビット浮動小数点数のサポートにより超高密度推論が可能 — FP8比で2倍以上のスループット。
第2世代トランスフォーマーエンジン:FP4とFP6を含む新しい精度フォーマットを自動管理。
NVLink 5.0:1,800 GB/s、前世代比2倍の改善。
GB200 NVL72:36個のGrace CPUと72個のB200 GPUを単一のラックスケールシステムに統合。全GPUがNVLinkで接続され、一つの巨大なGPUとして機能。1.4 ExaFLOPS(FP4)を達成。
3. テンソルコアの詳細
CUDAコアとテンソルコア
CUDAコアは汎用の浮動小数点実行ユニットです。クロックサイクルごとに1つのFP32 FMA(Fused Multiply-Add)演算を処理します。
テンソルコアは専用の行列乗算ユニットです。第1世代テンソルコアは1クロックサイクルで4x4 FP16行列積累算(D = A * B + C)を実行します。これはFP16乗算64回とFP16加算64回、つまり1サイクルあたり128回のFP16演算に相当します。
世代別テンソルコアの進化:
| 世代 | アーキテクチャ | サポート精度 | 行列サイズ | 注記 |
|---|---|---|---|---|
| 第1世代 | Volta | FP16 | 4x4 | 最初のテンソルコア |
| 第2世代 | Turing | FP16, INT8, INT4 | - | INTサポート追加 |
| 第3世代 | Ampere | FP16, BF16, TF32, INT8, INT4 | - | TF32、スパース性 |
| 第4世代 | Hopper | FP16, BF16, TF32, FP8, INT8 | - | FP8、トランスフォーマーエンジン |
| 第5世代 | Blackwell | FP16, BF16, TF32, FP8, FP4 | - | FP4サポート |
WMMA(Warp Matrix Multiply-Accumulate)
CUDAプログラミングでテンソルコアを直接使用するには、WMMA APIを使います:
#include <mma.h>
using namespace nvcuda::wmma;
// 16x16x16 FP16行列乗算
fragment<matrix_a, 16, 16, 16, half, row_major> a_frag;
fragment<matrix_b, 16, 16, 16, half, col_major> b_frag;
fragment<accumulator, 16, 16, 16, float> c_frag;
fill_fragment(c_frag, 0.0f);
// 行列のロード
load_matrix_sync(a_frag, a_ptr, 16);
load_matrix_sync(b_frag, b_ptr, 16);
// テンソルコア乗算の実行
mma_sync(c_frag, a_frag, b_frag, c_frag);
// 結果の保存
store_matrix_sync(c_ptr, c_frag, 16, mem_row_major);
実際には、cuBLASとPyTorchがこれを自動的に処理します。
混合精度トレーニング
混合精度トレーニングはFP32マスター重みを維持しながら、順伝播と逆伝播をFP16またはBF16で行います。
# PyTorch AMP(自動混合精度)
from torch.cuda.amp import autocast, GradScaler
scaler = GradScaler()
for batch in dataloader:
with autocast(dtype=torch.bfloat16):
output = model(batch)
loss = criterion(output, target)
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()
BF16はFP16よりトレーニングで安定しています。FP16の5ビット指数部は狭い範囲しか表現できずオーバーフローの可能性がある一方、BF16の8ビット指数部(FP32と同じ)ははるかに広い範囲を表現できます。
スパース性サポート
A100以降でサポートされる2:4構造的スパース性は、パラメータを4つのグループに分けてそのうち正確に2つをゼロに設定します。
# PyTorch スパーステンソルコア
from torch.nn.utils import prune
# 2:4構造的プルーニングの適用
prune.ln_structured(model.layer, name='weight', amount=0.5, n=2, dim=0)
50%プルーニング後、同じモデルが推論で理論上2倍高速に動作します。
4. GPUメモリ階層
GDDRとHBM:ゲームチェンジャー
GDDR6(Graphics DDR6):コンシューマーGPUに使用。パッケージ外側に別々のチップとして実装。RTX 4090:24GB GDDR6X、1,008 GB/s。
HBM2e(High Bandwidth Memory 2e):データセンターGPUに使用。2.5Dパッケージングでシリコンインターポーザーを介してGPUダイの隣に積層。A100:80GB HBM2e、2,000 GB/s。
HBM3:H100に搭載。80GB、3,350 GB/s。
HBM3e:H200に搭載。141GB、4,800 GB/s。B200にも搭載:192GB、8,000 GB/s。
HBMが速い理由は?HBMは複数層のDRAMダイを縦に積層し、シリコン貫通ビア(TSV)数千本で接続しています。GPUダイとHBMスタックが同じシリコンインターポーザー上に並んで設置され、極めて短い距離で超広帯域幅を実現します。
メモリ階層の構造
レジスタ(レジスタファイル)
└── 最高速;スレッドあたり数十〜数百個
L1キャッシュ / 共有メモリ
└── SM(ストリーミングマルチプロセッサ)内で共有
└── H100:SMあたり228KB
L2キャッシュ
└── 全SM共有
└── H100:50MB
HBM(メインメモリ)
└── 全SMからアクセス可能
└── H100:80GB
カーネル最適化の鍵は、遅いHBMアクセスを最小限にするためにデータを可能な限り共有メモリに保持することです。フラッシュアテンションはこの原則をアテンション計算に適用した典型例です。
ECCメモリ
ECC(Error-Correcting Code)メモリはビットエラーを検出・訂正します。データセンターGPU(A100、H100など)はECCをサポートします。コンシューマーGPU(RTX 4090)はサポートしません。
長時間のトレーニング実行中のメモリエラーはトレーニングの発散やNaN値を引き起こす可能性があります。重要なトレーニングジョブにはECC対応GPUを推奨します。ECCを有効化すると使用可能なメモリ容量が約6.25%減少します。
5. マルチGPU接続:NVLinkとNVSwitch
PCIeのボトルネック
標準的なPCIe 4.0 x16スロットは最大32 GB/sの帯域幅(双方向64 GB/s)を提供します。マルチGPUトレーニングでは、このインターフェースを通じた勾配同期がボトルネックになります。
4GPUでのAll-Reduceを考えてみましょう:各GPUは他の3つのGPUと勾配を交換する必要があります。10Bパラメータモデルは約40GBのFP32勾配を持ちます。これをPCIe経由で交換すると数十秒かかる可能性があります。
NVLinkの進化
| バージョン | アーキテクチャ | 単方向BW | 双方向BW |
|---|---|---|---|
| 1.0 | Pascal | 20 GB/s | 40 GB/s |
| 2.0 | Volta | 25 GB/s | 50 GB/s |
| 3.0 | Ampere | 25 GB/s | 50 GB/s(合計600 GB/s) |
| 4.0 | Hopper | 50 GB/s | 900 GB/s |
| 5.0 | Blackwell | 100 GB/s | 1,800 GB/s |
NVLink 4.0はGPUペア間で最大900 GB/sの双方向帯域幅を提供します — PCIe 4.0 x16の14倍以上速い。
NVSwitch:全対全接続
NVLinkはGPUのペアを直接接続しますが、8台以上のGPUを接続するにはNVSwitchが必要です — 専用GPUインターコネクトスイッチチップで、接続された全GPUが完全なNVLink帯域幅で直接通信できます。
DGX H100システム構成:
- 8台のH100 SXM5 GPU
- 4台のNVSwitch 4.0
- 全GPUペアが900 GB/sで直接接続
- NVLink All-to-All総帯域幅:7.2 TB/s
DGX A100とDGX H100の比較
DGX A100:
- GPU:8台のA100 80GB
- NVLink総帯域幅:4.8 TB/s
- GPUメモリ:640GB
- AI性能:5 PFLOPS(FP16)
DGX H100:
- GPU:8台のH100 80GB
- NVLink総帯域幅:7.2 TB/s
- GPUメモリ:640GB
- AI性能:32 PFLOPS(FP8)
- DGX A100比で約6.4倍の性能
InfiniBand:ノード間接続
NVLinkはノード内接続を担い、InfiniBand(IB)ネットワークが複数のサーバーノードを接続します。NVIDIA ConnectX-7 NICとInfiniBand NDR(400 Gb/s)がサーバー間通信のレイテンシを最小化します。
大規模LLMトレーニングには数千のGPUを接続する必要があります。MetaのLlama 3トレーニングは、巨大なInfiniBandファブリックで相互接続された16,000台のH100を使用しました。
6. AI GPU詳細比較
NVIDIA A100(80GB HBM2e)
2020年リリース。多くのAIワークロードの標準として今でも活躍しています。FP16 312 TFLOPS、BF16 312 TFLOPS、TF32 156 TFLOPSを提供します。
SXM4フォームファクターはNVLink 3.0で最大8GPU接続をサポート;PCIe 4.0バージョンも存在します。MIG(マルチインスタンスGPU)はA100を最大7つの独立したインスタンスに分割できます。
クラウド時間単価の目安:AWS p4d.24xlarge(8台のA100)で約32.77ドル/時間。
NVIDIA H100(80GB HBM3)
2022年リリース。現在最も広く展開されているハイエンドAIトレーニングGPU。
SXM5バージョン:
- FP16/BF16テンソルコア:989 TFLOPS
- FP8テンソルコア:1,979 TFLOPS
- メモリ:80GB HBM3、3,350 GB/s
- TDP:700W
- NVLink 4.0:900 GB/s
PCIeバージョン:
- FP16/BF16テンソルコア:756 TFLOPS
- メモリ:80GB HBM3、2,000 GB/s
- TDP:350W
H100とA100の比較:
- テンソルコア性能:3.2倍(FP16)
- FP8対INT8:6倍
- メモリ帯域幅:1.7倍(HBM3)
- NVLink帯域幅:1.5倍
クラウド時間単価の目安:AWS p5.48xlarge(8台のH100)で約98.32ドル/時間。
NVIDIA H200(141GB HBM3e)
メモリを強化したH100。計算性能はH100と同一ですが、メモリ容量と帯域幅が大幅に向上しています。
- メモリ:141GB HBM3e(H100より76%多い)
- 帯域幅:4,800 GB/s(H100より43%多い)
- LLM推論でH100比最大2倍のスループット
- 単一GPUで大規模モデル(70B以上のLLM)を搭載可能
NVIDIA B100 / B200(Blackwell)
2024年発表。まだ初期展開段階。
B200 SXM:
- FP4テンソルコア:20 PFLOPS
- FP8テンソルコア:9 PFLOPS
- FP16/BF16テンソルコア:4.5 PFLOPS
- メモリ:192GB HBM3e、8,000 GB/s
- TDP:1,000W
B200とH100の比較:
- FP8性能:4.5倍
- メモリ:2.4倍
- 帯域幅:2.4倍
NVIDIA GB200 NVL72(ラックスケールAI)
GB200はGrace CPU(ARMベース)とB200 GPUを単一のスーパーチップパッケージに統合します。GB200 NVL72は36個のGrace CPUと72個のB200 GPUを単一のラックシステムに統合します。
GB200 NVL72のスペック:
- GPU:72台のB200
- CPU:36台のGrace Hopperスーパーチップ
- GPUメモリ:13.8TB HBM3e
- NVLink 5.0 All-to-All接続
- AI性能:1.4 ExaFLOPS(FP4)、720 PFLOPS(FP8)
- 総消費電力:120kW
これは実質的に一つの巨大なGPUとして動作します。1台のラックでLlama 3 405Bのような大規模モデルを高スループットで処理できます。
GeForce RTX 4090(コンシューマー)
AIスタートアップや個人研究者向けの最良のコンシューマーグレードGPU。
- CUDAコア:16,384
- FP32性能:82.6 TFLOPS
- FP16テンソルコア:約330 TFLOPS(目安)
- メモリ:24GB GDDR6X、1,008 GB/s
- TDP:450W
- 価格:約159,900円(MSRP)
H100 SXMとの比較:
- テンソルコア:約1/3の性能
- メモリ:24GB対80GB
- 帯域幅:1,008対3,350 GB/s
- ECC:非対応
- NVLink:非対応(PCIeのみ)
- 価格:約1/20(H100は300万円以上)
AMD MI300X
AMDのデータセンターAI GPU。
- コンピュートユニット(CU):304
- FP16性能:1,307 TFLOPS
- BF16性能:1,307 TFLOPS
- FP8性能:2,614 TOPS
- メモリ:192GB HBM3、5,300 GB/s
- TDP:750W
MI300XはH100に対してメモリ容量(192GB対80GB)と帯域幅(5,300対3,350 GB/s)で大きな優位性を持ちます。特にLLM推論で優れています。
GPU性能比較表
| GPU | FP16 TFLOPS | メモリ | 帯域幅 | TDP | 年 |
|---|---|---|---|---|---|
| A100 SXM | 312 | 80GB HBM2e | 2,000 GB/s | 400W | 2020 |
| RTX 4090 | ~330 | 24GB GDDR6X | 1,008 GB/s | 450W | 2022 |
| H100 SXM | 989 | 80GB HBM3 | 3,350 GB/s | 700W | 2022 |
| MI300X | 1,307 | 192GB HBM3 | 5,300 GB/s | 750W | 2023 |
| H200 SXM | 989 | 141GB HBM3e | 4,800 GB/s | 700W | 2024 |
| B200 SXM | 4,500 | 192GB HBM3e | 8,000 GB/s | 1,000W | 2024 |
7. AI向けAMD GPU
ROCmエコシステム
AMDのAIソフトウェアスタックはROCm(Radeon Open Compute)— CUDAと互換性のあるオープンソースプラットフォームです。PyTorchやTensorFlowなどの主要フレームワークとの互換性は近年大幅に向上しています。
ROCmのCUDA相当コンポーネント:
- HIP(Heterogeneous-compute Interface for Portability):CUDA C++相当
- rocBLAS:cuBLAS相当(行列演算)
- MIOpen:cuDNN相当(深層学習プリミティブ)
- rccl:NCCL相当(GPU通信)
ROCmサポート付きPyTorchのインストール:
# ROCmサポート付きPyTorchのインストール
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0
MI300Xの主要特徴
MI300XはAMDの現在のフラッグシップAI GPUです。CDNA 3アーキテクチャを採用し、GPUダイとHBMスタックを3Dに統合した高度なパッケージング(MCM:マルチチップモジュール)を使用しています。
MI300Xの192GB HBM3と5,300 GB/sの帯域幅により、一部のLLM推論シナリオでH100を凌ぐ性能を発揮できます — 特にメモリバウンドなワークロード(大バッチ、長シーケンス)で。
Microsoft Azure、Oracle CloudなどがすでにMI300Xインスタンスを提供し始めています。MetaやMicrosoftを含む大手テクノロジー企業がAMD GPUを積極的に採用しています。
AMDとNVIDIAのソフトウェアエコシステム
正直に言えば、NVIDIA CUDAのソフトウェアエコシステムは今日のAIでまだ圧倒的に成熟しています。
- NVIDIA専用ライブラリ:cuDNN、cuBLAS、TensorRT、NCCL、NVTXなど
- FlashAttentionは元々CUDA専用でした(後にROCmポートが登場)
- 多くの研究コードがCUDAを前提としています
- ROCmは急速に差を縮めていますが、まだ完全な互換性はありません
本番環境でAMD GPUを選択すると、ソフトウェア互換性の問題に対処するための追加エンジニアリング時間が必要になる可能性があります。
8. クラウドGPUサービスの比較
AWS GPUインスタンス
p3シリーズ(V100):
- p3.2xlarge:1台のV100、3.06ドル/時間
- p3.16xlarge:8台のV100、24.48ドル/時間
p4dシリーズ(A100):
- p4d.24xlarge:8台のA100、320GB HBM2、32.77ドル/時間
p5シリーズ(H100):
- p5.48xlarge:8台のH100、640GB HBM3、98.32ドル/時間
AWS Trainium(Trn1):
- AWS独自のAIトレーニングチップ(Trainium 2)
- Trn1.32xlarge:16台のTrainium、21.50ドル/時間
- LLMトレーニングでH100比優れたコストパフォーマンス
AWS Inferentia(Inf2):
- 推論専用チップ
- Inf2.48xlarge:12台のInferentia2、12.98ドル/時間
- Llama 2 70B推論に最適化
スポットインスタンスでオンデマンド比60-90%節約可能。インスタンスが中断される可能性があるため、チェックポイントが必須です。
Google Cloud GPUインスタンス
A100インスタンス:
- a2-highgpu-1g:1台のA100(40GB)、3.67ドル/時間
- a2-megagpu-16g:16台のA100、55.74ドル/時間
H100インスタンス:
- a3-highgpu-8g:8台のH100、約19〜25ドル/時間(地域によって異なる)
Google TPU v4/v5:
- TPU v4:AIトレーニング最適化ASIC、チップあたり400 TFlops
- TPU v5e:大規模推論に最適化
- TPU v5p:最新のトレーニング向け、チップあたり459 TFlops
- GoogleのJAXフレームワークとの最高の互換性
Azure GPUインスタンス
ND H100 v5:
- Standard_ND96isr_H100_v5:8台のH100
- InfiniBand NDRによるノード間接続
NCas_T4_v3:
- T4ベースの推論インスタンス
- Standard_NC64as_T4_v3:4台のT4、4.35ドル/時間
Lambda Labs、CoreWeave、Vast.ai
クラウドスタートアップはAWS/GCP/Azureより安くGPUを提供します。
Lambda Labs:
- H100 SXM5 8台インスタンス:26.80ドル/時間(AWS p5比73%安い)
- Lambda CloudはAI研究者向けに調整されています
CoreWeave:
- プロフェッショナルGPUクラウド
- H100シングル:2.89ドル/時間
- 大規模クラスター構成が利用可能
Vast.ai:
- GPUマーケットプレイス(個人・企業がGPUを貸し出す)
- H100が約2〜3ドル/時間(市場価格)
- セキュリティ感度が低い実験的トレーニングに適切
クラウドGPUコスト試算
LLMトレーニングのコスト例(Llama 3 8B、8台のA100、1000億トークン):
トレーニング時間の試算:
- Chinchilla法則: 8Bパラメータ x 1000億トークン
- 8台A100クラスターで約7〜10日
- p4d.24xlarge: 32.77ドル/時間 x 24時間 x 8日 = 約6,291ドル
コスト削減戦略:
1. スポットインスタンス: 70%節約 -> 約1,887ドル
2. Lambda Labs: 11.60ドル/時間 x 24時間 x 8日 = 約2,227ドル
3. CoreWeave: さらに安い可能性
9. GPU選定ガイド
トレーニングと推論
トレーニングで重要なこと:
- 高性能テンソルコア(BF16/FP8)
- 十分なメモリ(バッチサイズ、勾配、オプティマイザの状態)
- NVLink帯域幅(マルチGPU勾配同期)
- ECCメモリ(安定性)
推論で重要なこと:
- メモリ帯域幅(KVキャッシュの読み出し速度)
- メモリ容量(モデル + KVキャッシュ)
- INT8/FP8/FP4サポート
- MIG(複数の小さなモデルの分離実行)
モデルサイズ別のGPU要件
FP16でのメモリ要件:
| モデルサイズ | パラメータメモリ | トレーニングメモリ | 必要GPU数 |
|---|---|---|---|
| 7B | 14GB | ~56GB | 1台のH100(80GB) |
| 13B | 26GB | ~104GB | 2台のH100 |
| 70B | 140GB | ~560GB | 8台のH100 |
| 405B | 810GB | ~3.2TB | 40台以上のH100 |
| 1T | 2TB | ~8TB | 100台以上のH100 |
トレーニングメモリ = パラメータ x 4(FP16パラメータ、勾配、Adam 2モーメント)+ アクティベーション
メモリ節約テクニック:
- 勾配チェックポイント:アクティベーションメモリを大幅削減(速度20〜30%のトレードオフ)
- FSDP/ZeRO:パラメータ、勾配、オプティマイザ状態をGPU間で分散
- フラッシュアテンション:アテンション計算のメモリをO(N²)からO(N)に
- FP8トレーニング:メモリ使用量を半減
予算別推奨
個人研究者(約20万円):
- RTX 4090(24GB、約16万円):小さなモデルのファインチューニング、LoRAトレーニング
- 7B モデルのQLoRAファインチューニングが可能
- FlashAttentionサポート(Ada Lovelaceアーキテクチャ)
スタートアップチーム(約100万〜500万円):
- 4〜8台のRTX 4090:小規模LLM実験
- または中古A100 40GB/80GB x 1〜4台
- ハイブリッドクラウド戦略を推奨
中規模AIチーム(約1億円以上):
- 8台のH100(DGX H100レベル):3,200万円以上
- またはLambda Labs/CoreWeaveクラウド
- 1000億パラメータ以上のモデルをトレーニング可能
大規模研究機関/企業:
- 数百〜数千台のH100/H200 GPU
- GB200 NVL72ラックシステム
- 専用InfiniBandネットワーク
コンシューマーとデータセンターの比較
| 機能 | RTX 4090 | H100 SXM |
|---|---|---|
| メモリ | 24GB GDDR6X | 80GB HBM3 |
| 帯域幅 | 1,008 GB/s | 3,350 GB/s |
| FP16性能 | ~330 TFLOPS | 989 TFLOPS |
| ECC | 非対応 | 対応 |
| NVLink | 非対応 | 対応 |
| MIG | 非対応 | 対応 |
| TDP | 450W | 700W |
| 価格 | 約16万円 | 約300万円以上 |
| 保証 | 3年コンシューマー | エンタープライズ |
10. GPUモニタリングと最適化
nvidia-smiの使用
nvidia-smiはNVIDIA GPUモニタリングの主要CLIツールです。
# 基本的なGPU状態
nvidia-smi
# リアルタイムモニタリング(1秒更新)
watch -n 1 nvidia-smi
# ロギング用CSV出力
nvidia-smi --query-gpu=timestamp,name,pci.bus_id,driver_version,pstate,\
pcie.link.gen.max,pcie.link.gen.current,temperature.gpu,utilization.gpu,\
utilization.memory,memory.total,memory.free,memory.used \
--format=csv -l 1 > gpu_log.csv
# プロセスごとのGPUメモリ使用量
nvidia-smi pmon -s m
# GPUトポロジー(NVLink接続)
nvidia-smi topo -m
PyTorch GPU使用率の最適化
import torch
# GPUメモリ使用量を確認
print(f"割り当てメモリ: {torch.cuda.memory_allocated() / 1e9:.2f} GB")
print(f"予約メモリ: {torch.cuda.memory_reserved() / 1e9:.2f} GB")
# 詳細なメモリ分析
print(torch.cuda.memory_summary())
# DataLoaderの最適化
dataloader = DataLoader(
dataset,
batch_size=64,
num_workers=4, # CPUコア数に合わせて調整
pin_memory=True, # GPU転送を高速化するためCPU RAMをピン
prefetch_factor=2, # プリフェッチするバッチ数
persistent_workers=True # ワーカープロセスを再利用
)
# 演算オーバーラップ用CUDAストリーム
stream1 = torch.cuda.Stream()
stream2 = torch.cuda.Stream()
with torch.cuda.stream(stream1):
result1 = model_part1(data1)
with torch.cuda.stream(stream2):
result2 = model_part2(data2) # stream1と並行して実行
torch.cuda.synchronize()
GPU使用率最適化チェックリスト
GPU使用率が低い(70%以下)一般的な原因と対策:
- データロードのボトルネック:
num_workersを増やし、pin_memory=Trueを設定 - バッチサイズが小さすぎる:勾配累積を使って実効バッチサイズを増やす
- Python GILのボトルネック:CUDA Graphsを使ってCPUオーバーヘッドを最小化
- メモリフラグメンテーション:定期的に
torch.cuda.empty_cache()を呼び出す
# CPUオーバーヘッドを最小化するCUDA Graphs
static_input = torch.randn(batch_size, input_size, device='cuda')
static_target = torch.randn(batch_size, output_size, device='cuda')
# ウォームアップ
for _ in range(3):
output = model(static_input)
loss = criterion(output, static_target)
loss.backward()
optimizer.step()
optimizer.zero_grad()
# CUDA Graphのキャプチャ
g = torch.cuda.CUDAGraph()
with torch.cuda.graph(g):
output = model(static_input)
loss = criterion(output, static_target)
loss.backward()
optimizer.step()
optimizer.zero_grad()
# 実データで実行
for real_input, real_target in dataloader:
static_input.copy_(real_input)
static_target.copy_(real_target)
g.replay() # CUDA Graphを再生(CPUオーバーヘッドほぼゼロ)
温度管理
データセンターGPUは数百ワットの熱を発生させます。温度管理は性能と寿命に直接影響します。
- H100 SXM TDP:700W、最大温度:83°C
- 超過するとサーマルスロットリングが自動的に性能を制限
- DGXシステムは直接液冷をサポート
# リアルタイムGPU温度モニタリング
nvidia-smi dmon -s t
# ファン速度制御(コンシューマーGPU)
nvidia-settings -a "[gpu:0]/GPUFanControlState=1" \
-a "[fan:0]/GPUTargetFanSpeed=80"
# 電力制限(若干の性能低下でオーバーヒートを防ぐ)
sudo nvidia-smi -pl 300 # 電力を300Wに制限
マルチGPUセットアップ
4台以上のGPU構成では、適切な設定が重要です。
# GPU接続トポロジーを確認
nvidia-smi topo -m
# NVLink接続のGPUペアとPCIe接続を表示
# NCCLデバッグログを有効化
export NCCL_DEBUG=INFO
export NCCL_DEBUG_SUBSYS=ALL
# NVLink P2Pを確認
nvidia-smi nvlink --status
# NUMAの最適化(マルチソケットサーバー)
numactl --cpunodebind=0 --membind=0 python train.py # GPU 0-3と同じNUMAノード
# PyTorch分散トレーニングの基本
import torch.distributed as dist
import torch.multiprocessing as mp
def setup(rank, world_size):
dist.init_process_group(
backend='nccl', # NVIDIA GPU: nccl; AMD: gloo または rccl
init_method='env://',
world_size=world_size,
rank=rank
)
torch.cuda.set_device(rank)
def cleanup():
dist.destroy_process_group()
# torchrunで起動:
# torchrun --nproc_per_node=8 --nnodes=2 --rdzv_id=100 \
# --rdzv_backend=c10d --rdzv_endpoint=host:29400 train.py
まとめ:GPU選定の実践的原則
GPU選定で最も重要なのは、自分のワークロードを正確に理解することです。
- メモリ容量最優先:モデルとバッチがGPUメモリに収まらなければ、他のことは何も意味がない。
- 帯域幅対計算性能:トレーニングは計算バウンドになる傾向がある;大規模モデルの推論はメモリバウンドになる傾向がある。
- クラウドファーストの戦略:不確かな場合は、オンプレミスハードウェアに投資する前にクラウドから始めて要件を理解する。
- エコシステムが重要:NVIDIAのCUDAエコシステムは圧倒的に成熟しています。AMD ROCmは急速に追いついています。
- 消費電力:オンプレミスGPUクラスターの電気代はハードウェアコストと同等です。
AIインフラは急速に進化しています。BlackwellによりFP4量子化が現実のものとなり、GB200 NVL72のようなラックスケールシステムが大規模モデルのトレーニングと推論を再定義しています。ハードウェアの動向を注視し、自分の要件に最適化された選択をしてください。