- Authors

- Name
- Youngju Kim
- @fjvbn20031
- はじめに
- なぜ突然、電力が問題になったのか
- ラック電力密度の急上昇
- 空冷の限界
- 直接水冷(DLC)と液浸冷却
- PUE — 電力効率を測る物差し
- 電力網と発電の制約
- チップの perf/watt 競争
- 炭素と持続可能性
- コスト構造
- 立地とサプライチェーン
- 運用課題
- 開発者/アーキテクトへの示唆
- 電力の流れを追ってみる
- 冷却方式選択のトレードオフ
- 規模が生む新しい問題
- 電力調達モデル
- 何を観測すべきか
- 効率と需要の逆説 — ジェボンズのパラドックス
- 冷却が向かう先
- よくある誤解を正す
- 一目で見る要点整理
- おわりに
- 参考資料
はじめに
数年前までデータセンターの話題は「サーバーをどれだけ密に詰め込むか」でした。2026 年の話題は「電気をどこから得て、その熱をどう冷やすか」に変わりました。AI capex が爆発し、単一キャンパスが数百メガワット、計画段階ではギガワット規模で語られる時代になりました。ギガワットは大型原子力発電所一基の出力に匹敵する数字です。
この記事は AI データセンターを電力と冷却という二つの軸で解きほぐします。要点は単純です。いまやインフラの限界はチップを買う金ではなく、そのチップに供給する電気と、そのチップが吐く熱を捌く冷却です。開発者とアーキテクトがこの制約を理解すべき理由、そして業界がどこへ向かうのかを落ち着いて見ていきます。
なぜ突然、電力が問題になったのか
電力が最優先の制約になったのは、二つの流れが重なったからです。
第一に、AI アクセラレータ一枚の消費電力が急速に上がりました。データセンター級 GPU の TDP はかつて 300W 前後でしたが、最新世代は 700W を超え、単一モジュールで 1000W に迫る水準まで来ました。アクセラレータが速くなるほど多くの電気を食い、多くの熱を出します。
第二に、そのアクセラレータを数万、数十万枚束ねて一つの学習/推論クラスタを作ります。個々のチップの電力に規模を掛ければ、キャンパス全体の消費は一瞬で巨大になります。
電力 = (アクセラレータあたり電力) x (アクセラレータ数) x (オーバーヘッド係数)
スケール感:
1000W x 100,000 枚 = 100MW (アクセラレータのみ)
ここに CPU/ネットワーク/冷却/損失を足すとキャンパスは数百 MW
その結果、データセンター事業のボトルネックは「土地と建物」から「電力契約と送電線」へ移りました。用地を選ぶとき最初に問う質問が「ここで何メガワットをいつまでに受けられるか」になりました。
ラック電力密度の急上昇
データセンター設計の基本単位はラック(rack)です。従来のエンタープライズラックは一台あたり約 5〜10kW を消費し、空冷で十分に冷やせる水準でした。
AI ラックは次元が違います。
| 時代/種類 | ラックあたり電力(概算) | 主な冷却方式 |
|---|---|---|
| 従来エンタープライズ | 5〜10kW | 空冷 |
| 初期 GPU クラスタ | 15〜30kW | 強化空冷 |
| 現世代 AI ラック | 40〜80kW | 直接水冷(DLC)中心 |
| 最新高密度ラック | 100kW 以上 | 水冷/液浸が必須 |
一つのラックに 100kW を超える電力が入るということは、その小さなキャビネットの中で家庭用電熱器数十台分の熱が出るということです。この熱を空気で冷やすには膨大な量の風を送る必要がありますが、ある点を超えると空気は物理的にその仕事を捌けません。
密度を高めるには明確な理由があります。アクセラレータが近接していればインターコネクト(NVLink など)の遅延と帯域幅が有利で、同じ面積からより多くの演算を引き出せます。そこで業界は密度を諦めず、代わりに冷却方式を変える道を選びました。
空冷の限界
空冷(air cooling)は長らくデータセンターの標準でした。冷たい空気をサーバー前面に送り、熱い空気を背面から抜く方式です。単純で実績がありますが、物理的な限界が明確です。
空気は熱を運ぶ媒体として効率が低い。同じ体積で水が運べる熱は空気より数千倍多い。空気の比熱と密度が低いからです。
熱運搬能力(おおまかな直感)
空気 : 低い(比熱・密度ともに小さい)
水 : 空気比で体積あたり約 3500 倍の熱容量
同じ熱を抜くには:
空冷 -> 膨大な風量とファン電力が必要
水冷 -> 少ない流量で処理
ラックあたり 30kW を超え始めると空冷は複数の問題にぶつかります。ファンを強く回すほどファン自体の電力消費と騒音が増え、ホットスポット(局所過熱)を抑えにくくなり、結局チップがスロットリング(性能の強制低下)に入り、高価なアクセラレータを実力どおりに使えません。この点で水が登場します。
直接水冷(DLC)と液浸冷却
直接水冷 (Direct Liquid Cooling)
現世代 AI ラックの主流は直接水冷、特にコールドプレート(cold plate)方式です。冷たい液体が流れる金属板をチップ上に直接密着させて熱を受けます。温まった液体はラック背面や列端の熱交換器(CDU)へ行き、冷えてから再び循環します。
コールドプレート直接水冷の流れ
チップ --- コールドプレート(液体通路) --- マニフォールド --- CDU
^ |
|__________________ 冷えた液体の循環 _____________________|
CDU: Coolant Distribution Unit (1 次/2 次ループを分離)
利点は明確です。チップ直上で熱を抜くので効率が高く、高い密度を捌き、ファン電力を大きく減らします。代わりに配管、漏水管理、マニフォールド、CDU といった新しい設備と運用ノウハウが要ります。
液浸冷却 (Immersion Cooling)
より攻めた方式が液浸冷却です。サーバー全体を電気を通さない特殊な流体(絶縁流体)に丸ごと浸します。単相(single-phase)は流体が沸騰せず循環のみ、二相(two-phase)は流体がチップ上で沸騰し蒸気として熱を持ち去ります。
| 方式 | 原理 | 特徴 |
|---|---|---|
| コールドプレート DLC | 板に液体を流す | 現世代主流、既存フォームファクタと互換しやすい |
| 単相液浸 | 絶縁流体に浸す | 非常に高い密度、ファン除去 |
| 二相液浸 | 流体を沸かし蒸気に | 最高効率、流体/密閉管理が難しい |
液浸は密度と効率で強力ですが、流体コスト、保守アクセス性、部品互換性など運用難度が高く、いまのところ特定領域中心の採用です。
PUE — 電力効率を測る物差し
データセンターの効率を語るとき欠かせない指標が PUE(Power Usage Effectiveness)です。
PUE = 施設全体の消費電力 / IT 機器の消費電力
PUE = 1.0 -> すべての電力が IT のみ(理想、非現実的)
PUE = 1.5 -> IT 1 単位あたり 0.5 単位が冷却/損失
PUE = 2.0 -> 半分が非 IT オーバーヘッド(非効率)
PUE が 1 に近いほど冷却と電力変換の損失が少ないことを意味します。よく設計された現代の大型データセンターは PUE を 1.1 台まで下げます。水冷が空冷より PUE で有利な大きな理由の一つがファン電力の削減です。
ただし PUE だけですべてを判断すると落とし穴にはまります。PUE は「オーバーヘッド比率」であって「総電力量」ではありません。PUE が良くても絶対消費電力が巨大なら、電力網と環境への負担はそのまま大きいです。だから水使用効率(WUE)、炭素使用効率(CUE)といった補助指標が併用されます。
電力網と発電の制約
チップと冷却をすべて解決しても最後の壁が残ります。その電気を実際に引いてこられるかです。
ギガワット級キャンパス一つを新設するということは、その地域の電力網に大型発電所一基に匹敵する負荷を新たにかけることです。送電線の増設、変電設備、系統安定性すべてが新しい制約になります。しかも発電所や送電線の新設には数年かかるのに、AI 需要は四半期単位で動きます。この時間差が 2026 年インフラの最大の緊張です。
その結果、業界は複数の道を同時に模索します。
- 発電団地や送電拠点の近くに用地を選ぶ立地戦略。
- 自社発電(ガスタービンなど)や長期電力購入契約(PPA)で電力を先取り。
- 再生可能エネルギーの直接調達と大規模エネルギー貯蔵(電池)で変動を吸収。
- データセンターを電力が余る時間帯により多く回す需要柔軟化の議論。
電力自体が希少資源になり、「電気を確保した者が AI 容量を確保する」という命題が成り立ち始めました。
チップの perf/watt 競争
需要側の圧力がこれほど大きいので、供給側の解の核心も結局「ワットあたり性能(perf/watt)」に収束します。同じ電気でより多くの演算を引き出せれば、電力制約を一段遅らせられます。
2026 年の流れがこれをそのまま示します。
- NVIDIA は Blackwell(GTC 2026)に続き、次世代 Vera Rubin で HBM4 を採用し perf/watt を約 10 倍に引き上げる目標を掲げました。ワットあたり性能が一桁倍に跳ねれば、同じ電力予算ではるかに大きな規模を回せます。
- Google は TPU v6 Trillium(前世代比 peak 約 4.7 倍)と推論特化の第 7 世代 Ironwood で効率を狙い撃ちました。
- クラウド事業者が自社推論 ASIC を急速に増やすこと(推論 ASIC 占有が 2024 年の約 15% から 2026 年に 40% 見込み)も、ワークロードにチップを合わせワットあたり効率を引き上げる動きです。NVIDIA は依然として加速器市場の約 75〜80% を握り、AMD MI350X が競争に加わります。
ここで重要なバランス感覚を一つ。perf/watt が良くなっても総電力は減りません。効率が良くなると、より大きなモデルとより多くの推論を回そうとする需要がそれだけ増え、絶対消費はむしろ増える傾向が強いです。効率向上は電力制約を遅らせるのであって、なくすのではありません。
炭素と持続可能性
電力消費が巨大になれば、自然に炭素排出と環境影響が伴います。AI データセンターの持続可能性の議論はいくつかに分かれます。
- 電力の出所: 同じ電力量でも石炭由来か再生/原子力由来かで炭素フットプリントが大きく異なります。だから立地と電力調達がそのまま炭素戦略です。
- 水の使用: 冷却、特に蒸発式冷却は水を多く使います。水不足地域ではこれが社会的制約になります。水冷設計や閉ループ、外気活用で水使用を減らす努力が続きます。
- 廃熱の再利用: 温まった冷却水を近隣の地域暖房に供給するなど、廃熱を資源に回す事例が増えています。
- ライフサイクル: チップやサーバーの製造、廃棄まで含めた全工程の影響(エンボディド炭素)もますます問われます。
持続可能性は規制と評判の問題であるだけでなく、電力自体が希少になる環境では実質的な運用制約として働きます。
コスト構造
AI データセンターの総所有コスト(TCO)は従来 IT と重心が異なります。
おおまかな比重の感覚(キャンパスのライフサイクル基準)
アクセラレータ/サーバー資本支出 ... 大きな比重
電力(運用電気代) ............... 急速に増える比重
冷却設備/運用 .................. 無視できない比重
建物/土地 ..................... 相対的に小さくなる
ネットワーク/ストレージ ........ 状況による
核心の変化は二つです。第一に、運用電気代がライフサイクルコストに占める比重が増え、perf/watt と PUE がそのまま金に換算されます。第二に、アクセラレータ資本支出が非常に大きいため、アクセラレータを遊ばせず最大限稼働させること(稼働率)がコスト効率の鍵になりました。冷却が不十分でチップがスロットリングすれば、高価な資産を実力どおりに使えない直接的な浪費になります。
立地とサプライチェーン
用地選定の基準も変わりました。過去は利用者との距離(遅延)と土地コストが大きかったのが、いまは次が前に来ます。
- 電力可用性: 何メガワットをいつ受けられるか。最も決定的です。
- 冷却資源: 外気温(自然冷却の可能性)と水の可用性。
- 電力価格と出所: 安く清潔な電気があるか。
- 許認可の速度: 送電・環境の許認可が速く出るか。
サプライチェーン面では、アクセラレータだけでなく HBM のような高帯域メモリ、CoWoS のような先端パッケージング、電力変換装置、冷却部品までボトルネックが分散しています。一か所が詰まるだけで全体の日程がずれます。だから大手事業者は数年単位で部品と電力を先に確保(先行購入)する戦略を取ります。
運用課題
設計が終わっても運用の難度は別です。
- 漏水管理: 水冷は電気装置の隣に水を流す仕事なので、漏水検知と遮断の設計が必須です。
- 熱管理の動的変化: 学習ワークロードは電力消費が揺れます。数万枚のアクセラレータが同時に負荷を上げ下げすると、電力と冷却の両方が急激な変動を経験します。
- 異質な設備の統合: 空冷区域と水冷区域、異なる世代のハードウェアが一つのキャンパスに共存します。
- 信頼性: 単一障害が巨大な稼働損失に波及するので、電力・冷却ともに二重化と速い障害対応が重要です。
- モニタリング: ラック・チップ単位の温度、電力、流量を細かく観測し、ホットスポットと異常を早期に捉える必要があります。
開発者/アーキテクトへの示唆
インフラチームでない開発者やシステムアーキテクトにとっても、この流れは他人事ではありません。
- 効率はコストであり可用性。モデルをより効率的に(量子化、より小さいモデル、バッチング)提供すれば電力とコストを同時に節約し、不足する容量の中でより多くのユーザーを受けます。
- 稼働率を高める設計。高価なアクセラレータを遊ばせないようスケジューリング、バッチング、自動スケールをうまく組むことが、そのままインフラ効率につながります。
- ワークロード配置の感覚。どの作業をどのリージョン/時間に回すかが電力価格と炭素に影響します。遅延が重要でないバッチ作業は、電力が安いか清潔な時間・地域へ移す余地があります。
- 制約を前提とした設計。「GPU は無限に増やせる」という仮定はもう安全ではありません。容量は電力と冷却という物理的限界に縛られています。
電力の流れを追ってみる
電気が発電所からチップまで行く道には、いくつもの変換と損失が挟まります。この経路を理解すると、PUE がなぜ 1 を超えるのか、どこで効率を絞り出せるのかが見えます。
電力の旅(概略)
発電所
| 送電(高電圧、損失少なく)
変電所
| データセンター受電(中電圧)
UPS / 配電
| 変換損失が発生
サーバー PSU (AC -> DC)
| 変換損失が発生
ボード VRM (DC -> 低電圧)
| 変換損失が発生
チップ(実際の演算)
各変換段で少しずつ電力が熱として抜けていきます。だから業界は変換段を減らすか効率を高めることに力を注ぎます。高電圧直流(HVDC)配電、より効率的な電源装置、48V 直流といった設計は、すべてこの損失を減らす試みです。チップが食う電力が 1000W でも、そのチップに 1000W を供給するには変換・冷却損失のため施設レベルではより多くの電気を引いてくる必要があります。この差がまさに PUE です。
ここで重要な直感を一つ。チップから出た熱は消えません。入った電気はほぼすべて最終的に熱になり、建物の外へ抜けなければなりません。100MW を消費するキャンパスは事実上 100MW の暖房器と同じで、その熱をすべて冷やして送り出すのが冷却の本質です。
冷却方式選択のトレードオフ
どの冷却を選ぶかは、単に「より良いもの」の問題ではなく複数の軸の均衡です。
| 考慮軸 | 空冷 | 直接水冷(DLC) | 液浸 |
|---|---|---|---|
| 捌ける密度 | 低い | 高い | 非常に高い |
| 初期投資 | 低い | 中間 | 高い |
| 運用難度 | 低い | 中間 | 高い |
| 既存設備との互換 | 良い | 普通 | 低い |
| 保守アクセス性 | 良い | 普通 | 難しい |
現実で多くの事業者が直接水冷を現世代の標準として選ぶ理由は、高い密度を捌きながら既存のラック・サーバーのフォームファクタと比較的よく合うからです。液浸は効率と密度でさらに先へ行きますが、運用転換コストが大きく慎重に導入されます。
もう一つの軸は「どこまで冷やすか」です。やみくもに冷たく冷やすほど良いわけではありません。冷却水の温度を下げすぎるとチラー(冷凍機)の電力が増え PUE が悪化します。だから最新の設計は、チップが耐えられる範囲内で比較的温かい水で冷やす「高温冷却」を好みます。外気だけでも冷やせる(自由冷却)ためチラー電力を減らせるからです。
規模が生む新しい問題
数百メガワット、ギガワット規模になると、小さな規模ではなかった問題が新たに生じます。
- 電力変動の同時性: 数万枚のアクセラレータが同じ学習ジョブの同じステップで同時に負荷を上げ下げします。この同期した揺れはキャンパス全体の電力を急激に揺らし、電力網に負担をかけます。だから意図的に負荷を分散したり緩衝したりする手法が研究されます。
- 冷却の慣性: 冷却システムは負荷変化に即座に反応できません。突然の発熱急増と冷却反応の間の時差を埋めるための熱緩衝設計が必要です。
- 障害の波及: 一区域の電力・冷却の問題が巨大なクラスタ全体の稼働を止めることがあります。だから電力・冷却ともに二重化しますが、二重化自体がまた電力をより食うジレンマがあります。
- サプライチェーンの同期: アクセラレータ、メモリ、電力装置、冷却部品が同じ日程に合わせて届かないとキャンパスを起動できません。一つの部品の遅延が数十億円規模の資産を遊ばせます。
規模は効率とコストで有利ですが、同時にこうしたシステムレベルの新しい難題を呼びます。巨大キャンパスの運用は単に小さなデータセンターを複数合わせたものではなく、質的に異なる工学問題です。
電力調達モデル
電力が希少資源になり、「どう電気を確保するか」が事業の核心能力になりました。いくつかのモデルを比較します。
| モデル | 方式 | 利点 | 限界 |
|---|---|---|---|
| 系統電力 | 既存の電力網から受電 | 単純、速い開始 | 利用可能容量・増設速度に縛られる |
| 長期 PPA | 発電社と長期購入契約 | 価格安定、再生調達 | 立地・契約交渉が必要 |
| 自社発電 | ガスタービンなど現場発電 | 系統制約を回避、速い確保 | 炭素・燃料・許認可の負担 |
| 再生 + 貯蔵 | 太陽光/風力 + 電池 | 炭素削減 | 変動性、大規模貯蔵コスト |
現実ではこれらを混ぜます。ベース負荷は系統と PPA で、変動と非常時は自社発電と貯蔵で支える、という具合です。核心は「いま電気があるか」だけでなく「5 年後も約束された電気が入ってくるか」を前もって押さえることです。AI 需要の成長速度が発電・送電の建設速度を上回るため、電力を先取りした事業者がそのまま容量を先取りします。
ここに電力の時間的柔軟性という新しい視点が加わります。学習のように遅延に鈍感なワークロードは、電気が安いか清潔な時間帯へ移せます。電力網が余る時間により多く回し、足りない時間に減らせば、同じ電力契約の中でより多くの演算を引き出し、電力網の安定にも貢献します。
何を観測すべきか
巨大インフラを運用するには、細かな観測が命です。核心の指標を整理すると次のとおりです。
観測の階層(概略)
施設レベル : 総電力、PUE、WUE、外気温、チラー負荷
ラックレベル : ラック電力、入口/出口温度、冷却水の流量・圧力
サーバーレベル : PSU 効率、ファン速度、ボード温度
チップレベル : チップ温度、電力、クロック、スロットリングの発生有無
これらの指標をリアルタイムで集めてこそ、ホットスポットを早期に捉え、チップがスロットリングに入る前に冷却を調整し、漏水のような異常を即座に遮断できます。特にチップレベルのスロットリング発生は、そのまま「高価な資産を実力どおりに使えていない」というシグナルなので、最も敏感に見るべきです。
観測は事後分析にも使われます。どの時間帯に電力が揺れるか、どのラックが特に熱いか、PUE が季節でどう変わるかをデータとして蓄えれば、次のキャンパス設計と運用方針が改善されます。結局、電力と冷却の運用は測定できる分だけ改善できます。
効率と需要の逆説 — ジェボンズのパラドックス
電力と冷却を語るとき陥りやすい誤解があります。「チップが効率的になれば全体の電力が減るだろう」という期待です。現実は逆である場合が多いです。
経済学にはジェボンズのパラドックスという概念があります。ある資源を使う効率が良くなると、その資源が安く使いやすくなり、かえって総消費が増えるというものです。AI ハードウェアはまさにこの経路をたどっています。
効率向上 -> 同じ作業に要する電気が減少
-> 演算コスト低下
-> より大きなモデル・より多くの推論を回そうとする需要増加
-> 総電力消費はむしろ増加
次世代チップがワットあたり性能を約 10 倍引き上げても、その分より大きなモデルとより多くの使用量で需要が埋まれば、キャンパスの絶対電力は減りません。これが効率向上にもかかわらずデータセンターの電力需要が増え続けると見込まれる理由です。
この逆説が与える教訓は悲観ではなく現実感覚です。効率向上は確かに価値がありますが、それだけで電力問題が自ずと解けるわけではありません。効率、電力調達、立地、ワークロードの柔軟化、持続可能性をすべて一緒に扱ってこそ、ギガワット時代のインフラが機能します。どれか一つだけに頼る解はありません。
冷却が向かう先
ラック密度が上がり続け、冷却技術も進化を止めません。いくつかの方向を整理します。
- 水冷の普遍化: 直接水冷はもはや特殊な設計ではなく、高密度 AI ラックの基本前提になりつつあります。標準部品と設計慣行が定着し、導入の壁が下がります。
- チップパッケージの中へ: 熱をチップにより近いところで抜こうとする試みが続きます。チップパッケージ水準で液体を流す研究のように、冷却がますますチップの近くへ入り込みます。
- 高温冷却の拡大: 比較的温かい水で冷やしチラー依存を減らし、外気自由冷却を増やす流れが強まります。PUE と水使用を同時に改善します。
- 廃熱の資源化: 温まった冷却水を地域暖房や近隣施設に供給し、捨てられていた熱を価値に変える事例が増えます。
核心の流れは一つに集まります。熱を発生源に近いところで、できる限り温かい媒質で、少ない追加エネルギーで抜く方向です。同じ電力を使っても冷却にかかるオーバーヘッドを減らせば、その分 PUE が良くなりコストと環境負担が減ります。
ただしどの冷却技術も根本問題を変えはしません。入った電気は結局熱になり、その熱はどこかへ出ていかねばなりません。冷却の進化はその熱をより効率的に扱うことであって、熱自体をなくすことではありません。だから冷却と電力は切り離せない一対として一緒に設計されます。
よくある誤解を正す
最後に、AI データセンターの電力・冷却をめぐるよくある誤解をいくつか整理します。
- 「PUE さえ良ければエコだ」: PUE はオーバーヘッド比率にすぎません。絶対電力と電力の出所、水使用を一緒に見てこそ本当の環境影響が分かります。
- 「水冷は危険だから使わない」: 漏水管理が難しいのは事実ですが、高密度 AI ラックでは水冷が事実上の標準になりました。設計と運用ノウハウが成熟しています。
- 「チップが効率的になれば電力が減る」: ジェボンズのパラドックスで見たように、効率向上は需要を増やし絶対消費をむしろ増やす傾向があります。
- 「電力は金さえあれば買える」: 送電・発電の建設には数年かかり、金があってもすぐにメガワットを受けられないことが多い。電力は時間がかかる資源です。
- 「エッジに全部移せばデータセンターは要らない」: エッジが一部の推論を吸収しますが、学習と巨大モデル推論は依然としてデータセンターの担当です。両者は分業関係です。
これらの誤解の共通点は、単一の指標や単一の解で複雑な問題を単純化することです。ギガワット時代のインフラは複数の制約が絡む系の問題であり、均衡の取れた視点で見る必要があります。どの一つの数字(TOPS、PUE、TDP)もそれ自体で良し悪しを断定しません。文脈の中で一緒に読む必要があります。
一目で見る要点整理
これまでの議論を短くまとめます。
| 軸 | 過去 | 現在(2026) |
|---|---|---|
| 最優先の制約 | 土地・建物 | 電力・冷却 |
| ラック密度 | 5〜10kW | 40〜100kW 以上 |
| 冷却 | 空冷 | 直接水冷/液浸 |
| 用地選定 | 利用者距離・地価 | 電力可用性・出所 |
| チップ競争の軸 | 絶対性能 | ワットあたり性能 |
| コストの重心 | 資本支出 | 資本支出 + 運用電気代 |
この表が示すように、AI インフラのほぼすべての軸が「物理的制約」を中心に再編されました。チップがいくら速くても、そのチップに電気を供給し熱を冷やせなければ容量になりません。だからインフラを理解することは、そのまま AI の限界と可能性を理解することです。
おわりに
AI データセンターはもはや「サーバーが集まった建物」ではなく、「巨大な電気を演算に、そして再び熱に変える機械」に近いです。ギガワット時代のインフラは、チップを買う金ではなく、電気を得る能力と熱を冷やす能力で規定されます。
ラック密度は 100kW を超え、冷却は空気から水へ越え、チップはワットあたり性能競争(次世代 Vera Rubin 約 10 倍目標)で制約を遅らせようとします。しかし効率が良くなるほど需要も大きくなる逆説の中で、電力と冷却は今後も AI インフラの最も硬い制約として残るでしょう。この制約を理解することはインフラエンジニアだけの仕事ではなく、効率的なモデルとシステムを設計するすべての人の仕事です。
参考資料
- NVIDIA データセンター/Blackwell: https://www.nvidia.com/en-us/data-center/
- Google Cloud TPU: https://cloud.google.com/tpu
- The Green Grid(PUE など効率指標): https://www.thegreengrid.org/
- Uptime Institute(データセンター運用/信頼性): https://uptimeinstitute.com/
- IEA データセンター・電力レポート: https://www.iea.org/
- Open Compute Project(オープンハードウェア/冷却): https://www.opencompute.org/
- SemiAnalysis(データセンター/電力分析): https://www.semianalysis.com/
- ASHRAE(データセンター熱ガイドライン): https://www.ashrae.org/