はじめに
GPUを数千枚つないで巨大モデルを学習させる時代に、Cerebrasは正反対の問いを立てました。「チップを細かく切って配線でつなぐ代わりに、いっそウェハー1枚を丸ごと1つのチップとして使ったらどうか」。
通常、半導体製造は直径300mmのウェハー1枚に数百個の小さなダイ(die)を焼き付け、それを切り出して個別のチップとしてパッケージします。Cerebrasの WSE(Wafer Scale Engine)はこの切断を省きます。ウェハーのほぼ全体が切られずに1つの巨大なプロセッサになります。手のひらより大きい、食器の皿ほどある単一のチップです。
本稿では WSE-3 の主要な設計判断をたどりながら、なぜこの極端な形態が生まれたのか、そして実務でどんな意味を持つのかを見ていきます。結論から言えば、ウェハースケールは万能薬ではなく、「メモリウォール」という具体的な問題を正面から狙った設計です。
0. WSE 世代の進化 — どこから来たか
ウェハースケールは一朝一夕に現れたものではありません。Cerebrasは世代を重ねながら同じ哲学をより大きな規模で推し進めてきました。
| 世代 | おおよその位置 | 核心の進展 |
| --- | --- | --- |
| WSE-1 | 第1世代 | ウェハースケールを初めて量産可能と証明 |
| WSE-2 | 第2世代 | コア数とオンチップメモリを大きく拡大 |
| WSE-3 | 現世代 | 約4兆トランジスタ、約90万コア、約44GB SRAM |
各世代の共通メッセージは一貫しています。「データをチップ内に閉じ込め、チップ間通信を減らし、欠陥に耐える設計で量産する」。世代が上がるほど、より多くのコアとより大きなオンチップメモリを収め、より大きなモデルをチップ1つに近い形で扱えるようにしてきました。この流れを理解すると、WSE-3の数字が突然飛び出したのではなく、一貫した賭けの累積であることが分かります。
本稿で扱う原理(メモリウォール回避、オンチップSRAM中心、欠陥許容、データフロー)は世代を貫く共通の骨格です。だから特定世代の正確な数字より、その数字を生んだ設計哲学を理解するほうが長く有効な知識です。
1. なぜウェハースケールか — メモリウォール問題
データ移動は演算より高くつく
現代のAIアクセラレータの最大の悩みは、演算そのものではなくデータ移動です。行列積に必要な浮動小数点演算(FLOP)1回は非常に安いのに、その演算に必要なデータをメモリから演算ユニットまで運ぶコストははるかに大きいのです。
おおまかなエネルギー比を見ると直感がつかめます。
演算 / 移動 相対エネルギー(概算)
---------------------------------------------------
FP 乗加算(演算) 1倍
オンチップSRAM読み(数mm移動) 数倍〜数十倍
オフチップHBM読み 数百倍
別チップへ転送(インターコネクト) 数百〜数千倍
演算ユニットは飢えたままデータを待ち、電力の大半がビットの移動だけに費やされます。これが「メモリウォール(memory wall)」です。演算性能は速くなり続けるのに、メモリ帯域がその速度に追いつかず生じる格差です。
GPUの解とその限界
GPUはこれを HBM(High Bandwidth Memory)で緩和します。チップの脇に高帯域メモリを積み重ねて帯域を引き上げる方式です。しかしHBMも結局チップの「外」にあり、モデルが大きくなれば複数のGPUに分割して載せる必要が生じ、その瞬間にチップ間通信(NVLinkなど)が新たなボトルネックになります。
Cerebrasの賭けはこうです。メモリをチップの外ではなく演算ユニットのすぐ隣、オンチップSRAMに置き、モデルを複数チップに分けなくて済むほどチップを大きくすれば、データ移動コストは根本的に下がる、というものです。
2. WSE-3 の数字
WSE-3 のスペックは一般的なチップと比べると非現実的に感じられます。
| 項目 | WSE-3(概算) | 比較:大型GPU |
| --- | --- | --- |
| トランジスタ | 約4兆個 | 数百億個 |
| コア数 | 約90万個 | 数万SMレーン |
| オンチップSRAM | 約44GB | 数十MB級 |
| オンチップ帯域 | 約21 PB/s | 数 TB/s 級 |
| 物理サイズ | ウェハー全体 | 爪〜手のひら |
肝心なのは単一の数値の大きさではなく比率です。オンチップSRAMが44GBということは、多くのモデルの重みをオフチップHBMなしでチップ内にそのまま収められることを意味します。そして約21 PB/sというオンチップ帯域はHBM帯域とは桁が違います。データがチップ内を短い距離だけ動くため可能な数値です。
半分がSRAM、半分がロジック
WSEのダイをざっくり分けると、面積の約半分がSRAM、半分が演算ロジックです。これはGPUと正反対の哲学です。GPUは演算密度を最大化しメモリを外に置くのに対し、WSEはメモリを演算の隣に分散配置し、「各コアが自分のデータを真横に置く」構造を作ります。
GPUモデル WSEモデル
----------------- -----------------
[ 演算コアの束 ] [コア][SRAM][コア][SRAM]
| [SRAM][コア][SRAM][コア]
(オフチップバス) [コア][SRAM][コア][SRAM]
| ...格子全体に分散...
[ HBMスタック(外) ] メモリが演算のすぐ隣
3. チップ間通信をなくすということ
大規模学習の隠れたコストは通信です。モデルを複数GPUに分けると(テンソル並列、パイプライン並列)、毎ステップGPU同士が活性値と勾配をやり取りします。この通信は高速なインターコネクトでも完全には隠せず、スケールが大きくなるほど効率が落ちます。
WSEの論理は単純です。モデルがチップ1枚に収まれば、チップ間通信そのものがありません。コア同士の通信はウェハー上の格子ネットワークを通じて起こり、別チップへ出るよりはるかに短く速いのです。
もちろん1枚では足りないほど大きいモデルは複数のWSEをクラスタにまとめます。このときCerebrasは重みを別の外部メモリ装置(MemoryX)に置いてストリーミングする方式などで、単一チップのメモリ限界を補う手法を取ります。要点は「通信をなくす」ではなく「通信を可能な限りチップ内の短い距離に閉じ込める」ことです。
データフローとスパース性
WSEは各コアが自分に届いたデータに反応して演算するデータフロー方式で動作します。ここで興味深いのは、0の値については乗算をスキップできることです。ニューラルネットの活性値には0が多く(特にReLU系)、0を掛けると結果は0なので、その演算を丸ごと省けば時間と電力を節約できます。細粒度(fine-grained)のスパース性をハードウェアレベルで活用する設計です。
4. 欠陥に耐える設計 — 歩留まりの秘密
ウェハー全体を1つのチップにするという発想から誰もが思い浮かべる問いがあります。「ウェハーに欠陥が1つでもあればチップ全体が不良なのでは?」
通常のチップ製造では欠陥のあるダイを捨てれば済みます。小さなダイが数百個あるので数個捨てても残りは売れます。しかしチップがウェハー全体なら、欠陥1つで全体を捨てるのは経済的に不可能です。
Cerebrasの解は **冗長性(redundancy)と迂回** です。
- ウェハー上に必要なコアより少し多めの予備コアを配置します。
- 製造後のテストで欠陥のあるコアを見つけると、ルーティングを再構成してそのコアを迂回します。
- 格子ネットワークが欠陥地点を回り込むよう経路を取り直します。
その結果、一部のコアが死んでいてもチップは正常仕様で動作します。「完璧なウェハー」を要求する代わりに、「欠陥があっても動くウェハー」を設計したのです。これがウェハースケールを量産可能にした核心のエンジニアリングです。
[コア][コア][不良][コア] ルーティングが不良コアを
[コア][コア][コア][コア] → 迂回するよう再構成される。
[不良][コア][コア][コア] 論理的な格子はそのまま維持。
5. プログラミングモデル — どう使うか
90万個のコアを開発者が手で扱うなら誰も使わないでしょう。Cerebrasは馴染みのあるフレームワークの上で動くソフトウェアスタックを提供します。
概念的な流れは次のとおりです。
概念的な例(実際のAPIとは異なる場合がある)
model = build_transformer(num_layers=48, hidden=8192)
グラフをWSE向けにコンパイルする。
コンパイラがレイヤーをコア格子に配置し、
データの流れとルーティングを自動で決める。
compiled = cb.compile(model, batch_size=32)
学習や推論のループは馴染みある形を保つ。
for batch in dataloader:
loss = compiled.train_step(batch)
核心はコンパイラです。開発者が標準的なモデル定義を渡すと、Cerebrasコンパイラがその演算グラフをウェハーのコア格子にマッピングし、どのコアがどの演算を担うか、データが格子上をどう流れるかを決めます。PyTorchなど馴染みあるフレームワークをフロントエンドに使いつつ、バックエンドでこのマッピングを処理する構造を目指しています。
大きなモデルをどう収めるか
44GBというオンチップSRAMも、数千億パラメータのモデルの前では足りないことがあります。このときは重みを外部メモリに置き、レイヤー単位でストリーミングする方式を使います。活性値はチップ内に留まり、重みが流れ込む形です。こうすると「モデルサイズ」と「チップメモリ」を切り離し、チップを大きくせずにより大きなモデルを扱えます。
5.5. データ移動エネルギーを数字で感じる
CIMの記事でも扱いますが、データ移動がなぜそれほど高いのかをもう一度押さえると、ウェハースケールの価値が鮮明になります。
同じ乗算-加算1回を行うにしても、その演算に必要なデータをどこから持ってくるかによってエネルギーが桁で分かれます。演算そのものより、そのデータを運ぶ距離がコストを支配します。
データの出どころ 相対エネルギー(概念)
-----------------------------------------------
すぐ隣のレジスタ/SRAM 最も安い
同じチップ内の遠いSRAM 少し高い
オフチップHBM はるかに高い
別のチップ(インターコネクト経由) 最も高い
この表が言うことは単純です。データを近くに置くほど安い、ということです。ウェハースケールのすべての設計判断(オンチップSRAMの分散、チップを大きくして通信回避、重みをチップ内に収める)は、結局この表の上の行にとどまろうとする努力です。電力がデータセンター拡張の実質的な上限になった2026年に、「ビットを遠くへ運ばない」ことは、同じ電力予算の中でより多くのモデルを回せることを意味します。
これがウェハースケールを単なる速度自慢ではなく「エネルギー構造」の問題として理解すべき理由です。速度は結果に過ぎず、根本原因はデータをより動かさない構造にあります。
6. リアルタイム推論での強み
ウェハースケールの効果が最も劇的に現れるのは、学習よりむしろ推論、特に遅延(latency)が重要なLLMサービングです。
LLMのトークン生成は本質的にメモリ帯域に縛られています。トークンを1つ作るにはモデルの重み全体を一度読む必要があり、この読み出し速度が生成速度を決めます。GPUでは重みがHBMにあるためHBM帯域が上限になります。
WSEは重みをオンチップSRAMに置くので、重みの読み出しが桁違いに速いオンチップ帯域で起こります。その結果、単一リクエストに対するトークン生成速度(トークン/秒)がGPU比で大きく高くなり得ます。ユーザーが「打ち込まれる速さ」を体感するチャットボットや、推論過程を長く展開する reasoning モデルで、この差はユーザー体験を変えます。
| ワークロード | ボトルネック | WSEの利点 |
| --- | --- | --- |
| 学習(大バッチ) | 演算 + 通信 | 通信削減、単一チップ効率 |
| バッチ推論(スループット) | 演算/帯域のバランス | 状況による |
| 低遅延推論(トークン/秒) | メモリ帯域 | オンチップSRAMで大きな利点 |
7. GPUクラスタとのトレードオフ
利点
- **単純なスケーリング**: モデルがチップに収まれば、複雑な並列化戦略(テンソル/パイプライン並列)を組まずに済みます。
- **低い推論遅延**: オンチップメモリのおかげでトークン生成が速いです。
- **通信オーバーヘッドの削減**: チップ間通信をチップ内部の短い経路に置き換えます。
- **電力効率**: データを遠くへ運ばないため、移動に使う電力が減ります。
限界
- **コストとアクセス性**: システム単価が高く、エコシステムがNVIDIAほど広くありません。
- **柔軟性**: GPUは汎用性が圧倒的です。グラフィックス、多様なHPC、あらゆるフレームワークがGPUを最優先で支えます。WSEは特定ワークロードに最適化されている分、汎用性で損をします。
- **エコシステムとツール**: CUDAを中心とした膨大なライブラリ、コミュニティ、人材プールは短期間で追いつくのが難しい堀です。
- **メモリ上限**: オンチップSRAMは速いが容量がHBM比で小さく、非常に大きなモデルはストリーミングなど追加技法に依存します。
8. どのワークロードに合うか
ウェハースケールが輝く場面は明確です。
- 遅延が重要なリアルタイムLLM推論(対話型、reasoningチェーンの長いモデル)
- 通信ボトルネックが学習効率を削る大規模モデル
- データ移動エネルギーが運用費の大きな割合を占める環境
逆に、多様なワークロードを1つのインフラで柔軟に回す必要がある、既存のCUDA資産とエコシステムに深く縛られている、コスト感度が高い一般的な環境では、GPUクラスタが依然として合理的な選択です。
2026年現在の大きな絵では、NVIDIAがアクセラレータ市場の約75〜80%を占め、Blackwell世代で影響力を固めつつあり、クラウド自社ASICと推論特化チップの比重が急速に拡大中です。推論capexが学習capexを初めて上回る転換点が近づくなか、「推論遅延」を武器にするCerebrasのような設計の存在意義はより明確になります。ウェハースケールはGPUを置き換える試みではなく、GPUが構造的に不利な領域を攻める別の答えです。
9. ウェハースケールを他のアクセラレータと並べる
同じメモリウォール問題を解こうとする様々な設計を1つの表にまとめると、ウェハースケールの位置が鮮明になります。
| 設計 | 核心アイデア | メモリ戦略 | 強みの領域 |
| --- | --- | --- | --- |
| GPU (Blackwell) | 汎用スループット最大化 | HBM(オフチップ、大容量) | 学習 + 幅広いワークロード |
| TPU (systolic) | 行列積専用格子 | HBM + オンチップバッファ | 大規模な学習/推論 |
| ウェハースケール(WSE) | チップをウェハーサイズに | オンチップSRAM中心 | 低遅延推論、通信回避 |
| 推論ASIC(Groqなど) | 推論特化データフロー | オンチップSRAM | 低遅延LLMサービング |
| インメモリ(CIM) | メモリで演算 | メモリ=演算器 | 超低電力エッジ推論 |
核心の直感はこうです。すべての設計が「データをより動かさない」という同じ目標へ向かいますが、その目標に到達する物理的手段が異なります。GPUは帯域を上げて正面突破し、ウェハースケールはチップを大きくしてデータをチップ内に閉じ込め、インメモリはメモリそのものを演算器に変えます。どちらが優れているというより、ワークロードのボトルネックの位置によって答えが分かれます。
シストリックアレイとの対比
TPUに代表されるシストリックアレイは、データが格子に沿って拍動(systolic)のように流れ、乗算-加算を累積します。WSEもデータがコア格子を流れる点で似ていますが、決定的な違いはメモリの位置です。シストリックアレイは依然として重み/活性値の相当部分をオフチップHBMに依存する一方、WSEはオンチップSRAMに重みを収める比率がはるかに高いのです。同じ「格子上のデータフロー」でも、データがチップを離れる頻度で分かれます。
10. 重みストリーミングをより深く見る
44GBのオンチップSRAMでも、数千億〜兆規模のパラメータモデルを一度に収めるのは難しいです。このときCerebrasが使うアプローチの核心は「活性値はチップに固定、重みは流し込む」です。
一般的なGPU学習 Cerebras 重みストリーミング
----------------- -----------------
重み + 活性値をGPUメモリに 活性値はWSEオンチップに常駐
モデルを複数GPUに分割(シャード) 重みは外部からレイヤー単位で流入
ステップごとにGPU間通信が急増 モデルをチップに刻んで収めない
この分離が与える利点は2つです。第1に「モデルサイズ」と「チップ容量」が切り離されます。チップをより大きくしなくてもより大きなモデルを扱えます。第2に活性値メモリがチップに留まるため、学習でよくある活性値の再計算(recomputation)や、活性値をオフチップへ送り出すコストが減ります。
代わりにトレードオフも明確です。重みを外部から流し込むにはその経路の帯域が十分でなければならず、レイヤーが非常に大きい場合この流入速度が新たな上限になり得ます。「オンチップに全部収める理想」と「外部から流し込む現実」の間の均衡点が、システム設計の核心です。
11. 事例で見る適合性 — いつ検討する価値があるか
抽象的な長所短所だけでは決断が難しいものです。具体的な状況をいくつか挙げて感覚をつかみましょう。
**状況A: 対話型 reasoning サービス。** ユーザーが質問を投げると、モデルが長い推論チェーンを展開して答えを作るサービスがあります。トークンを速く出すほどユーザーが早く答えを受け取り、同じGPU時間でより多くのリクエストを処理できます。トークン/秒がそのまま売上とユーザー満足に直結します。この場合、オンチップSRAMベースの速い重み読み出しが直接の利得になります。
**状況B: 多様なモデルを毎週入れ替える研究チーム。** 新しいアーキテクチャ、新しい演算子、実験的モデルを絶えず変えて回します。このときはコンパイラがすべての変形を滑らかに受け止める必要があり、特化ハードウェアより成熟したGPUエコシステムのほうが摩擦が少ないのです。柔軟性が遅延より重要な事例です。
**状況C: コスト感度の高い一般サービング。** トラフィックは多いが遅延要求は緩く、バッチでまとめてスループットを上げられるサービスです。この場合スループットあたりコストが核心で、大量普及したGPUの規模の経済が有利になり得ます。
決定の基準は1文に圧縮できます。「自分のサービスの価値が単一リクエストの遅延に縛られているか、それともスループットと柔軟性に縛られているか」。前者ならウェハースケールを、後者ならGPUをまず検討するのが合理的です。
12. 総所有コスト(TCO)の視点
ハードウェア選択はチップの値札だけで終わりません。運用全体を見るTCOの視点が必要です。
- **電力と冷却**: データ移動を減らせば同じ仕事をより少ない電力でこなします。電力がデータセンター拡張の実質的な上限になった時代に、ワットあたり性能はそのまま運用費です。
- **システム数と空間**: モデルが少数のシステムに収まれば、ラック空間、ネットワーキング、運用人員が減ります。
- **エンジニアリング時間**: 複雑な並列化を手でチューニングする人件費はしばしば過小評価されます。単純なスケーリングはそれ自体がコスト削減です。
- **エコシステムの摩擦**: 逆に、馴染みのないツールにチームを適応させるコスト、ライブラリ不在による迂回作業は隠れたコストです。
核心は「チップ単価」という1つの数字に騙されないことです。高いチップがより少ないシステムとより低い電力で同じ仕事をこなすなら、システム全体では安くなり得ます。逆もまた然りです。
13. よくある質問
**Q. ウェハースケールは結局GPUを置き換えますか?**
いいえ。GPUの汎用性とエコシステムは当面置き換え不可に近いです。ウェハースケールは特定領域(低遅延推論、通信ボトルネックの大きい学習)を狙う補完材と見るのが正確です。
**Q. コアが90万個なら開発者がそれを全部気にする必要がありますか?**
いいえ。コンパイラがモデルグラフをコア格子に自動配置します。開発者は標準フレームワークでモデルを定義することに集中します。
**Q. 欠陥のあるウェハーでどうやって正常性能が出るのですか?**
予備コアとルーティング再構成のおかげです。欠陥コアを迂回するよう経路を取り直し、論理的には完全なチップのように動作します。
**Q. オンチップSRAMが44GBならすべてのモデルが収まりますか?**
いいえ。非常に大きなモデルは重みを外部からストリーミングします。このときはその流入帯域が性能を左右します。
14. 製造とパッケージングの挑戦
ウェハースケールは設計だけでなく製造とパッケージングでも新しい問題を解く必要がありました。一般のチップは小さく、均一な電力供給と冷却が比較的容易ですが、食器の皿ほどある単一のチップは次元が違います。
- **電力供給**: 巨大なチップ表面全体に均一に電力を供給する必要があります。片側だけ電圧が下がるとその領域のコアが正しく動作しません。そのため電力をチップ上から垂直に引き込む方式など、特殊な電力伝達設計が必要です。
- **熱管理**: 大きな面積で発生する熱を均一に排出する必要があります。ホットスポットができるとその部分だけ性能が落ちたり寿命が縮んだりします。システム次元の精緻な冷却設計が必須です。
- **機械的応力**: シリコンとパッケージ材料は温度によって膨張率が異なります。チップが大きいほど加熱・冷却時に反る応力が大きくなり、それに耐えるパッケージングが必要です。
これらすべてを解いて初めて「ウェハー1枚 = チップ1つ」が実際の製品になります。ウェハースケールが単なるアイデアを超えてエンジニアリングの集約体である理由です。
一般チップ ウェハースケール
----------------- -----------------
小さな面積、均一電力が容易 巨大面積、電力均一性が課題
局所冷却 全面均一冷却が必要
応力が少ない 加熱/冷却応力が大きい
15. 開発者の視点 — 実務で何を点検するか
ウェハースケールシステムの導入を検討するチームなら、次を順に点検するとよいでしょう。
- **ワークロードプロファイリング**: まず自分の推論/学習の本当のボトルネックを測定します。メモリ帯域に縛られているか、通信に縛られているか、演算に縛られているかをデータで確認します。
- **モデル・演算子の支援**: 使うモデル構造と演算子がベンダーコンパイラでよく支援されるか確認します。核心の演算が1級支援されれば導入が滑らかです。
- **移行経路**: 既存コードをどれだけ直す必要があるか、標準フレームワークからどれだけ自然に移れるかを評価します。
- **ベンチマークは自分のワークロードで**: ベンダーが提示する数値ではなく、実際の自分のモデルと入力分布で測定したトークン/秒、遅延、電力を見ます。
- **TCOシミュレーション**: チップ単価ではなく、システム数、電力、運用人員を合わせた総コストで比較します。
この点検を通過するなら、ウェハースケールはGPUが与えられない価値を与え得ます。通過しないなら、無理に導入する理由はありません。道具は問題に合ってこそ輝きます。
15.5. 一目で分かる核心まとめ
長い記事を圧縮すると、次の5文に整理されます。
- ウェハースケールはメモリウォール、すなわちデータ移動コストの問題を正面から狙った設計です。
- WSE-3はウェハー1枚を丸ごとチップにし、約90万コアと約44GBのオンチップSRAMを収めます。
- メモリを演算の隣に分散しチップ間通信を減らすことで、特に低遅延推論で強みを見せます。
- 予備コアとルーティング再構成で欠陥に耐える設計が量産を可能にしました。
- 汎用性とエコシステムはGPUに譲るので、ワークロードのボトルネックがメモリ・通信のときに最も輝きます。
この5行を覚えておけば、細部の数字が変わってもウェハースケールを評価する基準は揺らぎません。
16. スパース性をより深く — 0をスキップするということ
先にWSEが0の値への乗算をスキップできると述べました。この点を少し解きほぐすと、ウェハースケール設計のもう1つの賢さが見えます。
ニューラルネットの活性値には意外と0が多いのです。ReLUのような活性化関数は負の入力をすべて0にするので、1レイヤー出力の半分以上が0になることも珍しくありません。デジタルアクセラレータは通常、これらの0も正直に乗算を行います。0を掛ければ結果が0だと分かっていても、固定された格子がすべての位置を同一に処理するからです。
密処理(dense) 疎処理(sparse)
----------------- -----------------
0 x w も計算 0の入力は乗算を省略
すべての位置を同一処理 非0の位置のみ演算
予測可能だが無駄 演算/電力を節約、制御が複雑
WSEはデータフロー構造のおかげで非0データにのみ反応するよう作れるため、こうした細粒度のスパース性をハードウェアレベルで活用します。理論的に活性値の半分が0なら、その分の演算と電力を節約できます。もちろんスパース性を活用するにはどこが0かを追跡するオーバーヘッドが伴い、その利得がオーバーヘッドを超えてこそ意味があります。固定された格子に依存するシストリックアレイがスパース性活用で相対的に不利な一方、データフローベースの設計が有利な地点がまさにここです。
17. より大きな流れの中のウェハースケール
最後に一歩引いて大きな流れを見ましょう。過去数十年、コンピューティングは「ムーアの法則」という追い風に乗ってきました。トランジスタが小さくなり多くなるにつれ、同じ面積により多くの演算が入りました。しかし微細化の速度が鈍化し、電力とメモリ帯域が新たな上限になるにつれ、「より小さく」だけでは足りない時代が来ました。
この転換期に現れた答えは互いに異なる方向を指します。チップレットやCoWoSのような高度なパッケージングは複数のダイを1つのようにまとめて「より小さく」の限界を回避し、HBMはメモリをチップの隣に積んで帯域を引き上げ、インターコネクト(NVLink、UALink)はチップ同士をより速くつなぎます。ウェハースケールはこの流れの極端にあります。「分割して再接続する」コストそのものをなくすために、いっそ分割しない道を選んだのです。
どの答えが最終的な勝者になるかはまだ分かりません。おそらく単一の勝者はいないでしょう。ワークロードごとにボトルネックが異なり、そのボトルネックごとに最も合う設計が異なるからです。明らかなのは、「1つの汎用チップがすべてをこなす」という単純な時代が暮れ、設計の多様性が爆発する時代が来たことです。ウェハースケールはその多様性の最も大胆な表現の1つです。
おわりに
Cerebrasのウェハースケールは「より速いコア」ではなく「データをより動かさない構造」でメモリウォールに答えます。ウェハー1枚を丸ごとチップにし、メモリを演算の隣に分散し、欠陥に耐える設計で量産を可能にしたことは、それ自体が見事なエンジニアリングです。
しかし、あらゆる強力な設計と同じく、これはトレードオフの産物です。汎用性とエコシステムを一部手放し、特定ワークロードの遅延と効率を得ました。ハードウェアを選ぶとき私たちが投げるべき問いは「どのチップが速いか」ではなく「自分のワークロードの本当のボトルネックは何か」です。そのボトルネックがメモリ帯域と通信なら、ウェハースケールは真剣に検討する価値のある答えです。
参考資料
- Cerebras 公式サイト: [https://www.cerebras.ai](https://www.cerebras.ai)
- Cerebras WSE 製品ページ: [https://www.cerebras.ai/product-chip](https://www.cerebras.ai/product-chip)
- NVIDIA Blackwell プラットフォーム: [https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/](https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/)
- Google Cloud TPU: [https://cloud.google.com/tpu](https://cloud.google.com/tpu)
- メモリウォール関連研究の検索(arXiv): [https://arxiv.org/list/cs.AR/recent](https://arxiv.org/list/cs.AR/recent)
- SemiAnalysis(半導体産業分析): [https://www.semianalysis.com](https://www.semianalysis.com)
현재 단락 (1/173)
GPUを数千枚つないで巨大モデルを学習させる時代に、Cerebrasは正反対の問いを立てました。「チップを細かく切って配線でつなぐ代わりに、いっそウェハー1枚を丸ごと1つのチップとして使ったらどうか」...