はじめに
長い間、私たちはチップの進歩を「トランジスタがどれだけ小さくなったか」で語ってきました。ムーアの法則は18〜24か月ごとにトランジスタ密度が二倍になるという経験則であり、実際に数十年にわたってその約束は守られてきました。ところが2026年現在、AIアクセラレータの性能を左右する問いは、もはや「何ナノのプロセスか」だけではありません。ますます重要になっている問いはこうです。「複数のダイ(die)をどのように一つのパッケージの中で貼り合わせ、つなぐのか。」
NVIDIAのBlackwellは、GTC 2026時点で、二つの巨大なダイをTSMCのCoWoS-Lパッケージングで結合した設計です。二つのダイは約10 TB/sに達するdie-to-dieリンクで結ばれ、あたかも一つのチップのように動作します。AMDのMI300、MI350系列はさらに一歩進み、GPUとCPUのダイをインターポーザの上に複数載せ、その上にHBMを積み上げたチップレットの集合体です。いまやアクセラレータの競争力は、単一ダイのシリコン設計だけでなく、それらのダイをどうパッケージングするかで分かれます。
本稿では、なぜモノリシックダイが限界にぶつかったのか、チップレットという発想が何を解決するのか、そしてCoWoSと3D積層、UCIe標準、HBM統合がどのように噛み合って動くのかを、順を追って見ていきます。最後には、TSMCを中心としたパッケージング供給網のボトルネックと、熱・電力という物理的課題、そして光集積という未来までを押さえます。
モノリシックダイの限界 — レチクルと歩留まりの壁
伝統的に、一つのチップは一つの巨大なシリコンダイで作られてきました。これをモノリシック(monolithic)設計と呼びます。CPUであれGPUであれ、すべての回路が一枚のシリコンの上に刻まれ、より強力なチップが欲しければダイを大きくすればよかったのです。ところがこのアプローチには二つの物理的限界があります。
レチクル限界
一つ目はレチクル(reticle)限界です。半導体の露光装置は、一度に露光できる領域の大きさが決まっています。現在のEUV露光機の一回の露光限界は、おおよそ横26mm、縦33mm、すなわち約858平方ミリメートル(約800平方ミリメートル台)の水準です。これより大きなダイは一回の露光では作れません。つまり、単一ダイの面積には物理的な上限が存在します。
NVIDIAの高性能GPUは、すでにこのレチクル限界にぴったり張り付いていました。Hopper世代のH100は約814平方ミリメートルで、事実上レチクル限界の近くでした。ダイをさらに大きくする余地がほとんどなかったのです。Blackwellが二つのダイに分かれた理由はまさにここにあります。より大きなチップが欲しくても単一ダイでは作れないので、二つのレチクル級ダイを貼り合わせて一つのように使ったのです。
歩留まりの壁
二つ目の限界は歩留まり(yield)です。シリコンウェハーには欠陥(defect)がランダムに分布します。ダイが大きいほど、そのダイの中に欠陥が一つでも含まれる確率が高くなります。単純化したモデルで見ると、ダイ面積が大きくなるほど良品比率は指数的に下がります。
良品歩留まり ≈ exp(-欠陥密度 × ダイ面積)
欠陥密度 = 0.1 / 平方cm と仮定すると:
ダイ面積 おおよその歩留まり
-----------------------------------
100平方mm 約90%
400平方mm 約67%
800平方mm 約45%
ダイが800平方ミリメートルに達すると、半分近くが不良として捨てられます。同じウェハーから作れる良品数が急激に減り、結局チップ一個あたりの原価が爆発的に上がります。面積が大きく歩留まりが低いダイは、経済的に持続不可能な地点に到達します。
この二つの壁 — レチクル限界と歩留まりの壁 — が、モノリシック設計の時代が暮れていく根本原因です。
チップレット — 大きなダイを細かく分ける
チップレット(chiplet)の発想は単純です。一つの巨大なダイを作る代わりに、機能ごとに細かく分けた複数の小さなダイを作り、それらを一つのパッケージの中で高速に接続するのです。それぞれの小さなダイをチップレットと呼びます。
モノリシック設計
+-----------------------------+
| |
| 一つの巨大なダイ |
| (レチクル限界、低い歩留まり) |
| |
+-----------------------------+
チップレット設計
+--------+ +--------+ +--------+
| ダイ A | | ダイ B | | ダイ C |
| (小さい)| | (小さい)| | (小さい)|
+--------+ +--------+ +--------+
\\ | /
\\ | /
高速 die-to-die インターコネクト
このアプローチにはいくつかの利点があります。第一に、小さなダイは歩留まりが高い。先の表で見たように100平方ミリメートルのダイは約90%の歩留まりを示すので、同じウェハーから良品をはるかに多く取れます。第二に、検証済みの良品ダイ(known-good-die)だけを選んでパッケージングできます。ダイをパッケージに貼り合わせる前に個別にテストし、不良ダイをあらかじめ取り除けます。第三に、異なるプロセスで作ったダイを混ぜられます。演算コアは最先端プロセスで、I/Oやメモリコントローラはより成熟して安価なプロセスで作り、コストを最適化できます。
AMDはこのチップレット戦略を最も積極的に推し進めた会社です。MI300、MI350系列はGPU演算ダイ、CPUダイ、I/Oダイをインターポーザの上に複数配置し、その上にHBMメモリを積み上げました。単一ダイでは作れない規模のアクセラレータを、検証済みの小さなダイの組み合わせで実現したのです。
2.5Dと3D — ダイを貼り合わせる二つの方式
チップレットを一つのパッケージの中で接続する方式は、大きく二つに分かれます。2.5D積層と3D積層です。
2.5D積層 (CoWoS)
2.5D方式では、複数のダイをインターポーザ(interposer)という薄いシリコン基板の上に並べて載せます。インターポーザには微細な配線が刻まれており、ダイ同士を非常に短く緻密な配線で接続します。ダイが横に並んで置かれるので「2.5次元」と呼びます。
TSMCのCoWoS(Chip-on-Wafer-on-Substrate)が代表的な2.5D技術です。名前のとおり、チップ(ダイ)をウェハー(インターポーザ)の上に載せ、それをさらに基板(substrate)の上に載せる構造です。
2.5D (CoWoS) 断面
[ダイ A] [HBMスタック] [ダイ B]
=================================== <- インターポーザ (シリコン)
+---------------------------------+
| 基板 (substrate) |
+---------------------------------+
| | | | <- パッケージピン (BGAなど)
3D積層
3D方式はダイを横ではなく上に積みます。ダイの上にさらに別のダイを直接載せ、TSV(Through-Silicon Via、シリコン貫通ビア)という垂直配線で上下のダイを接続します。垂直に積むので配線距離がさらに短くなり、面積あたりの密度が極大化します。
3D積層 断面
[上段ダイ]
==================== <- TSV (垂直貫通配線)
[下段ダイ]
+---------------------+
| 基板 |
+---------------------+
TSMCのSoIC(System on Integrated Chips)やIntelのFoverosが3D積層技術の例です。AMDの一部製品は、キャッシュダイを演算ダイの上に3Dで積んでキャッシュ容量を劇的に増やしたりもしました。
| 区分 | 2.5D (CoWoSなど) | 3D積層 (SoIC、Foverosなど) |
| --- | --- | --- |
| ダイ配置 | インターポーザ上に並べて | ダイの上にダイを垂直に |
| 接続方式 | インターポーザ配線 | TSV垂直貫通ビア |
| 配線距離 | 短い | 非常に短い |
| 熱管理 | 相対的に有利 | 困難 (上段ダイの放熱が難しい) |
| 面積効率 | 普通 | 非常に高い |
| 代表的用途 | GPU + HBM統合 | キャッシュ積層、ロジック積層 |
インターポーザとシリコンブリッジ — EMIB、InFO
2.5Dパッケージングの核心は、ダイ同士をどう接続するかです。ここにはいくつかの異なるアプローチがあります。
フルシリコンインターポーザ
最も直感的な方式は、ダイ全体を覆う大きなシリコンインターポーザを使うことです。CoWoS-Sがこの方式に近いです。大きなインターポーザは配線密度が高く安定していますが、インターポーザ自体もレチクル限界の影響を受けます。パッケージが大きくなるほど、複数枚のインターポーザをつなぎ合わせたり、より精緻なプロセスが必要になります。Blackwellが使ったCoWoS-Lは、こうした大型パッケージのために局所的なシリコンブリッジと再配線層を組み合わせた進化した方式です。
シリコンブリッジ (EMIB)
IntelのEMIB(Embedded Multi-die Interconnect Bridge)は、全体を覆う大きなインターポーザの代わりに、二つのダイが接する境界地点にだけ小さなシリコン片(ブリッジ)を基板の中に埋め込む方式です。必要な場所にだけ高密度配線を置くので、大きなインターポーザよりコストと面積の面で有利になり得ます。
フルインターポーザ vs シリコンブリッジ
フルインターポーザ:
[ダイ A]========[ダイ B]
======全体インターポーザ======
シリコンブリッジ (EMIB):
[ダイ A]==[ブリッジ]==[ダイ B]
+--基板に小さなブリッジだけ埋め込み--+
InFO (Integrated Fan-Out)
TSMCのInFO(Integrated Fan-Out)は、インターポーザなしで再配線層(RDL)を活用してダイを接続するファンアウト方式です。比較的薄く軽いパッケージを作れるので、モバイルや一部のアクセラレータ製品に使われます。
このようにインターポーザ、シリコンブリッジ、ファンアウトは、それぞれコスト、配線密度、パッケージサイズ、熱特性で異なるバランス点を提供します。どの方式を選ぶかが、そのまま製品の性能と原価を決める設計判断になります。
HBM統合 — メモリの壁をパッケージングで突き破る
AIアクセラレータで最大のボトルネックの一つはメモリ帯域幅です。巨大なモデルの重みを演算コアへ絶え間なく運び込まなければならないのに、データを動かすこと自体が演算よりも多くのエネルギーと時間を食う場合が多いのです。これをよくメモリの壁(memory wall)と呼びます。
HBM(High Bandwidth Memory)は、このメモリの壁に対するパッケージングの次元での解法です。HBMは複数枚のDRAMダイを垂直に積み、TSVで接続したメモリスタックです。このスタックをアクセラレータダイのすぐ隣、同じインターポーザの上に配置すると、メモリと演算コアの間の距離が劇的に短くなります。
HBM統合 (2.5D)
[HBMスタック] [GPUダイ] [HBMスタック]
(DRAM 4〜12層) (DRAM 4〜12層)
===================================== <- インターポーザ
非常に短く広い配線
距離が短い = 帯域幅が高い + 転送エネルギーが低い
データを動かす距離が短いほど、より広いバスを使え、ビットあたりの転送エネルギーも減ります。つまりHBM統合は、単にメモリをたくさん付けることではなく、メモリを演算コアに物理的に近づけるパッケージング技術です。
2026年現在、HBM4が登場し始めました。NVIDIAの次世代Vera Rubin(2026年後半予定)はHBM4を採用すると見られています。HBMの世代が上がるほど、より多くのDRAM層をより高い帯域幅で積めるようになり、それはすなわちより大きなモデルをより速く処理できることを意味します。
UCIe — チップレットのための共通言語
チップレットの時代には新しい問題が生じます。異なる会社が作ったダイをどう接続するのか。A社の演算ダイとB社のI/Oダイを一つのパッケージに貼り合わせるには、両者の間のdie-to-dieインターコネクト規格が統一されていなければなりません。
UCIe(Universal Chiplet Interconnect Express)は、まさにこの問題のためのオープン標準です。PCIeがボード上のチップ同士の標準インターフェースだったとすれば、UCIeはパッケージ内のダイ同士の標準インターフェースを目指します。UCIe 1.0に続いて2.0規格が定義され、物理層からプロトコル層まで、チップレット間通信の共通言語が整いつつあります。
UCIe 階層構造 (概念)
+-------------------------------+
| プロトコル層 (PCIe/CXLなど) |
+-------------------------------+
| アダプタ層 (信頼性/再試行) |
+-------------------------------+
| 物理層 (die-to-die 信号) |
+-------------------------------+
| パッケージ内配線 |
[ダイ A] <-----------> [ダイ B]
UCIeの意味は単なる技術規格にとどまりません。標準化されたdie-to-dieインターフェースが定着すれば、チップ設計会社がまるで部品を組み立てるように、異なる供給元のチップレットを選んで組み合わせられるチップレット・エコシステムが開きます。演算はある会社、メモリコントローラは別の会社、I/Oはまた別の会社 — こうした異種の組み合わせが現実になるのです。
歩留まりとコスト — 小さなダイが勝つ
チップレットが単に見事な工学的妙技ではなく経済的必然である理由を、改めて整理しておきます。核心は歩留まりとコストです。
先に見たように、ダイ面積が大きくなるほど良品歩留まりは指数的に下がります。巨大な単一ダイを作ると、欠陥一つでダイ全体を捨てなければなりません。一方、同じ機能を四つの小さなダイに分ければ、欠陥のあるダイだけ捨てて残りは生かせます。
同じ総面積、異なる分割戦略
戦略 A: 800平方mm 単一ダイ
歩留まり約45% -> 半分以上を廃棄
戦略 B: 200平方mm ダイ4個
各ダイ歩留まり約82%
良品ダイを選んで組み合わせ -> はるかに効率的
ここにknown-good-dieテストが加わります。小さなダイはパッケージング前に個別にテストできるので、良品と確認されたダイだけを高価なパッケージング工程に投入します。高価なパッケージング段階で不良を見つけて全体を捨てる無駄を減らせます。
さらにプロセス混合(process mixing)の利点も大きい。すべての回路が最先端プロセスを必要とするわけではありません。演算コアは最新プロセスの密度が必要ですが、I/Oやメモリコントローラはより成熟して安価なプロセスでも十分です。チップレット設計は、各機能に最もコスト効率の良いプロセスを割り当てられるようにしてくれます。
| 項目 | モノリシック | チップレット |
| --- | --- | --- |
| ダイサイズ | 大きい (レチクル限界) | 小さい |
| ダイ歩留まり | 低い | 高い |
| 欠陥時の廃棄 | ダイ全体 | 該当チップレットのみ |
| 事前テスト | 限定的 | known-good-die可能 |
| プロセス混合 | 不可 | 可能 |
| パッケージング複雑度 | 低い | 高い |
| die-to-die オーバーヘッド | なし | あり |
もちろんチップレットにもコストがあります。die-to-dieインターコネクトは追加の電力と遅延を生み、パッケージング自体がはるかに複雑で高価になります。しかしダイが十分に大きくなる領域では、チップレットの歩留まりの利点がこのオーバーヘッドを圧倒します。
パッケージングが性能を分ける
ここで核心の主張に到達します。2026年のAIアクセラレータでは、パッケージングこそが性能です。
考えてみれば、アクセラレータの性能は単に演算コアが何個あるかで決まるわけではありません。それらのコアにデータをどれだけ速く供給するか、コア同士がどれだけ速く通信するか、そしてチップ同士がどれだけ広い帯域で結ばれるかが、実際のワークロード性能を左右します。これらすべてがパッケージングの領域です。
Blackwellの二つのダイをつなぐ約10 TB/sのdie-to-dieリンクを考えてみましょう。この帯域幅が十分でなければ、二つのダイは一つのように動作できず、ソフトウェアは二つのチップとして認識します。パッケージングが生み出すこの広帯域リンクのおかげで、二つのダイが単一の論理GPUのように見えるのです。
HBM統合も同じです。同じ演算コアでも、メモリ帯域幅が二倍になれば、メモリバウンドなワークロードのスループットはほぼ二倍になります。巨大言語モデルの推論はかなりの部分がメモリバウンドなので、HBM帯域幅がそのまま推論スループットを決めます。
興味深い産業のシグナルを一つ付け加えると、2026年は推論(inference)の設備投資が学習(training)の設備投資を初めて追い越す年と観測されています。モデルを作ることよりモデルをサービスすることに、より多くのお金が入り始めたという意味です。推論は帯域幅と効率がそのままコストなので、HBMとパッケージングの重要性は今後さらに大きくなるでしょう。
供給網 — CoWoSキャパというボトルネック
ここで産業的な現実を一つ押さえなければなりません。先端パッケージングは誰にでもできるわけではなく、事実上少数のファウンドリがキャパ(生産能力)を握っています。とりわけTSMCのCoWoSキャパは、2026年現在、AIアクセラレータ供給の核心的ボトルネックに挙げられます。
状況を整理するとこうです。AIアクセラレータの需要は爆発的なのに、そのアクセラレータを作るにはCoWoSのような先端2.5Dパッケージングが必要です。ところがCoWoSラインを新たに敷いて歩留まりを引き上げるには、時間と莫大な投資がかかります。結果として、演算ダイは作れてもパッケージングするキャパが不足し、出荷が制約される状況が起こります。
AIアクセラレータ供給のボトルネック地点
[演算ダイ生産] --> [HBM供給] --> [CoWoSパッケージング] --> [出荷]
^^^^^^^^^^^^^^^^^^^^
ここがボトルネック (2026)
NVIDIAが市場で約75〜80%水準のアクセラレータシェアを維持するなか、AMDのMI350Xのような競合製品が同じパッケージングキャパをめぐって競争します。つまり先端パッケージングキャパは、単に技術の問題ではなく、誰がどれだけ多くのアクセラレータを市場に出せるかを決める戦略資源になりました。HBM供給も同様の緊張関係にあります。
この供給網の視点は、システムを設計したりインフラを調達したりする立場にとって、非常に現実的な含意を持ちます。アクセラレータ導入計画は、単に性能スペックではなく、パッケージングとHBMキャパの可用性によって日程が左右され得るのです。
熱、電力、反り — 物理の請求書
先端パッケージングはタダではありません。複数のダイとHBMスタックを一つのパッケージに押し込めば、物理が請求書を突きつけてきます。
熱 (Thermal)
最大の課題は熱です。狭い面積に巨大な電力が集中するので、発生する熱を抜くことがますます難しくなります。特に3D積層では、上段ダイの熱が下段ダイを通過しないと逃げられないので、放熱がさらに厄介です。そのため高性能アクセラレータは、ますます精緻な冷却、さらには液体冷却(liquid cooling)を要求します。
電力供給 (Power Delivery)
二つ目は電力供給です。巨大なダイの束に安定して電流を供給するには、パッケージと基板が莫大な電流に耐えなければなりません。電流経路が長かったり抵抗が大きかったりすると電圧降下が生じ、それがそのまま性能低下や不安定につながります。最近、電力をチップの裏面から供給する裏面電力供給(backside power delivery)のような手法が注目される理由はここにあります。
反り (Warpage)
三つ目はやや意外な反りです。シリコン、インターポーザ、基板は熱膨張係数が互いに異なります。パッケージが加熱と冷却を繰り返すと、それぞれ異なる比率で伸び縮みし、パッケージ全体が微細に反ります。パッケージが大きいほどこの反りはひどくなり、ひどいとダイ間の微細接合が切れたり信頼性の問題を引き起こします。大型CoWoSパッケージでは、反りの管理は非常に実質的なエンジニアリング課題です。
先端パッケージングの物理的請求書
熱集中 ------> 冷却/液冷が必要
電力集中 ----> 裏面電力供給、厚い電源網
熱膨張差 ----> パッケージの反り、接合信頼性
パッケージが大きいほど三つの請求書がすべて大きくなる。
未来 — 光集積とその先
電気配線でダイをつなぐことには限界があります。距離が遠くなるほど、電気信号はより多くのエネルギーを使い、より多くの損失を被ります。パッケージ内の短い距離は電気で十分ですが、パッケージとパッケージの間、ボードとボードの間のより遠い距離は、次第に負担になります。
そこで注目されるのが光集積、すなわちオプティカルI/O(optical I/O)です。光で信号を伝送すれば、距離による損失がはるかに少なく、非常に高い帯域幅をより低いエネルギーで運べます。シリコンフォトニクス(silicon photonics)をパッケージの中に持ち込み、光エンジンを演算ダイのすぐ隣に配置するコパッケージド・オプティクス(co-packaged optics)の研究が活発です。
電気 I/O vs 光 I/O
電気: [ダイ] ===銅配線=== [ダイ]
距離が遠いと損失/エネルギーが増加
光: [ダイ]--[光エンジン]~~~光~~~[光エンジン]--[ダイ]
距離に鈍感、高帯域、低エネルギー
大きな図で見れば、パッケージングの進化は一つの方向を指しています。演算、メモリ、通信を物理的にますます近づけることです。メモリはHBMで演算の隣に付き、ダイはチップレットで一つのパッケージに集まり、次の段階は通信(I/O)を光でパッケージの中に統合することです。ムーアの法則がトランジスタの微細化で性能を引き上げたとすれば、その先の世界では統合(integration)が性能を引き上げます。
開発者とシステムの視点
このすべてのハードウェアの話が、ソフトウェアを作る人にとってどんな意味を持つのでしょうか。思ったより直接的です。
第一に、データ移動を意識するコードがますます重要になります。メモリの壁が実在する限り、演算量を減らすことよりデータ移動を減らすことのほうが、より大きな性能の利得を与える場合が多いのです。データをコアの近くに置いて再利用するパターン — タイリング、融合(fusion)、キャッシュ親和的なアクセス — が、ハードウェアのパッケージング構造と噛み合って性能を左右します。
第二に、ダイ/チップの境界を意識することが重要になります。Blackwellのように二つのダイがdie-to-dieリンクで結ばれたアクセラレータでは、リンクをまたぐ通信がダイ内部の通信より高くつきます。マルチGPU、マルチダイ環境でワークロードをどう分割し配置するかが性能を分けます。NVLinkやUALinkのようなチップ間インターコネクトのトポロジを理解することが、分散学習と推論最適化の出発点になります。
第三に、インフラ調達とキャパシティ計画の視点です。先に見たCoWoSとHBMのキャパボトルネックは、アクセラレータの可用性と価格に直接影響します。大規模な推論サービスを計画するなら、性能スペックだけでなく、供給の可能性とリードタイムまで考慮しなければなりません。
開発者が覚えておく三つのこと
1. データ移動は演算より高くつく (メモリの壁)
2. die-to-die / チップ間通信は内部通信より高くつく
3. パッケージング/HBMキャパが可用性とコストを左右する
もう少し実務的に、性能を考えるときに点検できるチェックリストを整理しておきます。
パッケージング意識の最適化チェックリスト
[ ] ワークロードがメモリバウンドか演算バウンドかをまず測定したか
[ ] 推論なら、KVキャッシュがHBM帯域幅をどれだけ占有するか把握したか
[ ] データ再利用(タイリング、融合)でHBMの往復を減らしたか
[ ] マルチダイアクセラレータで、die-to-dieリンクをまたぐ通信を最小化したか
[ ] テンソル/パイプライン並列の分割がチップ間インターコネクトのトポロジに合っているか
[ ] 通信と演算を重ねて(overlap)リンク遅延を隠したか
[ ] 調達段階で、パッケージング/HBMキャパのリードタイムを日程に反映したか
[ ] アクセラレータ世代交代時に、HBM容量/帯域幅の変化がバッチサイズに与える影響を検討したか
このチェックリストの前のほうの項目はコードレベル、後ろのほうの項目はシステムと調達レベルです。興味深いのは、この二つが次第に分離しなくなることです。どのアクセラレータを確保できるかが、どの並列化戦略が可能かを決め、その並列化戦略がさらにパッケージング構造の上での通信パターンを決めます。ハードウェアの物理的統合が深まるほど、ソフトウェア最適化もその物理構造をより深く意識しなければなりません。
歩留まり計算を自分でやってみる — 800平方mm単一ダイ対200平方mmチップレット四つ
先ほど「小さなダイが勝つ」と述べましたが、数字で自分で確かめないとなかなか腑に落ちません。同じ総面積を持つ二つの戦略を、同一の仮定のもとで最後まで計算してみます。
仮定は単純です。欠陥密度は平方センチメートルあたり0.1個、歩留まりモデルは先に使った負の指数モデルをそのまま使います。800平方ミリメートルは8平方センチメートル、200平方ミリメートルは2平方センチメートルです。
共通の仮定
欠陥密度 D = 0.1 / 平方cm
歩留まりモデル Y = exp(-D × A), A はダイ面積(平方cm)
戦略 A — モノリシック 800平方mm ダイ一個
A = 8.0 平方cm
Y = exp(-0.1 × 8.0) = exp(-0.8) ≈ 0.449
-> ダイ一個の良品確率 約44.9%
戦略 B — 200平方mm チップレット四個 (合計800平方mm)
各チップレット A = 2.0 平方cm
チップレット一個の歩留まり = exp(-0.1 × 2.0) = exp(-0.2) ≈ 0.819
-> チップレット一個の良品確率 約81.9%
ここで一つ注意があります。戦略Bで「四個すべてが良品である確率」をそのまま掛けると、0.819の四乗、つまり約45%となり、モノリシックと大差ないように見えます。しかしこれが落とし穴です。チップレットの本当の利点は、良品ダイだけを選んで使うknown-good-die選別にあります。不良チップレットはパッケージング前に捨て、良品だけを集めて貼り合わせるので、「四個が同時に良品」である必要はありません。
同じウェハーから取れる良品面積 (直感的な比較)
ウェハー一枚で使えるシリコン面積を100とすると:
戦略 A (800平方mm ダイ):
作れるダイ数が少なく、そのうち約45%だけが良品
-> 廃棄される大きなダイごとに800平方mmが丸ごと廃棄
戦略 B (200平方mm チップレット):
同じ面積でダイを四倍多く打ち抜き
そのうち約82%が良品、不良は200平方mmだけ廃棄
-> 廃棄単位が1/4に小さくなり実効良品面積が大きく増加
数字で言えば、廃棄されるシリコン面積の期待値は、戦略Aではダイ一個あたり約0.55 × 800 = 440平方ミリメートルに達する一方、戦略Bではチップレット一個あたり約0.18 × 200 = 36平方ミリメートルにとどまります。同じ総面積を作るにはチップレットが四個必要なので36 × 4 = 144平方ミリメートル、それでも戦略Aの440よりはるかに少ない。つまり同一面積基準で、チップレット側が捨てるシリコンは約三分の一の水準です。
ここにパッケージングコストが加わります。チップレットはインターポーザ、追加のボンディング、検査工程が入るので、ダイあたりのパッケージング原価がモノリシックより高くなります。だから結論は面積依存です。ダイが小さいときはモノリシックのほうが安く、ダイがレチクル限界に近づくほどチップレットの歩留まりの利点がパッケージングの追加コストを圧倒します。BlackwellやMI350のような超大型アクセラレータがチップレットへ向かうのは、まさにこの損益分岐を越えたからです。
UCIe深掘り — 標準パッケージ対アドバンスドパッケージ
先ほどUCIeを「チップレットのための共通言語」として紹介しました。ここで一段深く入ってみます。UCIeの物理層は、大きく二つのパッケージ等級を定義します。標準パッケージ(standard package)とアドバンスドパッケージ(advanced package)です。
標準パッケージは、一般的な有機基板(organic substrate)の上で比較的ゆとりのあるバンプピッチでダイを接続します。配線密度が低い代わりに、製造が安くて容易です。アドバンスドパッケージは、シリコンインターポーザやブリッジのような高密度媒体の上で、はるかに緻密なバンプピッチで接続します。製造は高価ですが、同じ縁(shoreline)の長さあたり、はるかに多くの配線を通せます。
ここでの核心概念が縁の帯域幅、すなわちショアライン帯域幅(shoreline bandwidth)です。die-to-die接続の帯域幅は、ダイの面積ではなく、二つのダイが接する縁の長さで制約されます。そのため業界は帯域幅を「縁1ミリメートルあたり何ギガバイト」で測ります。
ショアライン帯域幅 (縁1mmあたりのdie-to-die帯域幅)
+----------+
| ダイ A |
+----------+
^^^^^^^^^^^^ <- この縁の長さの分だけしか配線を通せない
接する縁 = shoreline
UCIe 標準パッケージ: おおよそ縁1mmあたり数十GB/s水準
UCIe アドバンスドパッケージ: おおよそ縁1mmあたり数百GB/s以上
同じ縁でも、アドバンスド側が一桁高い密度
長い距離を送る必要があるときは、リタイマー(retimer)が必要になります。標準パッケージの電気信号は距離が長くなると減衰するので、途中で信号を整形し増幅するリタイマーチップを置いて到達距離を伸ばします。ただしリタイマーは追加の遅延と電力を生むので、可能ならアドバンスドパッケージで距離を短く取るほうが有利です。
UCIeを競合インターコネクトと並べて見ると、その位置づけが明確になります。NVLink-C2CとInfinity Fabricは、それぞれNVIDIAとAMDの独自規格で、自社エコシステムの中で高度に最適化されています。UCIeは性能でこれらと競いつつ、オープン標準という点で、異なる供給元のチップレットを混ぜられる道を狙います。
| 項目 | UCIe (アドバンスド) | Infinity Fabric (AMD) | NVLink-C2C (NVIDIA) |
| --- | --- | --- | --- |
| 性格 | オープン標準 | 独自規格 | 独自規格 |
| 主な用途 | 異種チップレット接続 | AMDチップレット/パッケージ内部 | CPU-GPU、ダイ間結合 |
| 複数ベンダー | 志向 (目標) | 限定的 | 限定的 |
| 物理層 | 標準/アドバンスドの2種 | 自社定義 | 自社定義 |
| 帯域密度 | 縁あたり数百GB/s級 | 非常に高い | 非常に高い |
| エコシステムの意味 | チップレットの部品化 | 垂直統合 | 垂直統合 |
表だけ見ると、UCIeがすぐに独自規格を置き換えそうに見えますが、現実はもっと複雑です。独自規格は単一の会社が物理層からソフトウェアスタックまで丸ごと最適化できるので、当面は最高性能を保ちやすい。UCIeの本当の武器は絶対性能ではなく、チップレットを市場で売買できる部品にする標準化そのものです。
パッケージング技術を一目で比較 — 2.5D、3D、InFO、EMIB、Foveros
これまで登場したパッケージング方式が多くなったので、一つの表に整理してみます。核心の軸は、積層方向、バンプピッチ(緻密なほど配線密度が高い)、相対コスト、そして代表的用途です。
| 技術 | 積層/構造 | 接続媒体 | バンプピッチ | 相対コスト | 代表的用途 |
| --- | --- | --- | --- | --- | --- |
| 2.5D CoWoS-S | 平面 (ダイを並べて) | フルシリコンインターポーザ | 非常に緻密 | 高い | GPU + HBM統合 |
| 2.5D CoWoS-L | 平面 + 局所ブリッジ | ブリッジ + 再配線層 | 非常に緻密 | 非常に高い | 超大型多ダイ (Blackwell) |
| InFO | 平面 (インターポーザなし) | 再配線層(RDL) | 普通 | 中間 | モバイル、軽量アクセラレータ |
| EMIB | 平面 + 埋込ブリッジ | 基板内シリコンブリッジ | 緻密 | 中上 | 多ダイ (Intel系列) |
| 3D Foveros | 垂直積層 | ダイ間微細バンプ | 緻密 | 高い | ロジック上ロジック積層 |
| 3D SoIC | 垂直積層 | ハイブリッドボンディング | 非常に緻密 | 非常に高い | キャッシュ積層、高密度ロジック |
表を横に読むと、一つの傾向が見えます。コストが上がるほどバンプピッチが緻密になり、配線密度が高くなります。つまりより高価なパッケージングは、より短くより広いdie-to-die接続を意味し、それがそのまま帯域幅と効率に換算されます。ハイブリッドボンディング(hybrid bonding)はこの流れの末端にある技術で、バンプなしで銅パッドを直接貼り合わせ、マイクロメートル以下の極めて緻密な接続を作り出します。
設計者はこの表の上で一点を選んでいるわけです。コストを抑えつつ帯域幅を譲るのか、コストを注ぎ込んで最も緻密な接続を得るのか。製品の性格 — モバイルかデータセンターアクセラレータか — がその選択を左右します。
CoWoSキャパと供給網ランプ — なぜBlackwellとMI350の供給が結びつくのか
先ほどCoWoSキャパがボトルネックだと述べましたが、時間軸に載せて見ると、その深刻さがより明確になります。核心は単純です。先端パッケージングのキャパを増やす速度が、AIアクセラレータの需要が爆発する速度に追いつきません。
CoWoSキャパのランプと需要 (概念的な推移、2024-2026)
需要 -----------------------------/
/
/
キャパ --------------/------/
/ /
2024 2025 2026
------------------------------------
差(需要 - キャパ) = 出荷制約 = 割り当て(allocation)
キャパを増やすには、インターポーザ製造ライン、ボンディング装置、検査設備を新たに敷き、歩留まりを引き上げなければならず、ここには数か月から数年のリードタイムと莫大な資本がかかります。だから2024年から2026年までファウンドリがCoWoSキャパを積極的に増やしてきたにもかかわらず、増えたキャパがすぐに消化される状況が繰り返されます。
このボトルネックは、そのまま製品供給に波及します。NVIDIAのBlackwellとAMDのMI350系列は、いずれも同じ種類の先端2.5DパッケージングとHBMに依存します。つまり両社の最上位製品が、同じ限られた資源をめぐって競争します。演算ダイをいくら速く打ち抜いても、パッケージングスロットとHBM物量を確保できなければ、完成品を出荷できません。
供給が結びつく構造
演算ダイ (相対的に余裕)
|
HBM物量 (緊張) ------+
| |
CoWoSスロット (ボトルネック) -+--> 両方が確保されて初めて出荷
|
完成アクセラレータ (割り当て制で配分)
その結果現れる現実が割り当て(allocation)です。アクセラレータを買いたいからといってすぐに買えるわけではなく、供給元が定めた優先順位に従って物量が配分されます。大手クラウド事業者がまず確保し、その後に残りの需要が列を作ります。インフラを調達する立場では、この割り当て構造とリードタイムが、性能スペックと同じくらい重要な変数になります。
おわりに
ムーアの法則は終わったとよく言われますが、より正確には舞台の主役が変わったと言うべきでしょう。トランジスタをより小さくする競争はいまも続いていますが、ますます大きな性能の利得は、ダイをどう分け、貼り合わせ、つなぐか — すなわち先端パッケージングから生まれています。
モノリシックダイはレチクルと歩留まりの壁にふさがれ、その答えとして登場したチップレットは、小さなダイを検証して組み合わせる新しい経済学を開きました。CoWoSと3D積層はこれらのダイを一つのチップのように束ね、HBMはメモリの壁をパッケージングで突き破り、UCIeはチップレットが共通言語で対話する道を切り拓いています。そしてそのすべての背後には、CoWoSキャパという供給網のボトルネックと、熱・電力・反りという物理の請求書があります。
2026年のAIアクセラレータ競争は、誰がより速いコアを設計するかの戦いというより、誰がより賢く統合し、より安定してパッケージングできるかの戦いです。ムーアの法則の先の世界は、結局のところパッケージングの世界です。
参考資料
- [TSMC — 3DFabric / Advanced Packaging](https://www.tsmc.com/)
- [NVIDIA — Data Center GPU プラットフォーム](https://www.nvidia.com/)
- [AMD — Instinct Accelerators](https://www.amd.com/)
- [UCIe — Universal Chiplet Interconnect Express](https://www.uciexpress.org/)
- [Intel — Foveros / EMIB Advanced Packaging](https://www.intel.com/)
- [SemiAnalysis — 半導体供給網およびパッケージング分析](https://www.semianalysis.com/)
- [IEEE Spectrum — Chiplets and Advanced Packaging](https://spectrum.ieee.org/)
- [Chips and Cheese — マイクロアーキテクチャ詳細分析](https://chipsandcheese.com/)
- [Synopsys — Multi-Die Systems / UCIe IP](https://www.synopsys.com/)
현재 단락 (1/257)
長い間、私たちはチップの進歩を「トランジスタがどれだけ小さくなったか」で語ってきました。ムーアの法則は18〜24か月ごとにトランジスタ密度が二倍になるという経験則であり、実際に数十年にわたってその約束...