Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

はじめに

2026年のAIハードウェア業界で最大の話題は、もはや「演算をどれだけ速くするか」ではありません。本当のボトルネックは「データをどれだけ安く速く運ぶか」へと移りました。GPU一枚の浮動小数点演算能力は過去10年で数十倍に伸びましたが、そのGPUにデータを供給するメモリ帯域幅と、チップ間をつなぐインターコネクトは同じ速度では追いついていません。

この差はよく「メモリウォール(memory wall)」と呼ばれます。そして2026年現在、メモリウォールを越えるための最も野心的なアプローチの一つが、光でデータを運ぶこと、すなわちフォトニックコンピューティングと光インターコネクトです。

本稿では、電気インターコネクトがなぜ限界にぶつかったのかから始め、シリコンフォトニクスの基本部品、光インターコネクトが持つ物理的な利点、Lightmatterの Passage やDARPAのフォトニックプロジェクトといった実例、そして2026年の学界における光テンソルコア研究とco-packaged optics(CPO)の商用化課題までを幅広く扱います。GPUとCUDAで仕事をしてきた開発者にとってこの変化が何を意味するのかも、最後に整理します。

電気インターコネクトの限界

メモリウォールはなぜ生じるのか

現代のAIアクセラレータの構造を単純化すると「巨大な演算ユニット + その横に貼り付いた高帯域メモリ(HBM)」です。問題は、演算ユニットの処理量と、メモリからデータを引き出す帯域幅の成長速度が異なる点にあります。

演算能力 vs メモリ帯域幅 (概念的な成長曲線)

性能

| 演算(FLOPs)

| .-'

| .-' メモリ帯域幅

| .-' ____________------

| .-' _______---

| .-' _______--

|__---__-------------------------------------> 時間

(差 = メモリウォール)

演算ユニットはデータを待って遊んでしまい、この「飢えた演算ユニット」現象こそメモリウォールの本質です。NVIDIA Blackwell 世代(GTC 2026時点)は第2世代 Transformer Engine で演算効率を引き上げましたが、結局HBM帯域幅とチップ間接続が全体性能の上限を決める構造はそのままです。

データ移動エネルギーが演算エネルギーを圧倒する

より根本的な問題はエネルギーです。現代のプロセスで64ビット浮動小数点の加算一回に要するエネルギーは数フェムトジュール(fJ)程度ですが、そのデータをチップの反対側へ、あるいは隣のチップへ運ぶのに要するエネルギーは数ピコジュール(pJ)に達します。つまり「計算するよりも運ぶ方が数十〜数百倍高い」という逆説が起きます。

演算 vs データ移動エネルギー (おおまかな相対比較)

操作エネルギー(相対値)

-----------------------------------------------

32ビット整数の加算非常に小さい (基準1)

32ビットSRAM読み出し約5

短いオンチップ配線の移動約数十

長いオンチップ配線の移動約数百

チップ外(off-chip)転送約1000以上

データを遠くへ運ぶほどエネルギーコストは指数関数的に大きくなります。データセンターの電力予算のかなりの部分が、実際の演算ではなくデータをあちこちへ運ぶことに使われているわけです。

銅の物理的限界:到達距離と損失

電気信号を銅配線で送ると、周波数が高くなるほど信号が急激に減衰します。これを補償するには、より強いドライバ、より複雑な等化器(equalizer)、より多くの電力が必要です。その結果、高速な電気リンクは次のような三重苦に悩まされます。

- 到達距離(reach):数十cmを越えるだけで信号の完全性を保つのが難しくなります。

- 損失(loss):周波数が上がるほど挿入損失が大きくなります。

- クロストーク(crosstalk):配線が密になるほど隣のチャネルとの干渉が激しくなります。

Cerebras WSE-3 のようなウェーハスケールチップが登場した理由も、この文脈で理解できます。WSE-3は約4兆個のトランジスタ、約90万個のコア、約44GBのオンチップSRAMを一枚のウェーハに収め、オンチップ帯域幅を約21 PB/sまで引き上げました。「チップ外へデータを出すのが最も高いなら、いっそ全部を一つのチップに入れよう」という発想です。しかしウェーハ一枚にも限界があり、複数のウェーハや複数のシステムをつないだ瞬間、再びインターコネクトの問題が戻ってきます。まさにここで光が登場します。

シリコンフォトニクスの基礎

シリコンフォトニクスは、既存のCMOS半導体プロセスに近い方法で光を扱う部品をシリコンチップ上に作る技術です。いくつかの中核部品を見ていきます。

導波路(waveguide)

導波路は光が通る道です。シリコンとシリコン酸化物の屈折率差を利用して光を狭いチャネルの中に閉じ込めて伝えます。電気回路の配線に相当しますが、光は互いに干渉せず交差でき、周波数が上がっても損失が比較的小さいという利点があります。

変調器(modulator)

電気信号を光に載せる部品です。デジタルビット(0と1)を光の強度や位相の変化に変えます。代表的にはマッハ・ツェンダー変調器(MZM)とマイクロリング変調器(microring modulator)があります。

光検出器(photodetector)

変調器とは逆に、到達した光を再び電気信号に変える部品です。通常はゲルマニウム(Ge)をシリコンに統合して作ります。光リンクの「受信端」に相当します。

マッハ・ツェンダー干渉計(MZI)

光を二つに分けたあと片方の位相を変えて再び合わせると、二つの光の位相差に応じて強め合いと打ち消し合いの干渉が起きます。この原理で光をスイッチングしたり重みを掛けたりできます。MZIは後で扱う光行列乗算の中核となるbuilding blockです。

マッハ・ツェンダー干渉計(MZI) 概念図

位相シフタ(phase shifter)

入力 ---+--[ theta ]--+--- 出力1 (明/暗)

| |

+--------------+--- 出力2

分波器結合器

(splitter) (combiner)

位相差 theta に応じて二つの出力の光強度比が決まる

マイクロリング共振器(microring resonator)

小さなリング状の導波路で、特定波長の光だけを共振させて閉じ込めるフィルタの役割を果たします。サイズが小さく集積度が高く、変調器や波長フィルタとして使われます。ただし温度に非常に敏感で、後述する熱安定性問題の主犯でもあります。

波長分割多重(WDM)

一つの導波路に異なる波長(色)の光を同時に複数載せて送る技術です。電気配線一本には信号一つですが、光導波路一本には複数の波長を同時に流せます。これが光インターコネクトの帯域密度を爆発的に高める鍵です。

WDM: 一つの導波路に複数波長を同時伝送

lambda1 --+

lambda2 --+

lambda3 --+--[ マルチプレクサ ]== 導波路1本 ==[ デマルチプレクサ ]--+-- lambda1

lambda4 --+ +-- lambda2

+-- lambda3

(銅一本 = 信号一つ) +-- lambda4

(光導波路一本 = 信号複数)

光インターコネクトの利点

光でデータを運ぶと、電気に対して次のような物理的利点が生まれます。

高い帯域密度

WDMのおかげで一つの物理チャネルに複数波長を載せられるため、単位面積・単位エッジ(edge)あたりの帯域が電気に比べてはるかに高くなります。チップのエッジ(beachfront)は有限の資源ですが、光は同じエッジからはるかに多くのビットを出せます。

低い遅延(latency)

光導波路の中で光は非常に速く伝播し、電気リンクのような重い等化や再送の負担が少なくなります。距離が遠くなっても遅延の増加は緩やかです。

低いクロストーク(crosstalk)

異なる波長の光は同じ導波路の中でもほとんど干渉しません。電気配線のように隣のチャネルへ信号が漏れることがはるかに少なくなります。

距離に鈍感なエネルギーコスト

電気リンクは距離が遠くなるほどエネルギーが急増しますが、光リンクは変調と検出に要するコストが支配的なため、いったん光に変えた後は距離に比較的鈍感です。光I/Oが目指すビットあたりエネルギーは、数pJよりはるかに低い領域まで下がります。

下の表は電気インターコネクトと光インターコネクトのおおまかな性格比較です。

| 項目 | 電気インターコネクト(銅) | 光インターコネクト(フォトニクス) |

| --- | --- | --- |

| 到達距離 | 短い(数十cm) | 長い(メートル〜数十メートル以上) |

| 帯域密度 | 限定的 | 高い(WDM活用) |

| 距離に対するエネルギー | 急増 | 比較的鈍感 |

| クロストーク | 大きい | 小さい |

| 成熟度 | 非常に成熟 | 発展途上 |

| 熱・パッケージング難度 | 低い | 高い(レーザ、リング安定化) |

Lightmatter Passage — 3Dフォトニックインターポーザ

Lightmatterは光インターコネクト分野で最も注目される企業の一つです。彼らの Passage はチップの下に敷かれる「光インターポーザ(photonic interposer)」です。

従来のインターポーザは、複数のチップレット(chiplet)を電気配線でつなぐパッケージング基板です。Passageの考え方は、このインターポーザ自体に光導波路の層を内蔵し、その上に載った演算チップ同士が光で通信するようにすることです。

3Dフォトニックインターポーザ概念図

[ 演算チップ A ] [ 演算チップ B ] [ 演算チップ C ]

| | |

===光 I/O======光 I/O======光 I/O==== <- 光インターポーザ層

|| 導波路 + WDM ルーティングメッシュ(mesh) ||

===================================

(電気配線の代わりに光でチップ間を接続)

こうするとチップたちはあたかも一つの大きなファブリックの上に置かれたように動作し、チップエッジの帯域限界を光で迂回できます。複数のGPUやアクセラレータを一つの巨大な論理的演算資源としてまとめるのに有利です。

似た方向の企業として、Ayar Labsはチップレット形態の光I/O(「optical I/O chiplet」)を提供して既存のSoCの横に貼り付け光リンクを追加するアプローチを取り、Celestial AIは Photonic Fabric という名前でメモリと演算を光でつなぐファブリックを推進しています。アプローチは少しずつ異なりますが、共通した目標は「データ移動を光に変えてメモリウォールを越えること」です。

DARPAフォトニックプロジェクト — ウェーハスケールノードの接続

米国のDARPAは古くからフォトニクスに投資してきました。2026年時点で特に興味深い方向は、先に見たウェーハスケール演算ノードを光で接続する研究です。

ウェーハスケールチップはチップ一つの中では膨大な帯域を持ちますが、複数のウェーハや複数のシステムをまとめた瞬間、再び電気インターコネクトの限界にぶつかります。DARPAのフォトニックプログラムは、この「ノード間(node-to-node)」接続を光で解き、複数の巨大チップを一つのシステムのように動作させることを目指します。

中核となる技術課題は次のとおりです。

- ウェーハのエッジで光を効率よく入れ出しする結合(coupling)技術

- 多数の波長を安定して供給するレーザ光源

- 数千本の光チャネルを一度にルーティングするスイッチングファブリック

- 軍事・宇宙環境でも耐える信頼性と熱安定性

このような国家規模のR&D投資が、商用エコシステムの基盤技術を引き上げる役割を果たします。

光テンソルコアとフォトニックインメモリ研究

ここまでは「データを運ぶインターコネクト」としての光を話してきましたが、より急進的な方向は「演算そのものを光で行うこと」です。2026年のarXivやNature Photonicsなどには、このテーマの研究が活発に上がっています。

光で行列を掛けるということ

ディープラーニングの中核演算は結局のところ行列乗算です。ところが先に見たMZIを格子(mesh)状に配置すると、光がその格子を通過するだけで線形変換(行列乗算)が起きます。位相シフタの設定がそのまま行列の重みになるわけです。

MZIメッシュベースの光行列乗算概念

入力ベクトル (光の振幅でエンコード)

x1 --+

x2 --+ +--[MZI]--[MZI]--+

x3 --+->| [MZI]--[MZI] |--> 出力ベクトル y = W . x

x4 --+ +--[MZI]--[MZI]--+

(位相シフタ設定 = 重み行列 W)

光は光速で格子を通過するので、理論上は一度の通過だけで行列乗算が完了します。乗算-累積(MAC)をほぼ受動的に、非常に低いエネルギーで実行できる点が魅力です。こうした構造はよく「光テンソルコア(photonic tensor core)」と呼ばれます。

フォトニックインメモリコンピューティング

もう一つの方向は、重みを光素子(例えば相変化材料やマイクロリング)に物理的に保存しておき、その場で光を通過させて乗算を行う「フォトニックインメモリ(photonic in-memory)」研究です。データをメモリから演算ユニットへ運ぶ過程そのものをなくそうとする試みで、メモリウォール問題を正面から狙います。

学界では、相変化材料を用いた光メモリ、MZIメッシュベースの光ニューラルネットワーク、周波数コム(frequency comb)を活用した並列光演算などが主要なキーワードとして扱われています。(特定のarXiv番号を引用するよりも、研究の流れとキーワードで覚えておく方が安全です。)

ただしこれらの研究はまだ実験室段階のものが多く、精度(アナログ演算のノイズ)、再構成速度、非線形関数の処理、デジタルシステムとの統合など、解くべき課題が多くあります。短期的により現実的なのは「演算は依然として電気で行いつつ、チップ間の通信だけを光に変える」光インターコネクトです。

Co-Packaged Optics(CPO)

光インターコネクトが実際の製品に入る最も近い形が、co-packaged optics、すなわちCPOです。

従来は光モジュール(オプティクス)がスイッチやアクセラレータボードのエッジに別部品(pluggable transceiver)として挿さっていました。CPOはこの光エンジンをスイッチASICやGPUパッケージのすぐ横、同じ基板の上に統合します。電気信号が銅の上を長く走る必要なく、パッケージの中で直ちに光に変換されるのです。

Pluggableオプティクス vs Co-Packaged Optics

[Pluggable]

ASIC --長い銅トレース-- ボードのエッジ - [光モジュール]

(銅区間が長いほど損失/電力が増加)

[CPO]

+---------- パッケージ ----------+

| ASIC -短い接続- [光エンジン] |=== 光ファイバへ直接出力

+-------------------------------+

(銅区間を最小化、ビットあたりエネルギー削減)

CPOの利点は明確です。銅区間が短くなりビットあたりエネルギーが減り、帯域密度が高まります。主要なスイッチベンダがCPOベースの製品を出し始め、AIクラスタのスケールアウトネットワークで特に注目されています。

NVIDIAの次世代ロードマップ(2026年後半の Vera Rubin 世代、HBM4採用、ワットあたり性能約10倍向上を目標)でも、チップ間・ノード間の接続を光へ引っ張ろうとする流れが読み取れます。2026年は推論(inference)のcapexが学習(training)のcapexを初めて上回る年と見込まれており、推論は大規模に分散配置されるだけにノード間通信効率がそのままコストに直結します。NVIDIAがアクセラレータ市場の約75〜80%を占める状況で、彼らのインターコネクト選択が業界標準を左右する可能性が大きいです。

商用化の課題

光が良いことは皆が知っているのに、なぜまだすべてのチップが光で通信しないのでしょうか。商用化には手強い壁があります。

歩留まり(yield)

光部品はナノメートル単位の精度を要求します。導波路の幅が少し変わるだけで特性が変わるため、大量生産で一貫した品質を出すのが難しいのです。歩留まりが低ければそのままコスト上昇になります。

マイクロリングの熱安定性

先にマイクロリングは温度に非常に敏感だと述べました。チップ温度が数度変わるだけで共振波長がずれ、リングが機能しなくなります。これを補正するにはヒータとフィードバック制御が必要ですが、この制御回路がまた電力を消費します。「データ移動エネルギーを節約しようとしてリング安定化電力を余計に使う」という逆説に注意が必要です。

レーザの統合

シリコンは光を効率よく出せない間接遷移材料なので、光源(レーザ)を別途統合しなければなりません。インジウムリン(InP)のようなIII-V族材料をシリコンに貼り付けたり外部レーザを引き込んだりしますが、この統合と整列は厄介で高価であり、信頼性の管理が難しいです。

パッケージングコスト

光ファイバの整列、結合損失の最小化、光エンジンの統合は、いずれも精密なパッケージング工程を要求します。CPOが魅力的でありながら普及が遅い理由の一つが、まさにこのパッケージングコストと修理・交換(serviceability)の難しさです。光部品が一つ故障すると高価なパッケージ全体に影響を及ぼしかねません。

下の表は商用化の課題と現在の対応方向をまとめたものです。

| 課題 | 原因 | 対応方向 |

| --- | --- | --- |

| 低い歩留まり | ナノメートル精度の要求 | プロセスの成熟、設計マージンの確保 |

| リングの熱不安定 | 温度による共振シフト | ヒータ/フィードバック制御、無熱(athermal)設計 |

| レーザの統合 | シリコンの発光限界 | III-Vボンディング、外部光源 |

| パッケージングコスト | 光ファイバの精密整列 | CPO標準化、自動整列工程 |

展望

2026年現在、光インターコネクトは「研究室からデータセンターへ」移る変曲点にあります。短期的には、光テンソルコアのような全面的な光演算よりも、チップ間・ノード間の通信を光に変える光インターコネクトとCPOが先に定着する可能性が大きいです。

流れを整理するとおおよそ次のようになります。

- 第1段階(現在進行中):スイッチとアクセラレータへのCPO導入、pluggableからco-packagedへの移行

- 第2段階:光インターポーザと光I/Oチップレットでパッケージ内・パッケージ間の光通信を拡大

- 第3段階:メモリと演算を光でつなぐ分離型(disaggregated)アーキテクチャ

- 長期:光テンソルコア・フォトニックインメモリが特定ワークロードで電気演算を補完

中核となる原動力は変わりません。AIモデルは大きくなり続け、データ移動エネルギーは全体コストを支配し続けます。そのコストを光で下げられるなら、その道は結局採用されるでしょう。

開発者への示唆

CUDAでカーネルを書きGPUを扱ってきた開発者にとって、この変化は何を意味するのでしょうか。

第一に、「データ局所性(data locality)」の重要性はむしろ増します。光インターコネクトがチップ間通信を安くしてくれても、変調・検出には依然としてコストがかかります。不要なデータ移動を減らすアルゴリズムとメモリアクセスパターンの最適化は、光の時代にもそのまま有効です。

第二に、分離型アーキテクチャを前提とした設計が増えるでしょう。メモリと演算が光で緩くつながると、「どのデータをどこに置きどう分散するか」が性能を左右します。分散学習・推論で通信パターンを意識する習慣がより重要になります。

第三に、抽象化レイヤは当面慣れ親しんだ姿のままでしょう。光インターコネクトはほとんどがハードウェア・ドライバレベルで抽象化され、アプリケーションコードは大きくは変わりません。ただしプロファイリングツールで「通信対演算の比率」を読む目はますます重要になります。

第四に、精度とノイズに対する感覚です。もし光テンソルコアのようなアナログ光演算が普及すれば、量子化・ノイズに頑健なモデル設計の知識が新しい競争力になります。すでに低精度(FP8、FP4)学習に慣れている人なら、その直感がそのまま生きます。

もう少し具体的なチェックリストに落とすと次のようになります。

- データ移動量をまず測ります。カーネル単位ではなく、ワークロード全体でバイトがどこへどれだけ流れるかを把握します。

- 通信対演算の比率(communication-to-compute ratio)をプロファイラで定量化します。この比率が1を超えるとインターコネクトがボトルネックです。

- コレクティブ演算(all-reduce、all-gather など)のトポロジ親和性を点検します。光ファブリックでは、どのノードがどのノードと安く通信できるかの地図が変わり得ます。

- メモリ分離(disaggregation)を前提としたデータ配置戦略を用意します。よく使う重みは近くに、まれにしか使わないものは遠くに、という階層化を考えます。

- 低精度(FP8、FP4)およびノイズに頑健な学習・推論手法を身につけておきます。アナログ光演算が登場すれば、すぐに資産になります。

- オーバーラップ(overlap)の可能性を常に確認します。通信と演算を重ねて隠せれば、インターコネクト遅延の体感コストが大きく下がります。

開発者チェックリスト

[ ] データ移動を減らすアルゴリズムか?

[ ] 通信対演算の比率をプロファイリングしたか?

[ ] コレクティブのトポロジ親和性を点検したか?

[ ] 分散配置の際に通信パターンを意識したか?

[ ] メモリ分離を前提としたデータ配置を設計したか?

[ ] 通信と演算のオーバーラップを活用したか?

[ ] 低精度/ノイズに頑健な設計を考慮したか?

電気SerDes vs 光リンク — ビットあたりエネルギーの試算

抽象的な「光の方が効率的」という言い方の代わりに、実際にビットあたりエネルギー(pJ/bit)を計算してみると、絵がはるかに鮮明になります。ビットあたりエネルギーとは、1ビットを伝送するのに要する総エネルギーを、伝送ビット数で割った値です。この指標が重要なのは、データセンターの電力予算が実質的に「総ビット数かけるビットあたりエネルギー」で決まるからです。

まず電気SerDes(シリアライザ/デシリアライザ)を見ます。現代の高速SerDesは、送信側のドライバ、受信側の等化器(equalizer)、クロック復元回路(CDR)がいずれも電力を消費します。チャネルが長く、損失が大きいほど等化のコストが増えるため、同じSerDesでもボード上で遠くへ送るほどビットあたりエネルギーが上がります。

光リンクはエネルギーの構成が異なります。レーザ光源、変調器の駆動、光検出器とトランスインピーダンスアンプ(TIA)、そして(マイクロリングを使うなら)リングの熱安定化ヒータが主な消費先です。要点は、いったん光に変えた後は距離による追加コストがほとんどないことです。

ビットあたりエネルギー(pJ/bit) おおまかな比較 — 距離による変化

pJ/bit

12 | * (長い銅SerDes、等化負担大)

10 | |

8 | | * (中距離の銅)

6 | | |

4 | | |

3 | *--------*--------* (短距離の銅)

2 |

1 | o--------o--------o--------o (光リンク、距離に鈍感)

0 +---------------------------------> 距離

近い中間遠い非常に遠い

* = 電気(銅) o = 光(フォトニクス)

この図から読み取る点は二つです。第一に、短距離では電気と光の差は大きくありません。第二に、距離が遠くなるほど電気は急に上がりますが、光はほぼ平らなままです。だから光I/Oは「ボードを横断する」中長距離の区間からまず経済性が生まれます。

下の表は、代表的な区間ごとのビットあたりエネルギーのおおよその水準をまとめたものです。正確な数値はプロセス・世代・実装によって異なるので、桁(order of magnitude)の感覚として受け取るのがよいでしょう。

| --- | --- | --- | --- |

ここに一つ落とし穴があります。光リンクのビットあたりエネルギーを計算するとき、レーザの「ウォールプラグ効率(wall-plug efficiency)」を抜かしてはいけません。レーザが電気エネルギーを光に変える効率は100%ではなく、この損失が光リンクのエネルギー予算で無視できない割合を占めます。つまり「変調器だけ見ればほぼタダ」式の楽観は危険で、レーザと熱安定化まで含めたシステム全体で見て初めて正直な比較になります。

マイクロリングと熱チューニングをより深く

先にマイクロリングは温度に非常に敏感だとだけ触れて通り過ぎましたが、この問題は光インターコネクト商用化の中核的な難関なので、もう少し深く覗く価値があります。

マイクロリング共振器は、周長がちょうど波長の整数倍になる光だけを共振させて閉じ込めます。ところがシリコンの屈折率は温度によって変わります。温度が上がるとリングの実効周長が事実上長くなったのと同じ効果が出て、共振波長が長い側へ押しやられます。チップ温度が数度変わるだけで共振点が通信チャネルから外れ、問題のなかったリングが信号を取りこぼします。

マイクロリング + リングヒータ + 波長ロック制御ループ

入力導波路 (複数波長)

====L1 L2 L3 L4===========================

) <- マイクロリング (L2に共振)

( O ) 上に薄膜ヒータ

) |

=======================|=== ドロップポート -> L2を抽出

[ 光検出器タップ ]

[ 制御器 ] 共振点がずれたら

| ヒータ電流を調整して

[ ヒータ電流 ] 波長を再ロック

この問題への対処は大きく二つに分かれます。

第一は能動補正(active tuning)です。リングの上に薄膜ヒータを載せ、光検出器で共振点がどこにあるかを絶えず監視しながら、共振波長が目標チャネルに正確に合うようヒータ電流を微調整します。これを「波長ロック(wavelength locking)」と呼びます。欠点は明確です。ヒータが電力を食い、それ自体がまた別の熱源になります。

第二は無熱設計(athermal design)です。温度によって屈折率が逆向きに変わる補償材料(例えば特定のポリマーオーバークラッド)を被せ、シリコンの温度変化を材料レベルで打ち消そうとするアプローチです。ヒータ電力を減らせますが、プロセスが厄介で補償範囲に限界があります。

これに加えて、チップ上にリングが数百〜数千個集まると「熱クロストーク(thermal crosstalk)」という厄介な問題が生じます。Aリングを温めようとヒータを入れると、その熱が隣のBリングにも伝わり、Bの共振点まで揺らします。するとBのヒータが反応し、その熱がまたAに影響する、という相互干渉が起きます。大規模リングアレイの制御アルゴリズムが、単純な個別フィードバックではなく、互いの干渉を考慮した協調制御へと発展する理由です。

| 熱安定化方式 | 利点 | 欠点 |

| --- | --- | --- |

| 能動ヒータ + 波長ロック | 精密、広い補正範囲 | 追加電力、発熱、制御の複雑さ |

| 無熱オーバークラッド | ヒータ電力の削減 | プロセス難度、限られた補償範囲 |

| 協調制御(アレイ) | 熱クロストークの緩和 | アルゴリズム・較正の負担 |

結局マイクロリングは「小さく速く集積度が高い」という利点と「温度に弱い」という欠点が表裏一体です。だから一部の設計は最初からマイクロリングの代わりに温度に鈍感なマッハ・ツェンダー変調器を選びます。両者の選択は、面積・電力・熱予算を総合したエンジニアリングのトレードオフです。

Ayar LabsとCelestial AI — 二つのアプローチの比較

光インターコネクトを製品化する企業は同じ目標へ向かいますが、システムのどの地点を光に変えるかについて異なる賭けをしています。

Ayar Labsは「光I/Oチップレット」に集中します。既存のSoCやアクセラレータの横に光I/O専用チップレットを貼り付け、外部から多波長レーザ(「comb laser」)の供給を受けて、パッケージのエッジでデータを光として送り出します。中核となるメッセージは「既存のチップ設計を大きく変えずにチップエッジ帯域を光で拡張する」ことです。標準化されたチップレットインターフェースを通じて多様なSoCに貼り付けられる点が強みです。

Celestial AIはさらに一歩進んで「光メモリ分離(optical memory disaggregation)」を狙います。Photonic Fabricという名前のファブリックで、演算チップとメモリプールを光で緩くつなぎ、メモリを演算器のすぐ横に置く必要なく、光で遠く離れた大容量メモリプールへアクセスさせる構想です。大きなモデルのためにHBM容量に閉じ込められず、光でメモリを拡張するという発想です。

| 項目 | Ayar Labs | Celestial AI |

| --- | --- | --- |

| 中核製品 | 光I/Oチップレット | Photonic Fabric |

| 主な目標 | チップエッジ帯域の拡張 | メモリ分離(disaggregation) |

| 光に変える地点 | チップ-チップ I/O | 演算-メモリ経路 |

| レーザ供給 | 外部の多波長光源 | ファブリック統合光源 |

| 統合方式 | 既存SoCの横にチップレット貼付 | 演算・メモリのファブリック接続 |

| 魅力ポイント | 設計変更の最小化 | メモリ容量の壁を迂回 |

二つのアプローチは競争というより、スタックの異なる層を攻める補完関係に近いです。短期的にはAyar Labs式の「チップI/Oの光化」が先に定着し、その上でCelestial AI式の「メモリ分離」が成熟していく絵を描けます。先に見たLightmatter Passageがインターポーザ層全体を光に変える別の賭けである点まで加えると、同じメモリウォール問題に対して三つの異なる高さから刃を入れていることになります。

光インターコネクト vs 電気インターコネクト — いつ何を使うか

光がすべての場所で電気に勝つわけではありません。どこにどのインターコネクトを使うかは、距離、帯域要求、電力予算、そしてコスト・信頼性の関数です。実務的な判断基準を整理すると次のようになります。

- ダイ内部(数 mm):電気が圧倒的に有利です。光に変える変換コストが距離削減の利得を上回ります。

- パッケージ内部(数 cm):まだ電気が基本ですが、帯域密度が限界に達すると光インターポーザが候補になります。

- ボードを横断する区間(数十 cm):光の経済性が本格的に生まれ始める地点です。CPOが狙う核心領域です。

- ラック内部・ラック間(メートル単位):光が明らかに有利です。銅は距離による損失と電力が急に上がります。

- データセンターのスケールアウト(数十メートル以上):事実上、光が唯一の現実的な選択です。

距離によるインターコネクト選択 (概念)

mm cm 数十 cm m 数十 m

|---------|----------|-----------|----------|-------->

[ 電気 ][ 電気 ][電気↔光競合][ 光 ][ 光 ]

CPOが争う前線

要するに「光対電気」は二者択一ではなく、距離軸上の境界線をめぐる小競り合いです。そしてその境界線は毎年短い側へ下りてきています。かつては数十メートルのケーブルでのみ光が使われていたとすれば、いまはボード上の数十 cmまで光が下りてきており、次の段階はパッケージの中です。

おわりに

メモリウォールは演算速度の問題ではなくデータ移動の問題であり、データ移動の核心は結局エネルギーと距離です。銅は優れていますが、光が持つ帯域密度と距離に鈍感なエネルギー特性には追いつけません。

2026年のフォトニクスはまだ完成形ではありません。歩留まり、熱安定性、レーザ統合、パッケージングコストという現実の壁が確かに存在します。しかしLightmatter Passage、Ayar Labsの光I/O、Celestial AIの Photonic Fabric、DARPAのウェーハスケール接続研究、そして学界の光テンソルコアの流れは、いずれも同じ方向を指しています。AIの次の飛躍は、より速いトランジスタからではなく、より安く速いデータ移動から生まれるでしょう。そしてその道の有力な候補が光です。

光でメモリウォールを越える時代が、本格的に始まろうとしています。

参考資料

- [NVIDIA](https://www.nvidia.com/) — Blackwell、Vera Rubin など次世代アクセラレータのロードマップ

- [Lightmatter](https://lightmatter.co/) — Passage 3Dフォトニックインターポーザ

- [Ayar Labs](https://ayarlabs.com/) — 光I/Oチップレット

- [Celestial AI](https://www.celestial.ai/) — Photonic Fabric

- [DARPA](https://www.darpa.mil/) — フォトニクスおよびウェーハスケール接続研究

- [Cerebras](https://www.cerebras.ai/) — WSE-3 ウェーハスケールエンジン

- [arXiv](https://arxiv.org/) — 光テンソルコア、フォトニックインメモリの最新論文

- [Nature Photonics](https://www.nature.com/) — フォトニックコンピューティングの学術動向

- [IEEE Spectrum](https://spectrum.ieee.org/) — シリコンフォトニクス・CPOの産業報道

- [SemiAnalysis](https://www.semianalysis.com/) — AIハードウェア・インターコネクト市場分析