Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

2026년 AI 하드웨어 업계의 가장 큰 화두는 더 이상 "연산을 얼마나 빠르게 하느냐"가 아닙니다. 진짜 병목은 "데이터를 얼마나 싸고 빠르게 옮기느냐"로 옮겨갔습니다. GPU 한 장의 부동소수점 연산 능력은 지난 10년간 수십 배로 늘었지만, 그 GPU에 데이터를 먹여 주는 메모리 대역폭과 칩-칩 사이를 잇는 인터커넥트는 같은 속도로 따라오지 못했습니다.

이 격차를 흔히 "메모리 월(memory wall)"이라고 부릅니다. 그리고 2026년 현재, 메모리 월을 넘기 위한 가장 야심찬 접근 중 하나가 바로 빛으로 데이터를 옮기는 것, 즉 포토닉 컴퓨팅과 광 인터커넥트입니다.

이 글에서는 전기 인터커넥트가 왜 한계에 부딪혔는지부터 시작해, 실리콘 포토닉스의 기본 부품들, 광 인터커넥트가 가진 물리적 장점, Lightmatter의 Passage와 DARPA의 포토닉 프로젝트 같은 실제 사례, 그리고 2026년 학계의 광 텐서코어 연구와 co-packaged optics(CPO)의 상용화 과제까지 폭넓게 다뤄 보겠습니다. GPU와 CUDA로 일하던 개발자에게 이 변화가 무엇을 의미하는지도 마지막에 정리합니다.

전기 인터커넥트의 한계

메모리 월은 왜 생기는가

현대 AI 가속기의 구조를 단순화하면 "거대한 연산 유닛 + 그 옆에 붙은 고대역폭 메모리(HBM)"입니다. 문제는 연산 유닛의 처리량과 메모리에서 데이터를 끌어오는 대역폭의 성장 속도가 다르다는 점입니다.

연산 능력 vs 메모리 대역폭 (개념적 성장 곡선)

성능

| 연산(FLOPs)

| .-'

| .-' 메모리 대역폭

| .-' ____________------

| .-' _______---

| .-' _______--

|__---__-------------------------------------> 시간

(격차 = 메모리 월)

연산 유닛은 데이터를 기다리느라 놀게 되고, 이 "굶주린 연산 유닛" 현상이 바로 메모리 월의 본질입니다. NVIDIA Blackwell 세대(GTC 2026 기준)는 2세대 Transformer Engine으로 연산 효율을 끌어올렸지만, 결국 HBM 대역폭과 칩 간 연결이 전체 성능의 상한을 결정하는 구조는 그대로입니다.

데이터 이동 에너지가 연산 에너지를 압도한다

더 근본적인 문제는 에너지입니다. 현대 공정에서 64비트 부동소수점 덧셈 한 번에 드는 에너지는 수 펨토줄(fJ) 수준이지만, 그 데이터를 칩 반대편으로, 혹은 옆 칩으로 옮기는 데 드는 에너지는 수 피코줄(pJ)에 달합니다. 즉 "계산하는 것보다 옮기는 것이 수십~수백 배 더 비싸다"는 역설이 벌어집니다.

연산 vs 데이터 이동 에너지 (대략적인 상대 비교)

작업 에너지(상대값)

-----------------------------------------------

32비트 정수 덧셈 매우 작음 (기준 1)

32비트 SRAM 읽기 약 5

짧은 온칩 와이어 이동 약 수십

긴 온칩 와이어 이동 약 수백

칩 밖(off-chip) 전송 약 1000 이상

데이터를 멀리 옮길수록 에너지 비용이 기하급수적으로 커집니다. 데이터센터 전력 예산의 상당 부분이 실제 연산이 아니라 데이터를 이리저리 옮기는 데 쓰이는 셈입니다.

구리의 물리적 한계: 도달 거리와 손실

전기 신호를 구리 배선으로 보내면 주파수가 높아질수록 신호가 급격히 감쇠합니다. 이를 보상하려면 더 강한 드라이버, 더 복잡한 등화기(equalizer), 더 많은 전력이 필요합니다. 그 결과 고속 전기 링크는 다음과 같은 삼중고에 시달립니다.

- 도달 거리(reach): 수십 cm만 넘어가도 신호 무결성을 유지하기 어렵습니다.

- 손실(loss): 주파수가 올라갈수록 삽입 손실이 커집니다.

- 누화(crosstalk): 배선이 촘촘해질수록 옆 채널 간섭이 심해집니다.

Cerebras WSE-3 같은 웨이퍼 스케일 칩이 등장한 이유도 이 맥락에서 이해할 수 있습니다. WSE-3는 약 4조 개의 트랜지스터, 약 90만 개의 코어, 약 44GB의 온칩 SRAM을 한 장의 웨이퍼에 담아 온칩 대역폭을 약 21 PB/s까지 끌어올렸습니다. "칩 밖으로 데이터를 내보내는 것이 가장 비싸다면, 아예 모든 것을 한 칩 안에 넣자"는 발상입니다. 하지만 웨이퍼 한 장에도 한계는 있고, 여러 웨이퍼나 여러 시스템을 잇는 순간 다시 인터커넥트 문제가 돌아옵니다. 바로 여기서 빛이 등장합니다.

실리콘 포토닉스 기초

실리콘 포토닉스는 기존 CMOS 반도체 공정과 유사한 방식으로 빛을 다루는 부품들을 실리콘 칩 위에 만드는 기술입니다. 핵심 부품 몇 가지를 살펴보겠습니다.

도파로(waveguide)

도파로는 빛이 다니는 길입니다. 실리콘과 실리콘 산화물의 굴절률 차이를 이용해 빛을 좁은 채널 안에 가두어 전달합니다. 전기 회로의 배선에 해당하지만, 빛은 서로 간섭 없이 교차할 수 있고 주파수가 높아져도 손실이 상대적으로 작다는 장점이 있습니다.

변조기(modulator)

전기 신호를 빛에 실어 주는 부품입니다. 디지털 비트(0과 1)를 빛의 세기나 위상 변화로 바꿔 줍니다. 대표적으로 마하-젠더 변조기(MZM)와 마이크로링 변조기(microring modulator)가 있습니다.

광검출기(photodetector)

변조기와 반대로, 도착한 빛을 다시 전기 신호로 바꿔 주는 부품입니다. 보통 게르마늄(Ge)을 실리콘에 통합해 만듭니다. 광 링크의 "수신단"에 해당합니다.

마하-젠더 간섭계(MZI)

빛을 두 갈래로 나눈 뒤 한쪽의 위상을 바꿔 다시 합치면, 두 빛의 위상차에 따라 보강 간섭과 상쇄 간섭이 일어납니다. 이 원리로 빛을 스위칭하거나 가중치를 곱할 수 있습니다. MZI는 뒤에서 다룰 광 행렬 곱셈의 핵심 building block입니다.

마하-젠더 간섭계(MZI) 개념도

위상 시프터(phase shifter)

입력 ---+--[ θ ]--+--- 출력1 (밝음/어두움)

| |

+----------+--- 출력2

분배기 결합기

(splitter) (combiner)

위상차 θ에 따라 두 출력의 빛 세기 비율이 결정됨

마이크로링 공진기(microring resonator)

작은 고리 모양 도파로로, 특정 파장의 빛만 공진시켜 가두는 필터 역할을 합니다. 크기가 작아 집적도가 높고, 변조기나 파장 필터로 쓰입니다. 다만 온도에 매우 민감해서, 뒤에서 다룰 열 안정성 문제의 주범이기도 합니다.

파장 분할 다중화(WDM)

하나의 도파로에 서로 다른 파장(색)의 빛을 동시에 여러 개 실어 보내는 기술입니다. 전기 배선 하나에는 신호 하나지만, 광 도파로 하나에는 여러 파장을 동시에 흘릴 수 있습니다. 이것이 광 인터커넥트의 대역폭 밀도를 폭발적으로 높이는 핵심입니다.

WDM: 하나의 도파로에 여러 파장 동시 전송

λ1 ──┐

λ2 ──┤

λ3 ──┼──[ 멀티플렉서 ]══ 도파로 1개 ══[ 디멀티플렉서 ]──┬── λ1

λ4 ──┘ ├── λ2

├── λ3

(구리 한 가닥 = 신호 하나) └── λ4

(광 도파로 한 가닥 = 신호 여러 개)

광 인터커넥트의 장점

빛으로 데이터를 옮기면 전기 대비 다음과 같은 물리적 이점이 생깁니다.

높은 대역폭 밀도

WDM 덕분에 하나의 물리적 채널에 여러 파장을 실을 수 있어, 단위 면적·단위 가장자리(edge)당 대역폭이 전기 대비 훨씬 높습니다. 칩 가장자리(beachfront)는 유한한 자원인데, 광은 같은 가장자리로 훨씬 더 많은 비트를 내보낼 수 있습니다.

낮은 지연(latency)

광 도파로 안에서 빛은 매우 빠르게 전파되며, 전기 링크처럼 무거운 등화나 재전송 부담이 적습니다. 거리가 멀어져도 지연 증가가 완만합니다.

낮은 누화(crosstalk)

서로 다른 파장의 빛은 같은 도파로 안에서도 거의 간섭하지 않습니다. 전기 배선처럼 옆 채널에 신호가 새어 나가는 일이 훨씬 적습니다.

거리에 둔감한 에너지 비용

전기 링크는 거리가 멀어질수록 에너지가 급증하지만, 광 링크는 변조와 검출에 드는 비용이 지배적이라 일단 빛으로 바꾼 뒤에는 거리에 비교적 둔감합니다. 광 I/O가 목표로 하는 비트당 에너지는 수 pJ보다 훨씬 낮은 영역으로 내려갑니다.

아래 표는 전기 인터커넥트와 광 인터커넥트의 대략적인 성격 비교입니다.

| 항목 | 전기 인터커넥트(구리) | 광 인터커넥트(포토닉스) |

| --- | --- | --- |

| 도달 거리 | 짧음(수십 cm) | 김(미터~수십 미터 이상) |

| 대역폭 밀도 | 제한적 | 높음(WDM 활용) |

| 거리에 따른 에너지 | 급증 | 비교적 둔감 |

| 누화 | 큼 | 작음 |

| 성숙도 | 매우 성숙 | 발전 중 |

| 열/패키징 난이도 | 낮음 | 높음(레이저, 링 안정화) |

Lightmatter Passage — 3D 포토닉 인터포저

Lightmatter는 포토닉 인터커넥트 분야에서 가장 주목받는 회사 중 하나입니다. 이들의 Passage는 칩 아래에 깔리는 "광 인터포저(photonic interposer)"입니다.

전통적인 인터포저는 여러 칩렛(chiplet)을 전기 배선으로 잇는 패키징 기판입니다. Passage의 아이디어는 이 인터포저 자체에 광 도파로 층을 내장해, 그 위에 얹힌 연산 칩들이 빛으로 서로 통신하도록 만드는 것입니다.

3D 포토닉 인터포저 개념도

[ 연산 칩 A ] [ 연산 칩 B ] [ 연산 칩 C ]

| | |

===光 I/O======光 I/O======光 I/O==== <- 광 인터포저 층

‖ 도파로 + WDM 라우팅 메시(mesh) ‖

===================================

(전기 배선 대신 빛으로 칩 간 연결)

이렇게 하면 칩들이 마치 하나의 큰 패브릭 위에 놓인 것처럼 동작하며, 칩 가장자리의 대역폭 한계를 광으로 우회할 수 있습니다. 여러 GPU나 가속기를 하나의 거대한 논리적 연산 자원처럼 묶는 데 유리합니다.

비슷한 방향의 회사로 Ayar Labs는 칩렛 형태의 광 I/O("optical I/O chiplet")를 제공해 기존 SoC 옆에 붙여 광 링크를 추가하는 접근을 취하고, Celestial AI는 Photonic Fabric이라는 이름으로 메모리와 연산을 광으로 잇는 패브릭을 추진합니다. 접근법은 조금씩 다르지만, 공통된 목표는 "데이터 이동을 빛으로 바꿔 메모리 월을 넘는 것"입니다.

DARPA 포토닉 프로젝트 — 웨이퍼 스케일 노드 연결

미국 DARPA는 오래전부터 포토닉스에 투자해 왔습니다. 2026년 시점에서 특히 흥미로운 방향은, 앞서 본 웨이퍼 스케일 연산 노드들을 광으로 연결하는 연구입니다.

웨이퍼 스케일 칩은 칩 하나 안에서는 엄청난 대역폭을 갖지만, 여러 웨이퍼나 여러 시스템을 묶는 순간 다시 전기 인터커넥트의 한계에 부딪힙니다. DARPA의 포토닉 프로그램들은 이 "노드 간(node-to-node)" 연결을 광으로 풀어, 여러 거대 칩을 하나의 시스템처럼 동작시키는 것을 목표로 합니다.

핵심 기술 과제는 다음과 같습니다.

- 웨이퍼 가장자리에서 빛을 효율적으로 넣고 빼는 결합(coupling) 기술

- 다수의 파장을 안정적으로 공급하는 레이저 광원

- 수천 개의 광 채널을 한꺼번에 라우팅하는 스위칭 패브릭

- 군사·우주 환경에서도 견디는 신뢰성과 열 안정성

이런 국가 단위 R&D 투자가 상용 생태계의 기초 기술을 끌어올리는 역할을 합니다.

광 텐서코어와 포토닉 인메모리 연구

지금까지는 "데이터를 옮기는 인터커넥트"로서의 빛을 이야기했지만, 더 급진적인 방향은 "연산 자체를 빛으로 하는 것"입니다. 2026년 arXiv와 Nature Photonics 등에는 이 주제의 연구가 활발히 올라오고 있습니다.

광으로 행렬을 곱한다는 것

딥러닝의 핵심 연산은 결국 행렬 곱셈입니다. 그런데 앞서 본 MZI를 격자(mesh) 형태로 배치하면, 빛이 그 격자를 통과하는 것만으로 선형 변환(행렬 곱)이 일어납니다. 위상 시프터들의 설정이 곧 행렬의 가중치가 되는 셈입니다.

MZI 메시 기반 광 행렬 곱셈 개념

입력 벡터 (빛의 진폭으로 인코딩)

x1 ─┐

x2 ─┤ ┌──[MZI]──[MZI]──┐

x3 ─┼─►│ [MZI]──[MZI] │─► 출력 벡터 y = W·x

x4 ─┘ └──[MZI]──[MZI]──┘

(위상 시프터 설정 = 가중치 행렬 W)

빛은 빛의 속도로 격자를 통과하므로, 이론적으로는 한 번의 통과만으로 행렬 곱이 완료됩니다. 곱셈-누산(MAC)을 거의 수동적으로, 매우 낮은 에너지로 수행할 수 있다는 점이 매력입니다. 이런 구조를 흔히 "광 텐서코어(photonic tensor core)"라고 부릅니다.

포토닉 인메모리 컴퓨팅

또 다른 방향은 가중치를 광 소자(예: 위상 변화 물질이나 마이크로링)에 물리적으로 저장해 두고, 그 자리에서 빛을 통과시켜 곱셈을 수행하는 "포토닉 인메모리(photonic in-memory)" 연구입니다. 데이터를 메모리에서 연산 유닛으로 옮기는 과정 자체를 없애려는 시도로, 메모리 월 문제를 정면으로 겨냥합니다.

학계에서는 위상 변화 물질을 이용한 광 메모리, MZI 메시 기반 광 신경망, 주파수 빗(frequency comb)을 활용한 병렬 광 연산 등이 주요 키워드로 다뤄지고 있습니다. (특정 arXiv 번호를 인용하기보다, 연구 흐름과 키워드로 기억해 두는 편이 안전합니다.)

다만 이 연구들은 아직 실험실 단계가 많고, 정밀도(아날로그 연산의 노이즈), 재구성 속도, 비선형 함수 처리, 디지털 시스템과의 통합 등 풀어야 할 과제가 많습니다. 단기적으로 더 현실적인 것은 "연산은 여전히 전기로 하되, 칩 사이 통신만 빛으로 바꾸는" 광 인터커넥트입니다.

Co-Packaged Optics(CPO)

광 인터커넥트가 실제 제품에 들어가는 가장 가까운 형태가 바로 co-packaged optics, 즉 CPO입니다.

기존에는 광 모듈(옵틱스)이 스위치나 가속기 보드의 가장자리에 별도 부품(pluggable transceiver)으로 꽂혀 있었습니다. CPO는 이 광 엔진을 스위치 ASIC이나 GPU 패키지 바로 옆, 같은 기판 위에 통합합니다. 전기 신호가 구리 위를 길게 달릴 필요 없이, 패키지 안에서 곧바로 빛으로 변환되는 것입니다.

Pluggable 옵틱스 vs Co-Packaged Optics

[Pluggable]

ASIC ──긴 구리 트레이스── 보드 가장자리 ─ [광 모듈]

(구리 구간이 길수록 손실/전력 증가)

[CPO]

┌────────── 패키지 ──────────┐

│ ASIC ─짧은연결─ [광 엔진] │═══ 광섬유로 바로 출력

└────────────────────────────┘

(구리 구간 최소화, 비트당 에너지 절감)

CPO의 이점은 분명합니다. 구리 구간이 짧아져 비트당 에너지가 줄고, 대역폭 밀도가 높아집니다. 주요 스위치 벤더들이 CPO 기반 제품을 내놓기 시작했고, AI 클러스터의 스케일아웃 네트워크에서 특히 주목받고 있습니다.

NVIDIA의 차세대 로드맵(2026년 후반의 Vera Rubin 세대, HBM4 채택, 와트당 성능 약 10배 향상 목표)에서도 칩 간·노드 간 연결을 광으로 끌어가려는 흐름이 읽힙니다. 2026년은 추론(inference) capex가 학습(training) capex를 처음으로 추월하는 해로 전망되는데, 추론은 대규모로 분산 배치되는 만큼 노드 간 통신 효율이 곧 비용으로 직결됩니다. NVIDIA가 가속기 시장의 약 75~80%를 점유한 상황에서, 이들의 인터커넥트 선택이 업계 표준을 좌우할 가능성이 큽니다.

상용화 과제

광이 좋은 줄은 다들 알지만, 왜 아직 모든 칩이 광으로 통신하지 않을까요? 상용화에는 만만치 않은 장벽이 있습니다.

수율(yield)

광 부품은 나노미터 단위의 정밀도를 요구합니다. 도파로 폭이 조금만 달라져도 특성이 변하기 때문에, 대량 생산에서 일관된 품질을 내기가 어렵습니다. 수율이 낮으면 곧 비용 상승입니다.

마이크로링의 열 안정성

앞서 마이크로링이 온도에 매우 민감하다고 했습니다. 칩 온도가 몇 도만 변해도 공진 파장이 어긋나 링이 제 기능을 못 합니다. 이를 보정하려면 히터와 피드백 제어가 필요한데, 이 제어 회로가 다시 전력을 먹습니다. "데이터 이동 에너지를 아끼려다 링 안정화 전력을 더 쓰는" 역설을 조심해야 합니다.

레이저 통합

실리콘은 빛을 효율적으로 내지 못하는 간접 천이 물질이라, 광원(레이저)을 별도로 통합해야 합니다. 인듐 인화물(InP) 같은 III-V족 물질을 실리콘에 붙이거나 외부 레이저를 끌어오는데, 이 통합과 정렬이 까다롭고 비싸며 신뢰성 관리가 어렵습니다.

패키징 비용

광섬유 정렬, 결합 손실 최소화, 광 엔진 통합은 모두 정밀한 패키징 공정을 요구합니다. CPO가 매력적이면서도 보급이 더딘 이유 중 하나가 바로 이 패키징 비용과 수리·교체(serviceability)의 어려움입니다. 광 부품 하나가 고장 나면 비싼 패키지 전체에 영향을 줄 수 있습니다.

아래 표는 상용화 과제와 현재 대응 방향을 요약한 것입니다.

| 과제 | 원인 | 대응 방향 |

| --- | --- | --- |

| 낮은 수율 | 나노미터 정밀도 요구 | 공정 성숙, 설계 마진 확보 |

| 링 열 불안정 | 온도에 따른 공진 이동 | 히터/피드백 제어, 무열(athermal) 설계 |

| 레이저 통합 | 실리콘의 발광 한계 | III-V 본딩, 외부 광원 |

| 패키징 비용 | 광섬유 정밀 정렬 | CPO 표준화, 자동 정렬 공정 |

전망

2026년 현재 광 인터커넥트는 "연구실에서 데이터센터로" 넘어오는 변곡점에 있습니다. 단기적으로는 광 텐서코어 같은 전면적 광 연산보다, 칩 사이·노드 사이 통신을 광으로 바꾸는 광 인터커넥트와 CPO가 먼저 자리를 잡을 가능성이 큽니다.

흐름을 정리하면 대략 이렇습니다.

- 1단계(현재 진행): 스위치와 가속기에 CPO 도입, pluggable에서 co-packaged로 이동

- 2단계: 광 인터포저와 광 I/O 칩렛으로 패키지 내·패키지 간 광 통신 확대

- 3단계: 메모리와 연산을 광으로 잇는 분리형(disaggregated) 아키텍처

- 장기: 광 텐서코어·포토닉 인메모리가 특정 워크로드에서 전기 연산을 보완

핵심 동력은 변하지 않습니다. AI 모델은 계속 커지고, 데이터 이동 에너지는 계속 전체 비용을 지배합니다. 그 비용을 빛으로 낮출 수 있다면, 그 길은 결국 채택될 것입니다.

개발자 시사점

CUDA로 커널을 짜고 GPU를 다루던 개발자에게 이 변화는 무엇을 의미할까요?

첫째, "데이터 지역성(data locality)"의 중요성은 오히려 더 커집니다. 광 인터커넥트가 칩 간 통신을 싸게 만들어 주더라도, 변조·검출에는 여전히 비용이 듭니다. 불필요한 데이터 이동을 줄이는 알고리즘과 메모리 접근 패턴 최적화는 광 시대에도 그대로 유효합니다.

둘째, 분리형 아키텍처를 전제한 설계가 늘어날 것입니다. 메모리와 연산이 광으로 느슨하게 묶이면, "어떤 데이터를 어디에 두고 어떻게 분산할지"가 성능을 좌우합니다. 분산 학습·추론에서 통신 패턴을 의식하는 습관이 더 중요해집니다.

셋째, 추상화 계층은 당분간 익숙한 모습일 것입니다. 광 인터커넥트는 대부분 하드웨어·드라이버 수준에서 추상화되어, 애플리케이션 코드는 크게 바뀌지 않습니다. 다만 프로파일링 도구에서 "통신 대 연산 비율"을 읽는 눈은 점점 더 중요해집니다.

넷째, 정밀도와 노이즈에 대한 감각입니다. 만약 광 텐서코어 같은 아날로그 광 연산이 보급된다면, 양자화·노이즈에 강건한 모델 설계 지식이 새로운 경쟁력이 됩니다. 이미 저정밀(FP8, FP4) 학습에 익숙한 사람이라면 그 직관이 그대로 이어집니다.

조금 더 구체적인 체크리스트로 옮기면 다음과 같습니다.

- 데이터 이동량을 먼저 측정합니다. 커널 단위가 아니라 워크로드 전체에서 바이트가 어디로 얼마나 흐르는지 파악합니다.

- 통신 대 연산 비율(communication-to-compute ratio)을 프로파일러로 정량화합니다. 이 비율이 1을 넘기면 인터커넥트가 병목입니다.

- 콜렉티브 연산(all-reduce, all-gather 등)의 토폴로지 친화성을 점검합니다. 광 패브릭에서는 어떤 노드가 어떤 노드와 싸게 통신하는지 지도가 달라질 수 있습니다.

- 메모리 분리(disaggregation)를 가정한 데이터 배치 전략을 준비합니다. 자주 쓰는 가중치는 가깝게, 드물게 쓰는 것은 멀리 두는 식의 계층화를 고려합니다.

- 저정밀(FP8, FP4) 및 노이즈에 강건한 학습·추론 기법을 익혀 둡니다. 아날로그 광 연산이 등장하면 곧장 자산이 됩니다.

- 오버랩(overlap) 가능성을 항상 확인합니다. 통신과 연산을 겹쳐 숨길 수 있다면 인터커넥트 지연의 체감 비용이 크게 줄어듭니다.

개발자 체크리스트

[ ] 데이터 이동을 줄이는 알고리즘인가?

[ ] 통신 대 연산 비율을 프로파일링했는가?

[ ] 콜렉티브의 토폴로지 친화성을 점검했는가?

[ ] 분산 배치 시 통신 패턴을 의식했는가?

[ ] 메모리 분리를 가정한 데이터 배치를 설계했는가?

[ ] 통신과 연산의 오버랩을 활용했는가?

[ ] 저정밀/노이즈에 강건한 설계를 고려했는가?

전기 SerDes vs 광 링크 — 비트당 에너지 계산

추상적인 "광이 더 효율적"이라는 말 대신, 실제로 비트당 에너지(pJ/bit)를 따져 보면 그림이 훨씬 선명해집니다. 비트당 에너지는 1비트를 전송하는 데 드는 총 에너지를, 전송 비트 수로 나눈 값입니다. 이 지표가 중요한 이유는, 데이터센터의 전력 예산이 사실상 "총 비트 수 곱하기 비트당 에너지"로 결정되기 때문입니다.

먼저 전기 SerDes(직렬화/역직렬화기)를 보겠습니다. 현대 고속 SerDes는 송신단의 드라이버, 수신단의 등화기(equalizer), 클럭 복원 회로(CDR) 등이 모두 전력을 소모합니다. 채널이 길거나 손실이 클수록 등화에 드는 비용이 커지므로, 같은 SerDes라도 보드 위에서 멀리 보낼수록 비트당 에너지가 올라갑니다.

광 링크는 에너지 구성이 다릅니다. 레이저 광원, 변조기 구동, 광검출기와 트랜스임피던스 증폭기(TIA), 그리고 (마이크로링을 쓴다면) 링 열 안정화 히터가 주요 소비처입니다. 핵심은 일단 빛으로 바꾼 뒤에는 거리에 따른 추가 비용이 거의 없다는 점입니다.

비트당 에너지(pJ/bit) 대략 비교 — 거리에 따른 변화

pJ/bit

12 | * (긴 구리 SerDes, 등화 부담 큼)

10 | |

8 | | * (중거리 구리)

6 | | |

4 | | |

3 | *--------*--------* (단거리 구리)

2 |

1 | o--------o--------o--------o (광 링크, 거리 둔감)

0 +---------------------------------> 거리

가까움 중간 멈 매우 멈

* = 전기(구리) o = 광(포토닉스)

위 그림에서 읽을 점은 두 가지입니다. 첫째, 단거리에서는 전기와 광의 격차가 크지 않습니다. 둘째, 거리가 멀어질수록 전기는 가파르게 올라가지만 광은 거의 평평합니다. 그래서 광 I/O는 "보드를 가로지르는" 중장거리 구간부터 먼저 경제성이 생깁니다.

아래 표는 대표적인 구간별 비트당 에너지의 대략적 수준을 정리한 것입니다. 정확한 수치는 공정·세대·구현마다 다르므로 자릿수(order of magnitude) 감각으로 받아들이는 편이 좋습니다.

| --- | --- | --- | --- |

여기서 한 가지 함정이 있습니다. 광 링크의 비트당 에너지를 계산할 때 레이저의 "벽면 플러그 효율(wall-plug efficiency)"을 빼먹으면 안 됩니다. 레이저가 전기 에너지를 빛으로 바꾸는 효율은 100%가 아니며, 이 손실이 광 링크 에너지 예산에서 무시할 수 없는 비중을 차지합니다. 즉 "변조기만 보면 거의 공짜"라는 식의 낙관은 위험하고, 레이저와 열 안정화까지 포함한 시스템 전체로 봐야 정직한 비교가 됩니다.

마이크로링과 열 튜닝을 더 깊이

앞에서 마이크로링이 온도에 매우 민감하다고만 짚고 넘어갔는데, 이 문제는 광 인터커넥트 상용화의 핵심 난관이라 좀 더 깊이 들여다볼 가치가 있습니다.

마이크로링 공진기는 둘레가 정확히 파장의 정수배가 되는 빛만 공진시켜 가둡니다. 그런데 실리콘의 굴절률은 온도에 따라 변합니다. 온도가 올라가면 링의 유효 둘레가 사실상 길어진 것과 같은 효과가 나서, 공진 파장이 긴 쪽으로 밀려납니다. 칩 온도가 몇 도만 변해도 공진점이 통신 채널에서 벗어나, 멀쩡하던 링이 신호를 놓치게 됩니다.

마이크로링 + 링 히터 + 파장 락 제어 루프

입력 도파로 (여러 파장)

====λ1 λ2 λ3 λ4===========================

) <- 마이크로링 (λ2에 공진)

( O ) 위에 박막 히터

) |

=======================|=== 드롭 포트 -> λ2 추출

[ 광검출기 탭 ]

[ 제어기 ] 공진점이 밀리면

| 히터 전류를 조정해

[ 히터 전류 ] 파장을 다시 락

이 문제를 다루는 방법은 크게 두 갈래입니다.

첫째는 능동 보정(active tuning)입니다. 링 위에 박막 히터를 올리고, 광검출기로 공진점이 어디에 있는지 끊임없이 감시하면서, 공진 파장이 목표 채널에 정확히 맞도록 히터 전류를 미세 조정합니다. 이것을 "파장 락(wavelength locking)"이라고 부릅니다. 단점은 명확합니다. 히터가 전력을 먹고, 그 자체가 또 다른 열원이 됩니다.

둘째는 무열 설계(athermal design)입니다. 온도에 따라 굴절률이 반대로 변하는 보상 물질(예: 특정 폴리머 오버클래드)을 덧입혀, 실리콘의 온도 변화를 물질 수준에서 상쇄하려는 접근입니다. 히터 전력을 줄일 수 있지만, 공정이 까다롭고 보상 범위에 한계가 있습니다.

여기에 더해, 칩 위에 링이 수백~수천 개 모이면 "열 누화(thermal crosstalk)"라는 골치 아픈 문제가 생깁니다. A 링을 데우려고 히터를 켜면 그 열이 옆 B 링에도 번져 B의 공진점까지 흔들어 놓습니다. 그러면 B의 히터가 반응하고, 그 열이 다시 A에 영향을 주는 식의 상호 간섭이 생깁니다. 대규모 링 어레이의 제어 알고리즘이 단순한 개별 피드백이 아니라, 서로의 간섭을 고려한 협조 제어로 발전하는 이유입니다.

| 열 안정화 방식 | 장점 | 단점 |

| --- | --- | --- |

| 능동 히터 + 파장 락 | 정밀, 넓은 보정 범위 | 추가 전력, 발열, 제어 복잡 |

| 무열 오버클래드 | 히터 전력 절감 | 공정 난도, 제한된 보상 범위 |

| 협조 제어(어레이) | 열 누화 완화 | 알고리즘·캘리브레이션 부담 |

결국 마이크로링은 "작고 빠르고 집적도 높다"는 장점과 "온도에 약하다"는 단점이 동전의 양면입니다. 그래서 일부 설계는 처음부터 마이크로링 대신 온도에 둔감한 마하-젠더 변조기를 택하기도 합니다. 둘 사이의 선택은 면적·전력·열 예산을 종합한 엔지니어링 트레이드오프입니다.

Ayar Labs와 Celestial AI — 두 가지 접근 비교

광 인터커넥트를 제품화하는 회사들은 같은 목표를 향하지만, 시스템의 어느 지점을 광으로 바꿀지에 대해 서로 다른 베팅을 하고 있습니다.

Ayar Labs는 "광 I/O 칩렛"에 집중합니다. 기존 SoC나 가속기 옆에 광 I/O 전용 칩렛을 붙이고, 외부에서 다파장 레이저("comb laser")를 공급받아 패키지 가장자리에서 데이터를 빛으로 내보냅니다. 핵심 메시지는 "기존 칩 설계를 크게 바꾸지 않고도 칩 가장자리 대역폭을 광으로 확장한다"는 것입니다. 표준화된 칩렛 인터페이스를 통해 다양한 SoC에 붙일 수 있다는 점이 강점입니다.

Celestial AI는 한 걸음 더 나아가 "광 메모리 분리(optical memory disaggregation)"를 겨냥합니다. Photonic Fabric이라는 이름의 패브릭으로, 연산 칩과 메모리 풀을 광으로 느슨하게 연결해, 메모리를 연산기 바로 옆에 둘 필요 없이 광으로 멀리 떨어진 대용량 메모리 풀에 접근하게 만드는 구상입니다. 큰 모델을 위해 HBM 용량에 갇히지 않고 광으로 메모리를 확장한다는 발상입니다.

| 항목 | Ayar Labs | Celestial AI |

| --- | --- | --- |

| 핵심 제품 | 광 I/O 칩렛 | Photonic Fabric |

| 주요 목표 | 칩 가장자리 대역폭 확장 | 메모리 분리(disaggregation) |

| 광으로 바꾸는 지점 | 칩-칩 I/O | 연산-메모리 경로 |

| 레이저 공급 | 외부 다파장 광원 | 패브릭 통합 광원 |

| 통합 방식 | 기존 SoC 옆 칩렛 부착 | 연산·메모리 패브릭 연결 |

| 매력 포인트 | 설계 변경 최소화 | 메모리 용량 벽 우회 |

두 접근은 경쟁이라기보다 스택의 다른 층을 공략하는 보완 관계에 가깝습니다. 단기적으로는 Ayar Labs 식의 "칩 I/O 광화"가 먼저 자리 잡고, 그 위에서 Celestial AI 식의 "메모리 분리"가 무르익는 그림을 그릴 수 있습니다. 앞서 본 Lightmatter Passage가 인터포저 층 전체를 광으로 바꾸는 또 다른 베팅이라는 점까지 더하면, 같은 메모리 월 문제를 두고 세 가지 다른 높이에서 칼을 대는 셈입니다.

광 인터커넥트 vs 전기 인터커넥트 — 언제 무엇을 쓸까

광이 모든 곳에서 전기를 이기는 것은 아닙니다. 어디에 어떤 인터커넥트를 쓸지는 거리, 대역폭 요구, 전력 예산, 그리고 비용·신뢰성의 함수입니다. 실무적인 판단 기준을 정리하면 다음과 같습니다.

- 다이 내부(수 mm): 전기가 압도적으로 유리합니다. 광으로 바꾸는 변환 비용이 거리 절감 이득보다 큽니다.

- 패키지 내부(수 cm): 아직은 전기가 기본이지만, 대역폭 밀도가 한계에 닿으면 광 인터포저가 후보가 됩니다.

- 보드를 가로지르는 구간(수십 cm): 광의 경제성이 본격적으로 생기기 시작하는 지점입니다. CPO가 노리는 핵심 영역입니다.

- 랙 내부·랙 간(미터 단위): 광이 분명히 유리합니다. 구리는 거리에 따른 손실과 전력이 가파르게 올라갑니다.

- 데이터센터 스케일아웃(수십 미터 이상): 사실상 광이 유일한 현실적 선택입니다.

거리에 따른 인터커넥트 선택 (개념)

mm cm 수십 cm m 수십 m

|---------|----------|-----------|----------|-------->

[ 전기 ][ 전기 ][전기↔광 경합][ 광 ][ 광 ]

CPO가 다투는 전선

요컨대 "광 대 전기"는 양자택일이 아니라 거리 축 위의 경계선 싸움입니다. 그리고 그 경계선은 매년 짧은 쪽으로 내려오고 있습니다. 과거에는 수십 미터 케이블에서만 광이 쓰였다면, 지금은 보드 위 수십 cm까지 광이 내려왔고, 다음 단계는 패키지 안입니다.

마치며

메모리 월은 연산 속도의 문제가 아니라 데이터 이동의 문제이고, 데이터 이동의 핵심은 결국 에너지와 거리입니다. 구리는 훌륭하지만 빛이 가진 대역폭 밀도와 거리에 둔감한 에너지 특성을 따라올 수 없습니다.

2026년의 포토닉스는 아직 완성형이 아닙니다. 수율, 열 안정성, 레이저 통합, 패키징 비용이라는 현실의 벽이 분명히 존재합니다. 그러나 Lightmatter Passage, Ayar Labs의 광 I/O, Celestial AI의 Photonic Fabric, DARPA의 웨이퍼 스케일 연결 연구, 그리고 학계의 광 텐서코어 흐름은 모두 같은 방향을 가리킵니다. AI의 다음 도약은 더 빠른 트랜지스터가 아니라, 더 싸고 빠른 데이터 이동에서 나올 것이며, 그 길의 유력한 후보가 빛입니다.

빛으로 메모리 월을 넘는 시대가 본격적으로 시작되고 있습니다.

참고 자료

- [NVIDIA](https://www.nvidia.com/) — Blackwell, Vera Rubin 등 차세대 가속기 로드맵

- [Lightmatter](https://lightmatter.co/) — Passage 3D 포토닉 인터포저

- [Ayar Labs](https://ayarlabs.com/) — 광 I/O 칩렛

- [Celestial AI](https://www.celestial.ai/) — Photonic Fabric

- [DARPA](https://www.darpa.mil/) — 포토닉스 및 웨이퍼 스케일 연결 연구

- [Cerebras](https://www.cerebras.ai/) — WSE-3 웨이퍼 스케일 엔진

- [arXiv](https://arxiv.org/) — 광 텐서코어, 포토닉 인메모리 최신 논문

- [Nature Photonics](https://www.nature.com/) — 포토닉 컴퓨팅 학술 동향

- [IEEE Spectrum](https://spectrum.ieee.org/) — 실리콘 포토닉스·CPO 산업 보도

- [SemiAnalysis](https://www.semianalysis.com/) — AI 하드웨어·인터커넥트 시장 분석