Skip to content
Published on

칩렛과 첨단 패키징 — CoWoS, 3D 적층, 그리고 무어의 법칙 너머

Authors

들어가며

오랫동안 우리는 칩의 발전을 "트랜지스터가 얼마나 작아졌는가"로 이야기해 왔습니다. 무어의 법칙은 18~24개월마다 트랜지스터 밀도가 두 배가 된다는 경험칙이었고, 실제로 수십 년 동안 그 약속은 지켜졌습니다. 그런데 2026년 현재, AI 가속기의 성능을 좌우하는 질문은 더 이상 "몇 나노 공정인가"만이 아닙니다. 점점 더 중요해지는 질문은 이것입니다. "여러 개의 다이(die)를 어떻게 하나의 패키지 안에 붙이고 연결하는가."

NVIDIA의 Blackwell은 GTC 2026 기준으로 두 개의 거대한 다이를 TSMC의 CoWoS-L 패키징으로 결합한 설계입니다. 두 다이는 약 10 TB/s에 달하는 die-to-die 링크로 묶여 마치 하나의 칩처럼 동작합니다. AMD의 MI300, MI350 계열은 한 발 더 나아가 GPU와 CPU 다이를 인터포저 위에 여러 개 얹고, 그 위에 HBM을 쌓아 올린 칩렛 집합체입니다. 이제 가속기의 경쟁력은 단일 다이의 실리콘 설계만이 아니라, 그 다이들을 어떻게 패키징하느냐에서 갈립니다.

이 글에서는 왜 모놀리식 다이가 한계에 부딪혔는지, 칩렛이라는 발상이 무엇을 해결하는지, 그리고 CoWoS와 3D 적층, UCIe 표준, HBM 통합이 어떻게 맞물려 돌아가는지를 차근차근 살펴보겠습니다. 마지막에는 TSMC를 중심으로 한 패키징 공급망의 병목과, 열·전력이라는 물리적 과제, 그리고 광 통합이라는 미래까지 짚어 보겠습니다.

모놀리식 다이의 한계 — 레티클과 수율의 벽

전통적으로 하나의 칩은 하나의 거대한 실리콘 다이로 만들어졌습니다. 이것을 모놀리식(monolithic) 설계라고 부릅니다. CPU든 GPU든 모든 회로가 한 장의 실리콘 위에 새겨졌고, 더 강력한 칩을 원하면 다이를 더 크게 만들면 됐습니다. 그런데 이 접근에는 두 가지 물리적 한계가 있습니다.

레티클 한계

첫 번째는 레티클(reticle) 한계입니다. 반도체 노광 장비는 한 번에 노광할 수 있는 영역의 크기가 정해져 있습니다. 현재 EUV 노광기의 한 번 노광 한계는 대략 가로 26mm, 세로 33mm, 즉 약 858 평방밀리미터(약 800 평방밀리미터대) 수준입니다. 이보다 큰 다이는 한 번의 노광으로 만들 수 없습니다. 즉, 단일 다이의 면적에는 물리적 상한이 존재합니다.

NVIDIA의 고성능 GPU들은 이미 이 레티클 한계에 바짝 붙어 있었습니다. Hopper 세대의 H100은 약 814 평방밀리미터로 사실상 레티클 한계 근처였습니다. 다이를 더 키울 여지가 거의 없었던 것입니다. Blackwell이 두 개의 다이로 나뉜 이유가 바로 여기에 있습니다. 더 큰 칩을 원했지만 단일 다이로는 만들 수 없으니, 두 개의 레티클급 다이를 붙여 하나처럼 쓴 것입니다.

수율의 벽

두 번째 한계는 수율(yield)입니다. 실리콘 웨이퍼에는 무작위로 결함(defect)이 분포합니다. 다이가 클수록 그 다이 안에 결함이 하나라도 포함될 확률이 높아집니다. 단순화한 모델로 보면, 다이 면적이 커질수록 양품 비율은 지수적으로 떨어집니다.

양품 수율 ≈ exp(-결함밀도 × 다이면적)

결함밀도 = 0.1 / 평방cm 라고 가정하면:

다이 면적         대략적 수율
-----------------------------------
100 평방mm        약 90%
400 평방mm        약 67%
800 평방mm        약 45%

다이가 800 평방밀리미터에 이르면 절반 가까이가 불량으로 버려집니다. 같은 웨이퍼로 만들 수 있는 양품 수가 급격히 줄어들고, 결국 칩 한 개당 원가가 폭발적으로 올라갑니다. 면적이 크고 수율이 낮은 다이는 경제적으로 지속 불가능한 지점에 도달합니다.

이 두 벽 — 레티클 한계와 수율의 벽 — 이 모놀리식 설계의 시대가 저무는 근본 원인입니다.

칩렛 — 큰 다이를 잘게 나눈다

칩렛(chiplet)의 발상은 단순합니다. 하나의 거대한 다이를 만드는 대신, 기능별로 잘게 나눈 여러 개의 작은 다이를 만들고, 이들을 하나의 패키지 안에서 고속으로 연결하는 것입니다. 각각의 작은 다이를 칩렛이라고 부릅니다.

모놀리식 설계
+-----------------------------+
|                             |
|      하나의 거대한 다이      |
|   (레티클 한계, 낮은 수율)   |
|                             |
+-----------------------------+

칩렛 설계
+--------+ +--------+ +--------+
| 다이 A | | 다이 B | | 다이 C |
| (작음) | | (작음) | | (작음) |
+--------+ +--------+ +--------+
     \\        |        /
      \\       |       /
   고속 die-to-die 인터커넥트

이 접근에는 여러 이점이 있습니다. 첫째, 작은 다이는 수율이 높습니다. 앞의 표에서 보았듯 100 평방밀리미터 다이는 약 90%의 수율을 보이므로, 같은 웨이퍼에서 양품을 훨씬 많이 건질 수 있습니다. 둘째, 검증된 양품 다이(known-good-die)만 골라 패키징할 수 있습니다. 다이를 패키지에 붙이기 전에 개별적으로 테스트하여, 불량 다이를 미리 걸러낼 수 있습니다. 셋째, 서로 다른 공정으로 만든 다이를 섞을 수 있습니다. 연산 코어는 최첨단 공정으로, I/O나 메모리 컨트롤러는 더 성숙하고 저렴한 공정으로 만들어 비용을 최적화할 수 있습니다.

AMD는 이 칩렛 전략을 가장 공격적으로 밀어붙인 회사입니다. MI300, MI350 계열은 GPU 연산 다이, CPU 다이, I/O 다이를 인터포저 위에 여러 개 배치하고, 그 위에 HBM 메모리를 쌓아 올렸습니다. 단일 다이로는 만들 수 없는 규모의 가속기를, 검증된 작은 다이들의 조합으로 구현한 것입니다.

2.5D와 3D — 다이를 붙이는 두 가지 방식

칩렛들을 하나의 패키지 안에서 연결하는 방식은 크게 두 갈래로 나뉩니다. 2.5D 적층과 3D 적층입니다.

2.5D 적층 (CoWoS)

2.5D 방식에서는 여러 개의 다이를 인터포저(interposer)라는 얇은 실리콘 기판 위에 나란히 올립니다. 인터포저에는 미세한 배선이 새겨져 있어, 다이들 사이를 매우 짧고 촘촘한 배선으로 연결합니다. 다이들이 옆으로 나란히 놓이므로 "2.5차원"이라고 부릅니다.

TSMC의 CoWoS(Chip-on-Wafer-on-Substrate)가 대표적인 2.5D 기술입니다. 이름 그대로, 칩(다이)을 웨이퍼(인터포저) 위에 올리고, 그것을 다시 기판(substrate) 위에 올리는 구조입니다.

2.5D (CoWoS) 단면

  [다이 A]   [HBM 스택]   [다이 B]
 ===================================  <- 인터포저 (실리콘)
 +---------------------------------+
 |          기판 (substrate)        |
 +---------------------------------+
            |  |  |  |   <- 패키지 핀 (BGA 등)

3D 적층

3D 방식은 다이를 옆이 아니라 위로 쌓습니다. 다이 위에 또 다른 다이를 직접 올리고, TSV(Through-Silicon Via, 실리콘 관통 비아)라는 수직 배선으로 위아래 다이를 연결합니다. 수직으로 쌓으므로 배선 거리가 더 짧아지고 면적당 밀도가 극대화됩니다.

3D 적층 단면

      [상단 다이]
   ====================  <- TSV (수직 관통 배선)
      [하단 다이]
 +---------------------+
 |      기판           |
 +---------------------+

TSMC의 SoIC(System on Integrated Chips)나 Intel의 Foveros가 3D 적층 기술의 예입니다. AMD의 일부 제품은 캐시 다이를 연산 다이 위에 3D로 쌓아 캐시 용량을 극적으로 늘리기도 했습니다.

구분2.5D (CoWoS 등)3D 적층 (SoIC, Foveros 등)
다이 배치인터포저 위에 나란히다이 위에 다이를 수직으로
연결 방식인터포저 배선TSV 수직 관통 비아
배선 거리짧음매우 짧음
열 관리상대적으로 유리어려움 (상단 다이 방열 곤란)
면적 효율보통매우 높음
대표 용도GPU + HBM 통합캐시 적층, 로직 적층

인터포저와 실리콘 브리지 — EMIB, InFO

2.5D 패키징의 핵심은 다이들 사이를 어떻게 연결하느냐입니다. 여기에는 몇 가지 서로 다른 접근이 있습니다.

풀 실리콘 인터포저

가장 직관적인 방식은 전체 다이를 덮는 큰 실리콘 인터포저를 쓰는 것입니다. CoWoS-S가 이 방식에 가깝습니다. 큰 인터포저는 배선 밀도가 높고 안정적이지만, 인터포저 자체도 레티클 한계의 영향을 받습니다. 패키지가 커질수록 여러 장의 인터포저를 이어 붙이거나 더 정교한 공정이 필요해집니다. Blackwell이 사용한 CoWoS-L은 이런 대형 패키지를 위해 국소적 실리콘 브리지와 재배선층을 조합한 진화된 방식입니다.

실리콘 브리지 (EMIB)

Intel의 EMIB(Embedded Multi-die Interconnect Bridge)는 전체를 덮는 큰 인터포저 대신, 두 다이가 만나는 경계 지점에만 작은 실리콘 조각(브리지)을 기판 안에 묻어 넣는 방식입니다. 필요한 곳에만 고밀도 배선을 두므로, 큰 인터포저보다 비용과 면적 측면에서 유리할 수 있습니다.

풀 인터포저 vs 실리콘 브리지

풀 인터포저:
 [다이 A]========[다이 B]
 ======전체 인터포저======

실리콘 브리지 (EMIB):
 [다이 A]==[브리지]==[다이 B]
 +--기판에 작은 브리지만 매립--+

InFO (Integrated Fan-Out)

TSMC의 InFO(Integrated Fan-Out)는 인터포저 없이 재배선층(RDL)을 활용해 다이를 연결하는 팬아웃 방식입니다. 비교적 얇고 가벼운 패키지를 만들 수 있어 모바일과 일부 가속기 제품에 쓰입니다.

이처럼 인터포저, 실리콘 브리지, 팬아웃은 각각 비용, 배선 밀도, 패키지 크기, 열 특성에서 서로 다른 균형점을 제공합니다. 어떤 방식을 고르느냐가 곧 제품의 성능과 원가를 결정하는 설계 결정이 됩니다.

HBM 통합 — 메모리 벽을 패키징으로 뚫는다

AI 가속기에서 가장 큰 병목 중 하나는 메모리 대역폭입니다. 거대한 모델의 가중치를 연산 코어로 끊임없이 실어 날라야 하는데, 데이터를 옮기는 일 자체가 연산보다 더 많은 에너지와 시간을 잡아먹는 경우가 많습니다. 이것을 흔히 메모리 벽(memory wall)이라고 부릅니다.

HBM(High Bandwidth Memory)은 이 메모리 벽에 대한 패키징 차원의 해법입니다. HBM은 여러 장의 DRAM 다이를 수직으로 쌓고 TSV로 연결한 메모리 스택입니다. 이 스택을 가속기 다이 바로 옆, 같은 인터포저 위에 배치하면, 메모리와 연산 코어 사이의 거리가 극적으로 짧아집니다.

HBM 통합 (2.5D)

  [HBM 스택]   [GPU 다이]   [HBM 스택]
   (DRAM 4~12층)            (DRAM 4~12층)
 =====================================  <- 인터포저
       매우 짧고 넓은 배선

거리가 짧다 = 대역폭 높다 + 전송 에너지 낮다

데이터를 옮기는 거리가 짧을수록 더 넓은 버스를 쓸 수 있고, 비트당 전송 에너지도 줄어듭니다. 즉 HBM 통합은 단순히 메모리를 많이 다는 것이 아니라, 메모리를 연산 코어에 물리적으로 가깝게 붙이는 패키징 기술입니다.

2026년 현재 HBM4가 등장하기 시작했습니다. NVIDIA의 차세대 Vera Rubin(2026년 후반 예정)은 HBM4를 채택할 것으로 알려져 있습니다. HBM 세대가 올라갈수록 더 많은 DRAM 층을 더 높은 대역폭으로 쌓을 수 있게 되며, 이는 곧 더 큰 모델을 더 빠르게 처리할 수 있다는 의미입니다.

UCIe — 칩렛을 위한 공용 언어

칩렛 시대에는 새로운 문제가 생깁니다. 서로 다른 회사가 만든 다이를 어떻게 연결할 것인가? A사의 연산 다이와 B사의 I/O 다이를 하나의 패키지에 붙이려면, 둘 사이의 die-to-die 인터커넥트 규격이 통일되어 있어야 합니다.

UCIe(Universal Chiplet Interconnect Express)는 바로 이 문제를 위한 개방형 표준입니다. PCIe가 보드 위 칩들 사이의 표준 인터페이스였다면, UCIe는 패키지 안 다이들 사이의 표준 인터페이스를 지향합니다. UCIe 1.0에 이어 2.0 규격이 정의되면서, 물리 계층부터 프로토콜 계층까지 칩렛 간 통신의 공통 언어가 마련되고 있습니다.

UCIe 계층 구조 (개념)

 +-------------------------------+
 |   프로토콜 계층 (PCIe/CXL 등)  |
 +-------------------------------+
 |   어댑터 계층 (신뢰성/재시도)   |
 +-------------------------------+
 |   물리 계층 (die-to-die 신호)   |
 +-------------------------------+
        |  패키지 내 배선  |
   [다이 A] <-----------> [다이 B]

UCIe의 의미는 단지 기술 규격에 그치지 않습니다. 표준화된 die-to-die 인터페이스가 자리 잡으면, 칩 설계 회사들이 마치 부품을 조립하듯 서로 다른 공급처의 칩렛을 골라 조합할 수 있는 칩렛 생태계가 열립니다. 연산은 어느 회사, 메모리 컨트롤러는 다른 회사, I/O는 또 다른 회사 — 이런 식의 이종 조합이 현실이 되는 것입니다.

수율과 비용 — 작은 다이가 이긴다

칩렛이 단지 멋진 공학적 묘기가 아니라 경제적 필연인 이유를 다시 정리해 보겠습니다. 핵심은 수율과 비용입니다.

앞서 보았듯, 다이 면적이 커질수록 양품 수율은 지수적으로 떨어집니다. 거대한 단일 다이를 만들면 결함 하나에 다이 전체를 버려야 합니다. 반면 같은 기능을 네 개의 작은 다이로 나누면, 결함이 있는 다이만 버리고 나머지는 살릴 수 있습니다.

같은 총 면적, 다른 분할 전략

전략 A: 800 평방mm 단일 다이
  수율 약 45% -> 절반 이상 폐기

전략 B: 200 평방mm 다이 4개
  각 다이 수율 약 82%
  양품 다이를 골라 조합 -> 훨씬 효율적

여기에 known-good-die 테스트가 더해집니다. 작은 다이들은 패키징 전에 개별적으로 테스트할 수 있으므로, 양품임이 확인된 다이만 비싼 패키징 공정에 투입합니다. 비싼 패키징 단계에서 불량을 발견해 전체를 버리는 낭비를 줄일 수 있습니다.

또한 공정 혼합(process mixing)의 이점도 큽니다. 모든 회로가 최첨단 공정을 필요로 하는 것은 아닙니다. 연산 코어는 최신 공정의 밀도가 필요하지만, I/O나 메모리 컨트롤러는 더 성숙하고 저렴한 공정으로도 충분합니다. 칩렛 설계는 각 기능에 가장 비용 효율적인 공정을 배정할 수 있게 해 줍니다.

항목모놀리식칩렛
다이 크기큼 (레티클 한계)작음
다이 수율낮음높음
결함 시 폐기다이 전체해당 칩렛만
사전 테스트제한적known-good-die 가능
공정 혼합불가가능
패키징 복잡도낮음높음
die-to-die 오버헤드없음있음

물론 칩렛에도 비용이 있습니다. die-to-die 인터커넥트는 추가 전력과 지연을 발생시키고, 패키징 자체가 훨씬 복잡하고 비싸집니다. 하지만 다이가 충분히 커지는 영역에서는, 칩렛의 수율 이점이 이 오버헤드를 압도합니다.

패키징이 성능을 가른다

이제 핵심 주장에 도달했습니다. 2026년의 AI 가속기에서는 패키징이 곧 성능입니다.

생각해 보면 가속기의 성능은 단지 연산 코어가 몇 개인가로 결정되지 않습니다. 그 코어들에 데이터를 얼마나 빠르게 공급하느냐, 코어들끼리 얼마나 빠르게 통신하느냐, 그리고 칩끼리 얼마나 넓은 대역으로 묶이느냐가 실제 워크로드 성능을 좌우합니다. 이 모든 것이 패키징의 영역입니다.

Blackwell의 두 다이를 잇는 약 10 TB/s die-to-die 링크를 생각해 봅시다. 이 대역폭이 충분하지 않으면 두 다이는 하나처럼 동작할 수 없고, 소프트웨어는 두 개의 칩으로 인식하게 됩니다. 패키징이 만들어 내는 이 광대역 링크 덕분에 두 다이가 단일 논리 GPU처럼 보이는 것입니다.

HBM 통합도 마찬가지입니다. 같은 연산 코어라도 메모리 대역폭이 두 배가 되면, 메모리 바운드 워크로드의 처리량은 거의 두 배가 됩니다. 거대 언어 모델의 추론은 상당 부분 메모리 바운드이므로, HBM 대역폭이 곧 추론 처리량을 결정합니다.

흥미로운 산업 신호 하나를 덧붙이자면, 2026년은 추론(inference) 자본 지출이 학습(training) 자본 지출을 처음으로 추월하는 해로 관측됩니다. 모델을 만드는 것보다 모델을 서비스하는 데 더 많은 돈이 들어가기 시작했다는 뜻입니다. 추론은 대역폭과 효율이 곧 비용이므로, HBM과 패키징의 중요성은 앞으로 더 커질 것입니다.

공급망 — CoWoS 캐파라는 병목

여기서 산업적 현실 하나를 짚어야 합니다. 첨단 패키징은 아무나 할 수 없고, 사실상 소수의 파운드리가 캐파(생산 능력)를 쥐고 있습니다. 특히 TSMC의 CoWoS 캐파는 2026년 현재 AI 가속기 공급의 핵심 병목으로 꼽힙니다.

상황을 정리하면 이렇습니다. AI 가속기 수요는 폭발적인데, 그 가속기를 만들려면 CoWoS 같은 첨단 2.5D 패키징이 필요합니다. 그런데 CoWoS 라인을 새로 깔고 수율을 끌어올리는 데에는 시간과 막대한 투자가 듭니다. 결과적으로, 연산 다이는 만들 수 있어도 패키징할 캐파가 부족해 출하가 제약되는 상황이 벌어집니다.

AI 가속기 공급의 병목 지점

[연산 다이 생산] --> [HBM 공급] --> [CoWoS 패키징] --> [출하]
                                       ^^^^^^^^^^^^
                                    여기가 병목 (2026)

NVIDIA가 시장에서 약 75~80% 수준의 가속기 점유율을 유지하는 가운데, AMD의 MI350X 같은 경쟁 제품이 같은 패키징 캐파를 두고 경쟁합니다. 즉 첨단 패키징 캐파는 단지 기술 문제가 아니라, 누가 얼마나 많은 가속기를 시장에 내놓을 수 있느냐를 결정하는 전략 자원이 되었습니다. HBM 공급도 비슷한 긴장 관계에 있습니다.

이 공급망 관점은 시스템을 설계하거나 인프라를 조달하는 입장에서 매우 현실적인 함의를 가집니다. 가속기 도입 계획은 단지 성능 스펙이 아니라, 패키징과 HBM 캐파의 가용성에 의해 일정이 좌우될 수 있습니다.

열, 전력, 휘어짐 — 물리의 청구서

첨단 패키징은 공짜가 아닙니다. 여러 다이와 HBM 스택을 한 패키지에 욱여넣으면, 물리가 청구서를 내밉니다.

열 (Thermal)

가장 큰 과제는 열입니다. 좁은 면적에 거대한 전력이 집중되므로, 발생하는 열을 빼내는 일이 점점 어려워집니다. 특히 3D 적층에서는 상단 다이의 열이 하단 다이를 통과해야 빠져나갈 수 있어 방열이 더욱 까다롭습니다. 그래서 고성능 가속기는 점점 더 정교한 냉각, 나아가 액체 냉각(liquid cooling)을 요구합니다.

전력 전달 (Power Delivery)

두 번째는 전력 전달입니다. 거대한 다이 묶음에 안정적으로 전류를 공급하려면 패키지와 기판이 막대한 전류를 견뎌야 합니다. 전류 경로가 길거나 저항이 크면 전압 강하가 생기고, 이는 곧 성능 저하나 불안정으로 이어집니다. 최근에는 전력을 칩 뒷면으로 공급하는 후면 전력 전달(backside power delivery) 같은 기법이 주목받는 이유가 여기에 있습니다.

휘어짐 (Warpage)

세 번째는 다소 의외인 휘어짐입니다. 실리콘, 인터포저, 기판은 열팽창 계수가 서로 다릅니다. 패키지가 가열되고 식기를 반복하면 서로 다른 비율로 늘어나고 줄어들어, 패키지 전체가 미세하게 휘어집니다. 패키지가 커질수록 이 휘어짐은 심해지고, 심하면 다이 사이의 미세 접합이 끊어지거나 신뢰성 문제를 일으킵니다. 대형 CoWoS 패키지에서 휘어짐 관리는 매우 실질적인 엔지니어링 과제입니다.

첨단 패키징의 물리적 청구서

  열 집중 ----> 냉각/액냉 필요
  전력 집중 --> 후면 전력 전달, 두꺼운 전원망
  열팽창 차이 -> 패키지 휘어짐, 접합 신뢰성

패키지가 클수록 세 청구서가 모두 커진다.

미래 — 광 통합과 그 너머

전기 배선으로 다이를 잇는 데에는 한계가 있습니다. 거리가 멀어질수록 전기 신호는 더 많은 에너지를 쓰고 더 많은 손실을 겪습니다. 패키지 안의 짧은 거리는 전기로 충분하지만, 패키지와 패키지 사이, 보드와 보드 사이의 더 먼 거리는 점점 부담이 됩니다.

그래서 주목받는 것이 광 통합, 즉 옵티컬 I/O(optical I/O)입니다. 빛으로 신호를 전송하면 거리에 따른 손실이 훨씬 적고, 매우 높은 대역폭을 더 낮은 에너지로 실어 나를 수 있습니다. 실리콘 포토닉스(silicon photonics)를 패키지 안으로 가져와, 광 엔진을 연산 다이 바로 옆에 배치하는 코패키지드 옵틱스(co-packaged optics) 연구가 활발합니다.

전기 I/O vs 광 I/O

전기:  [다이] ===구리 배선=== [다이]
        거리 멀면 손실/에너지 증가

광:    [다이]--[광엔진]~~~빛~~~[광엔진]--[다이]
        거리에 둔감, 고대역, 저에너지

큰 그림에서 보면, 패키징의 진화는 한 방향을 가리킵니다. 연산, 메모리, 통신을 물리적으로 점점 더 가깝게 붙이는 것입니다. 메모리는 HBM으로 연산 옆에 붙었고, 다이들은 칩렛으로 한 패키지에 모였으며, 다음 단계는 통신(I/O)을 광으로 패키지 안에 통합하는 것입니다. 무어의 법칙이 트랜지스터 미세화로 성능을 끌어올렸다면, 그 너머의 세계에서는 통합(integration)이 성능을 끌어올립니다.

개발자와 시스템 관점

이 모든 하드웨어 이야기가 소프트웨어를 만드는 사람에게 무슨 의미가 있을까요? 생각보다 직접적입니다.

첫째, 데이터 이동을 의식하는 코드가 점점 더 중요해집니다. 메모리 벽이 실재하는 한, 연산량을 줄이는 것보다 데이터 이동을 줄이는 것이 더 큰 성능 이득을 주는 경우가 많습니다. 데이터를 코어 가까이에 두고 재사용하는 패턴 — 타일링, 융합(fusion), 캐시 친화적 접근 — 이 하드웨어의 패키징 구조와 맞물려 성능을 좌우합니다.

둘째, 다이/칩 경계를 의식하는 것이 중요해집니다. Blackwell처럼 두 다이가 die-to-die 링크로 묶인 가속기에서는, 링크를 가로지르는 통신이 다이 내부 통신보다 비쌉니다. 멀티 GPU, 멀티 다이 환경에서 워크로드를 어떻게 쪼개고 배치하느냐가 성능을 가릅니다. NVLink나 UALink 같은 칩 간 인터커넥트의 토폴로지를 이해하는 것이 분산 학습과 추론 최적화의 출발점이 됩니다.

셋째, 인프라 조달과 용량 계획의 관점입니다. 앞서 본 CoWoS와 HBM 캐파 병목은 가속기 가용성과 가격에 직접 영향을 줍니다. 대규모 추론 서비스를 계획한다면, 성능 스펙뿐 아니라 공급 가능성과 리드 타임까지 고려해야 합니다.

개발자가 기억할 세 가지

1. 데이터 이동 < 연산보다 비싸다 (메모리 벽)
2. die-to-die / 칩 간 통신은 내부 통신보다 비싸다
3. 패키징/HBM 캐파는 가용성과 비용을 좌우한다

조금 더 실무적으로, 성능을 따질 때 점검할 수 있는 체크리스트를 정리해 두겠습니다.

패키징 인식 최적화 체크리스트

[ ] 워크로드가 메모리 바운드인가 연산 바운드인가 먼저 측정했는가
[ ] 추론이라면 KV 캐시가 HBM 대역폭을 얼마나 점유하는지 파악했는가
[ ] 데이터 재사용(타일링, 융합)으로 HBM 왕복을 줄였는가
[ ] 멀티 다이 가속기에서 die-to-die 링크를 가로지르는 통신을 최소화했는가
[ ] 텐서/파이프라인 병렬 분할이 칩 간 인터커넥트 토폴로지와 맞는가
[ ] 통신과 연산을 겹쳐(overlap) 링크 지연을 숨겼는가
[ ] 조달 단계에서 패키징/HBM 캐파 리드 타임을 일정에 반영했는가
[ ] 가속기 세대 교체 시 HBM 용량/대역폭 변화가 배치 크기에 미치는 영향을 검토했는가

이 체크리스트의 앞쪽 항목은 코드 레벨, 뒤쪽 항목은 시스템과 조달 레벨입니다. 흥미로운 점은, 이 둘이 점점 분리되지 않는다는 것입니다. 어떤 가속기를 확보할 수 있느냐가 어떤 병렬화 전략이 가능한지를 정하고, 그 병렬화 전략이 다시 패키징 구조 위에서의 통신 패턴을 결정합니다. 하드웨어의 물리적 통합이 깊어질수록, 소프트웨어 최적화도 그 물리 구조를 더 깊이 의식해야 합니다.

수율 계산을 직접 해보자 — 800 평방mm 단일 다이 대 200 평방mm 칩렛 넷

앞에서 "작은 다이가 이긴다"고 했지만, 숫자로 직접 확인하지 않으면 감이 잘 오지 않습니다. 같은 총 면적을 가진 두 전략을 동일한 가정 아래 끝까지 계산해 보겠습니다.

가정은 단순합니다. 결함밀도는 평방센티미터당 0.1개, 수율 모델은 앞서 쓴 음의 지수 모델을 그대로 씁니다. 800 평방밀리미터는 8 평방센티미터, 200 평방밀리미터는 2 평방센티미터입니다.

공통 가정
  결함밀도 D = 0.1 / 평방cm
  수율 모델 Y = exp(-D × A),  A는 다이 면적(평방cm)

전략 A — 모놀리식 800 평방mm 다이 한 개
  A = 8.0 평방cm
  Y = exp(-0.1 × 8.0) = exp(-0.8) ≈ 0.449
  -> 다이 한 개의 양품 확률 약 44.9%

전략 B — 200 평방mm 칩렛 네 개 (총 800 평방mm)
  각 칩렛 A = 2.0 평방cm
  칩렛 한 개 수율 = exp(-0.1 × 2.0) = exp(-0.2) ≈ 0.819
  -> 칩렛 한 개의 양품 확률 약 81.9%

여기서 한 가지 주의할 점이 있습니다. 전략 B에서 "네 개가 전부 양품일 확률"을 그대로 곱하면 0.819의 네제곱, 즉 약 45%가 되어 모놀리식과 별 차이가 없어 보입니다. 하지만 이것은 함정입니다. 칩렛의 진짜 이점은 양품 다이만 골라 쓰는 known-good-die 선별에 있습니다. 불량 칩렛은 패키징 전에 버리고 양품만 모아 붙이므로, "네 개가 동시에 양품"일 필요가 없습니다.

같은 웨이퍼에서 건지는 양품 면적 (직관적 비교)

웨이퍼 한 장에서 쓸 수 있는 실리콘 면적을 100이라 두면:

전략 A (800 평방mm 다이):
  생산 가능한 다이 수가 적고, 그중 약 45%만 양품
  -> 버려지는 큰 다이마다 800 평방mm가 통째로 폐기

전략 B (200 평방mm 칩렛):
  같은 면적에서 다이를 네 배 더 많이 찍어내고
  그중 약 82%가 양품, 불량은 200 평방mm만 폐기
  -> 폐기 단위가 1/4로 작아져 실효 양품 면적이 크게 증가

숫자로 말하면, 폐기되는 실리콘 면적의 기대값이 전략 A에서는 다이 한 개당 약 0.55 × 800 = 440 평방밀리미터에 달하는 반면, 전략 B에서는 칩렛 한 개당 약 0.18 × 200 = 36 평방밀리미터에 그칩니다. 같은 총 면적을 만들려면 칩렛이 네 개 필요하므로 36 × 4 = 144 평방밀리미터, 여전히 전략 A의 440보다 훨씬 적습니다. 즉 동일 면적 기준으로 칩렛 쪽이 버리는 실리콘이 약 3분의 1 수준입니다.

여기에 패키징 비용이 더해집니다. 칩렛은 인터포저, 추가 본딩, 검사 공정이 들어가므로 다이당 패키징 원가가 모놀리식보다 높습니다. 그래서 결론은 면적 의존적입니다. 다이가 작을 때는 모놀리식이 더 싸고, 다이가 레티클 한계에 가까워질수록 칩렛의 수율 이점이 패키징 추가 비용을 압도합니다. Blackwell이나 MI350 같은 초대형 가속기가 칩렛으로 가는 이유가 바로 이 손익분기를 넘었기 때문입니다.

UCIe 심화 — 표준 패키지 대 어드밴스드 패키지

앞에서 UCIe를 "칩렛을 위한 공용 언어"로 소개했습니다. 이제 한 단계 더 들어가 보겠습니다. UCIe의 물리 계층은 크게 두 가지 패키지 등급을 정의합니다. 표준 패키지(standard package)와 어드밴스드 패키지(advanced package)입니다.

표준 패키지는 일반적인 유기 기판(organic substrate) 위에서 비교적 넉넉한 범프 피치로 다이를 연결합니다. 배선 밀도가 낮은 대신 제조가 싸고 쉽습니다. 어드밴스드 패키지는 실리콘 인터포저나 브리지 같은 고밀도 매체 위에서 훨씬 촘촘한 범프 피치로 연결합니다. 제조는 비싸지만 같은 가장자리(shoreline) 길이당 훨씬 많은 배선을 통과시킬 수 있습니다.

여기서 핵심 개념이 가장자리 대역폭, 즉 쇼어라인 대역폭(shoreline bandwidth)입니다. die-to-die 연결의 대역폭은 다이의 면적이 아니라 두 다이가 맞닿는 가장자리의 길이로 제약됩니다. 그래서 업계는 대역폭을 "가장자리 1밀리미터당 몇 기가바이트"로 측정합니다.

쇼어라인 대역폭 (가장자리 1mm당 die-to-die 대역폭)

  +----------+
  |  다이 A  |
  +----------+
  ^^^^^^^^^^^^  <- 이 가장자리 길이만큼만 배선이 지나갈 수 있다
  맞닿는 가장자리 = shoreline

UCIe 표준 패키지:     대략 가장자리 1mm당 수십 GB/s 수준
UCIe 어드밴스드 패키지: 대략 가장자리 1mm당 수백 GB/s 이상

같은 가장자리라도 어드밴스드 쪽이 한 자릿수 더 높은 밀도

긴 거리를 보내야 할 때는 리타이머(retimer)가 필요해집니다. 표준 패키지의 전기 신호는 거리가 길어지면 감쇠하므로, 중간에 신호를 다시 정형하고 증폭하는 리타이머 칩을 두어 도달 거리를 늘립니다. 다만 리타이머는 추가 지연과 전력을 발생시키므로, 가능하면 어드밴스드 패키지로 거리를 짧게 가져가는 편이 유리합니다.

UCIe를 경쟁 인터커넥트와 나란히 놓고 보면 위치가 분명해집니다. NVLink-C2C와 Infinity Fabric은 각각 NVIDIA와 AMD의 사유 규격으로, 자사 생태계 안에서 고도로 최적화되어 있습니다. UCIe는 성능에서 이들과 경쟁하면서도, 개방형 표준이라는 점에서 서로 다른 공급사의 칩렛을 섞을 수 있는 길을 노립니다.

항목UCIe (어드밴스드)Infinity Fabric (AMD)NVLink-C2C (NVIDIA)
성격개방형 표준사유 규격사유 규격
주 용도이종 칩렛 연결AMD 칩렛/패키지 내부CPU-GPU, 다이 간 결합
다중 공급사지향 (목표)제한적제한적
물리 계층표준/어드밴스드 2종자사 정의자사 정의
대역폭 밀도가장자리당 수백 GB/s급매우 높음매우 높음
생태계 의미칩렛 부품화수직 통합수직 통합

표만 놓고 보면 UCIe가 곧바로 사유 규격을 대체할 것 같지만, 현실은 더 복잡합니다. 사유 규격은 단일 회사가 물리 계층부터 소프트웨어 스택까지 통째로 최적화할 수 있어 당분간 최고 성능을 유지하기 쉽습니다. UCIe의 진짜 무기는 절대 성능이 아니라, 칩렛을 시장에서 사고팔 수 있는 부품으로 만드는 표준화 그 자체입니다.

패키징 기술 한눈에 비교 — 2.5D, 3D, InFO, EMIB, Foveros

지금까지 등장한 패키징 방식이 많아졌으니, 한 표로 정리해 보겠습니다. 핵심 축은 적층 방향, 범프 피치(촘촘할수록 배선 밀도가 높음), 상대적 비용, 그리고 대표 용도입니다.

기술적층/구조연결 매체범프 피치상대 비용대표 용도
2.5D CoWoS-S평면 (다이 나란히)풀 실리콘 인터포저매우 촘촘높음GPU + HBM 통합
2.5D CoWoS-L평면 + 국소 브리지브리지 + 재배선층매우 촘촘매우 높음초대형 다중 다이 (Blackwell)
InFO평면 (인터포저 없음)재배선층(RDL)보통중간모바일, 경량 가속기
EMIB평면 + 매립 브리지기판 내 실리콘 브리지촘촘중상다중 다이 (Intel 계열)
3D Foveros수직 적층다이 간 미세 범프촘촘높음로직 위 로직 적층
3D SoIC수직 적층하이브리드 본딩매우 촘촘매우 높음캐시 적층, 고밀도 로직

표를 가로로 읽으면 한 가지 추세가 보입니다. 비용이 올라갈수록 범프 피치가 촘촘해지고 배선 밀도가 높아집니다. 즉 더 비싼 패키징은 곧 더 짧고 더 넓은 die-to-die 연결을 의미하며, 이것이 그대로 대역폭과 효율로 환산됩니다. 하이브리드 본딩(hybrid bonding)은 이 흐름의 끝에 있는 기술로, 범프 없이 구리 패드를 직접 맞붙여 마이크로미터 이하 수준의 극도로 촘촘한 연결을 만들어 냅니다.

설계자는 이 표 위에서 한 점을 고르는 셈입니다. 비용을 아끼되 대역폭을 양보할 것인가, 비용을 쏟아붓되 가장 촘촘한 연결을 얻을 것인가. 제품의 성격 — 모바일이냐 데이터센터 가속기냐 — 이 그 선택을 좌우합니다.

CoWoS 캐파와 공급망 램프 — 왜 Blackwell과 MI350 공급이 묶이는가

앞서 CoWoS 캐파가 병목이라고 했는데, 시간 축에 올려놓고 보면 그 심각성이 더 분명해집니다. 핵심은 단순합니다. 첨단 패키징 캐파를 늘리는 속도가 AI 가속기 수요가 폭발하는 속도를 따라가지 못합니다.

CoWoS 캐파 램프와 수요 (개념적 추이, 2024-2026)

  수요 -----------------------------/
                                  /
                                /
  캐파 ----------------/------/
                     /      /
  2024            2025    2026
  ------------------------------------
  간격(수요 - 캐파) = 출하 제약 = 할당(allocation)

캐파를 늘리려면 인터포저 제조 라인, 본딩 장비, 검사 설비를 새로 깔고 수율을 끌어올려야 하는데, 여기에는 수개월에서 수년의 리드 타임과 막대한 자본이 듭니다. 그래서 2024년부터 2026년까지 파운드리가 CoWoS 캐파를 공격적으로 늘려 왔음에도, 늘어난 캐파가 곧바로 소진되는 상황이 반복됩니다.

이 병목은 곧장 제품 공급으로 번집니다. NVIDIA의 Blackwell과 AMD의 MI350 계열은 모두 동일한 종류의 첨단 2.5D 패키징과 HBM에 의존합니다. 즉 두 회사의 최상위 제품이 같은 제한된 자원을 두고 경쟁합니다. 연산 다이를 아무리 빨리 찍어내도, 패키징 슬롯과 HBM 물량을 확보하지 못하면 완성품을 출하할 수 없습니다.

공급이 묶이는 구조

  연산 다이  (상대적으로 여유)
      |
  HBM 물량   (긴장) ------+
      |                   |
  CoWoS 슬롯 (병목) ------+--> 둘 다 확보돼야 출하
      |
  완성 가속기 (할당제로 배분)

그 결과 나타나는 현실이 할당(allocation)입니다. 가속기를 사고 싶다고 즉시 살 수 있는 것이 아니라, 공급사가 정한 우선순위에 따라 물량이 배분됩니다. 대형 클라우드 사업자가 우선 확보하고, 그 뒤에 나머지 수요가 줄을 섭니다. 인프라를 조달하는 입장에서는 이 할당 구조와 리드 타임이 성능 스펙만큼이나 중요한 변수가 됩니다.

마치며

무어의 법칙은 끝났다고들 말하지만, 더 정확히는 무대의 주연이 바뀌었다고 해야 할 것입니다. 트랜지스터를 더 작게 만드는 경쟁은 여전히 진행 중이지만, 점점 더 큰 성능 이득은 다이를 어떻게 나누고, 붙이고, 연결하느냐 — 즉 첨단 패키징에서 나오고 있습니다.

모놀리식 다이는 레티클과 수율의 벽에 막혔고, 그 답으로 등장한 칩렛은 작은 다이들을 검증해 조합하는 새로운 경제학을 열었습니다. CoWoS와 3D 적층은 이 다이들을 하나의 칩처럼 묶었고, HBM은 메모리 벽을 패키징으로 뚫었으며, UCIe는 칩렛들이 공용 언어로 대화할 길을 닦고 있습니다. 그리고 그 모든 것의 뒤에는 CoWoS 캐파라는 공급망 병목과 열·전력·휘어짐이라는 물리의 청구서가 있습니다.

2026년의 AI 가속기 경쟁은 누가 더 빠른 코어를 설계하느냐의 싸움이라기보다, 누가 더 영리하게 통합하고 더 안정적으로 패키징할 수 있느냐의 싸움입니다. 무어의 법칙 너머의 세계는, 결국 패키징의 세계입니다.

참고 자료