- Authors

- Name
- Youngju Kim
- @fjvbn20031
- 들어가며
- 1. 추론 워크로드의 특성
- 2. GPU — 범용성과 생태계의 왕
- 3. Google TPU — 텐서에 특화된 systolic array
- 4. 클라우드 자체 추론 ASIC — 조용한 급성장
- 5. 트레이드오프 비교 테이블
- 6. 컴파일러와 소프트웨어 스택 — CUDA vs XLA
- 7. ASIC의 경제학 — NRE와 손익분기
- 8. 선택 기준 — 무엇을 골라야 하는가
- 9. 자주 묻는 질문
- 10. 미래
- 11. 개발자를 위한 실천 정리
- 마치며
- 참고 자료
들어가며
추론(inference)은 학습(training)과 본질적으로 다른 작업입니다. 학습은 거대한 배치를 한 번에 밀어 넣으며 GPU를 100% 가깝게 태우는, 처리량 위주의 작업입니다. 추론은 사용자 요청이 띄엄띄엄 들어오고, 응답 지연이 곧 사용자 경험이며, 같은 모델을 수억 번 반복 호출하는 작업입니다. 이 차이 때문에 추론에서는 "어떤 칩이 가장 빠른가"보다 "어떤 칩이 토큰당 가장 싼가, 전력당 가장 효율적인가"가 더 중요해집니다.
2026년 이 추론 시장을 두고 세 종류의 칩이 경쟁합니다. 범용성과 생태계를 무기로 한 GPU, 텐서 연산에 특화된 Google TPU, 그리고 특정 워크로드에 극단적으로 맞춰진 ASIC입니다. 이 글은 셋의 강점과 약점, 그리고 선택 기준을 개발자 관점에서 정리합니다.
이 글에서 다루는 큰 흐름은 이렇습니다. 먼저 추론 워크로드가 학습과 어떻게 다른지 명확히 한 뒤, 세 종류의 칩을 차례로 살핍니다. 그다음 트레이드오프를 한 테이블로 정리하고, 하드웨어만큼 중요한 컴파일러·소프트웨어 스택(CUDA와 XLA)을 비교합니다. 마지막으로 실전 선택 기준과 미래 전망으로 마무리합니다. 핵심 메시지를 미리 던지자면, "정답은 워크로드가 얼마나 고정되어 있느냐에 달려 있다"입니다.
1. 추론 워크로드의 특성
먼저 추론이 왜 학습과 다른지부터 명확히 합니다.
학습 vs 추론 (핵심 차이)
항목 학습 추론
---------- ------------------- --------------------
배치 크기 크다(수천) 작다(1~수십), 가변
지연 민감도 낮음 높음(사용자 대기)
연산 패턴 높은 산술 강도 낮은 산술 강도(메모리 바운드)
정밀도 BF16/FP8 FP8/FP4/INT8
반복 횟수 적음(한 번 학습) 많음(끝없이 호출)
최적화 목표 처리량 토큰당 비용 + 지연
핵심은 추론이 자주 메모리 바운드라는 점입니다. 특히 토큰을 하나씩 생성하는 자기회귀(autoregressive) 디코딩 단계에서는, 거대한 가중치를 메모리에서 읽어오는 시간이 곱셈 연산 시간보다 깁니다. 그래서 추론 칩의 승부는 종종 "얼마나 빠르게 곱하는가"가 아니라 "얼마나 빠르게 메모리를 읽는가, 그리고 그것을 얼마나 적은 전력으로 하는가"에서 갈립니다.
추론의 두 단계 — prefill과 decode
추론을 더 정확히 이해하려면, LLM 추론이 성격이 다른 두 단계로 나뉜다는 점을 알아야 합니다.
LLM 추론의 두 단계 (개념)
1. prefill (프롬프트 처리)
입력 전체를 한 번에 병렬 처리. 연산이 많음 → 연산 바운드에 가까움.
2. decode (토큰 생성)
토큰을 하나씩 순차 생성. 매 토큰마다 거대한 가중치를 다시 읽음
→ 메모리 바운드.
같은 추론 안에서도 두 단계의 병목이 다르다.
이 구분이 중요한 이유는, 두 단계가 칩에 요구하는 것이 다르기 때문입니다. prefill은 연산 능력을, decode는 메모리 대역폭을 더 요구합니다. 좋은 추론 시스템은 이 둘을 분리해 최적화하기도 합니다(예: 두 단계를 서로 다른 자원에 배치). 칩을 고를 때도 "내 워크로드가 prefill 비중이 큰가, decode 비중이 큰가"가 의외로 중요한 변수가 됩니다. 긴 프롬프트에 짧은 답변이면 prefill 비중이 크고, 짧은 프롬프트에 긴 생성이면 decode 비중이 큽니다.
2. GPU — 범용성과 생태계의 왕
GPU의 강점은 칩 스펙이 아니라 생태계입니다.
- 무엇이든 돌아간다: 새로운 모델 구조, 커스텀 연산, 실험적 양자화 기법 — GPU에서는 거의 모든 것이 즉시 돌아갑니다.
- CUDA라는 해자: 십수 년 누적된 라이브러리(cuBLAS, cuDNN, CUTLASS), 커널, 프로파일러, 그리고 방대한 커뮤니티. 추론 서빙 엔진(예: 다양한 추론 런타임)이 GPU를 1순위로 지원합니다.
- 유연한 배칭: 가변 길이 요청을 모아 처리하는 연속 배칭(continuous batching) 같은 고급 기법이 GPU 생태계에서 성숙해 있습니다.
- 풍부한 인력 풀: CUDA를 다룰 줄 아는 엔지니어가 시장에 많아, 팀을 꾸리고 문제를 해결하기 쉽습니다. 이는 종종 과소평가되는 실질적 이점입니다.
GPU의 약점은 바로 그 범용성의 대가입니다. 무엇이든 할 수 있도록 설계된 칩은, 한 가지 작업만 하는 ASIC보다 전력당 효율이 떨어질 수밖에 없습니다. 고정된 모델을 대량으로 돌리는 시나리오에서는 이 비효율이 누적되어 비용 차이로 나타납니다.
이 트레이드오프를 한 문장으로 요약하면 이렇습니다. GPU는 "무엇이든 꽤 잘하지만 어느 하나도 극한으로 잘하지는 못하는" 만능 도구입니다. 만능 도구는 무엇을 할지 모를 때 최고의 선택이고, 할 일이 정해졌을 때는 전용 도구에 자리를 내줍니다. 추론 시장이 성숙하며 "할 일이 정해지는" 워크로드가 늘어날수록, GPU의 범용성은 양날의 검이 됩니다.
그럼에도 GPU가 추론에서 여전히 압도적인 이유는, 현실의 워크로드가 생각만큼 빨리 고정되지 않기 때문입니다. 모델은 계속 개선되고, 새로운 기법이 등장하고, 정밀도 포맷이 바뀝니다. 이 변화의 시기에 "무엇이든 즉시 돌릴 수 있는" GPU의 가치는 비용 비효율을 상쇄하고도 남습니다. GPU의 진짜 강점은 칩이 아니라, 변화에 대한 보험이라고 볼 수도 있습니다.
배칭 — GPU 추론 효율의 숨은 비결
GPU 추론에서 처리량을 끌어올리는 가장 강력한 무기 중 하나가 배칭입니다. 사용자 요청을 하나씩 처리하면, 거대한 가중치를 한 번 읽어와 단 하나의 요청에만 쓰고 버립니다. 엄청난 낭비죠. 대신 여러 요청을 모아 같은 가중치로 한꺼번에 처리하면, 한 번 읽은 가중치를 여러 요청이 공유합니다.
배칭의 효과 (개념)
배칭 없음: 가중치 읽기 → 요청 1개 처리 → 버림 (반복)
가중치 재사용률 낮음, 메모리 낭비 큼
배칭 있음: 가중치 읽기 → 요청 N개 동시 처리 → 버림
한 번 읽은 가중치를 N개가 공유 → 효율 급상승
문제는 추론 요청이 길이도 다르고 도착 시점도 제각각이라는 점입니다. 이를 효율적으로 다루는 연속 배칭(continuous batching) 같은 기법이 GPU 추론 생태계에서 성숙해 있고, 이것이 GPU의 실질적 강점 중 하나입니다. 다만 배칭은 처리량을 높이는 대신 개별 요청의 지연을 약간 늘릴 수 있어, 처리량과 지연 사이의 균형을 잡는 운영 감각이 필요합니다.
3. Google TPU — 텐서에 특화된 systolic array
Google TPU는 GPU와 ASIC의 중간 지점에 있는 흥미로운 존재입니다. 범용 GPU만큼 유연하지는 않지만, 단일 목적 ASIC만큼 경직되지도 않았습니다. 핵심은 systolic array — 행렬 곱셈을 위해 설계된 격자형 연산 구조입니다.
systolic array를 직관적으로 설명하면, 데이터가 격자(grid) 모양으로 배열된 연산기들 사이를 심장박동처럼 규칙적으로 흘러 지나가는 구조입니다. 데이터가 한 번 격자에 들어오면, 외부 메모리로 다시 나가지 않고 연산기에서 연산기로 옆으로 전달되며 곱셈과 누적이 일어납니다.
systolic array (개념)
입력 → [PE]-[PE]-[PE]
| | | PE = 연산기(곱셈-누적)
[PE]-[PE]-[PE] 데이터가 격자 안에서 옆으로 흐른다
| | | → 외부 메모리 왕복을 줄임
[PE]-[PE]-[PE]
↓ 결과
행렬 곱에 극도로 효율적. 데이터 재사용이 높아 메모리 부담이 적다.
이 구조의 장점은 데이터 재사용률이 높다는 것입니다. 한 번 격자에 실린 데이터가 여러 연산에 쓰이므로, 같은 데이터를 메모리에서 반복해 읽을 필요가 줄어듭니다. 행렬 곱이 지배적인 딥러닝 워크로드에 systolic array가 잘 맞는 이유입니다. 다만 격자 구조에 잘 맞지 않는 불규칙한 연산에서는 효율이 떨어집니다. 이것이 TPU가 "행렬 곱에는 강하지만 임의 연산에는 GPU만큼 유연하지 못한" 이유이기도 합니다.
TPU v6 Trillium
2026년 TPU 라인의 핵심 중 하나는 v6 세대인 Trillium입니다. Google은 Trillium이 직전 세대 대비 칩당 peak 연산 성능을 약 4.7배 끌어올렸다고 밝혔습니다. 메모리 대역폭과 인터커넥트도 함께 강화되어, 대규모 학습과 추론 양쪽에서 쓰입니다.
Ironwood — 추론 특화 7세대
더 흥미로운 것은 추론에 특화된 7세대 Ironwood입니다. 이름이 시사하듯, Ironwood는 학습보다 추론 시대를 정조준해 설계되었습니다. 거대 모델을 낮은 지연과 높은 전력 효율로 서빙하는 데 초점을 둡니다. 2026년 추론 capex가 학습을 추월한 흐름과 정확히 맞물리는 제품입니다.
Ironwood가 상징적인 이유는, 한 세대 전체를 추론에 바친 첫 TPU 라인이라는 점입니다. 그동안 가속기는 대체로 학습을 1순위로 설계되고 추론은 부수적으로 따라오는 식이었습니다. 그런데 추론 비용이 학습을 추월하자, 칩 설계의 우선순위 자체가 뒤집힌 것입니다. 학습용으로 설계된 칩에 추론을 끼워 맞추는 시대에서, 추론을 위해 처음부터 설계된 칩의 시대로 넘어가는 분기점을 Ironwood가 보여줍니다. 이는 NVIDIA Blackwell이 추론을 정조준한 것과 같은 흐름이며, 업계 전체가 같은 방향을 향하고 있음을 말해 줍니다.
TPU의 트레이드오프
- 강점: 행렬 곱에 극도로 효율적, 큰 클러스터에서의 우수한 확장성, Google 스택과의 긴밀한 통합.
- 약점: GPU만큼 임의의 연산을 자유롭게 돌리기 어렵고, 생태계가 Google 클라우드 중심이라 이식성이 제한적입니다.
TPU를 "GPU와 ASIC의 중간"이라고 부른 이유를 다시 짚으면, TPU는 GPU만큼 아무거나 돌리지는 못하지만 단일 목적 ASIC처럼 한 모델에만 고정되지도 않습니다. 행렬 연산이라는 넓은 범주에 특화되어 있어, 그 범주 안의 다양한 모델을 효율적으로 다룹니다. 이 "적당한 특화"가 TPU의 정체성입니다. 너무 범용이지도, 너무 경직되지도 않은 균형점에서, 대규모 학습과 추론을 모두 합리적인 효율로 소화합니다. 다만 그 대가로 Google 클라우드라는 울타리에 묶이며, 이는 멀티클라우드 전략을 가진 조직에는 분명한 제약입니다.
4. 클라우드 자체 추론 ASIC — 조용한 급성장
2026년 추론 시장에서 가장 빠르게 성장하는 범주는 클라우드 사업자들의 자체 추론 ASIC입니다. 추론 워크로드에서 ASIC이 차지하는 비중은 2024년 약 15%에서 2026년 약 40%로 가파르게 늘 것으로 전망됩니다.
왜 클라우드들이 직접 칩을 만들까요.
- 경제성: 자사 데이터센터에서 가장 많이 돌리는 워크로드(예: 특정 추천·번역·LLM 추론)는 고정적입니다. 고정 워크로드는 ASIC으로 만들면 GPU보다 전력당 비용이 크게 낮아집니다.
- 공급망 통제: NVIDIA 단일 의존을 줄이고 자체 로드맵을 갖습니다.
- 수직 통합: 모델, 컴파일러, 칩을 함께 설계해 최적화 여지를 극대화합니다. 모델이 어떻게 생겼는지 정확히 알고 칩을 만들면, 범용 칩이 감당하지 못하는 극단적 최적화가 가능해집니다.
이 수직 통합의 힘은 과소평가하기 쉽습니다. 범용 GPU 벤더는 세상의 모든 모델을 잘 돌려야 하므로 어느 하나에 극단적으로 최적화할 수 없습니다. 반면 자기 모델을 위해 자기 칩을 만드는 회사는, 그 특정 모델의 연산 패턴·정밀도·메모리 접근을 정확히 겨냥해 설계할 수 있습니다. 모델-컴파일러-칩을 한 팀이 함께 다듬는 이 통합이, 자체 ASIC이 같은 워크로드에서 범용 칩을 능가할 수 있는 근본 이유입니다.
ASIC의 약점은 명확합니다. 유연성이 거의 없습니다. 칩을 설계할 때 가정한 모델 구조나 정밀도에서 벗어나면 효율이 급격히 떨어지거나 아예 돌지 않습니다. 모델 구조가 빠르게 바뀌는 연구 단계에서는 부적합하고, 충분히 표준화·고정된 대량 추론에서 빛납니다.
이 15%에서 40%로의 성장이 의미하는 바를 곱씹어 볼 가치가 있습니다. 불과 2년 만에 추론 워크로드에서 ASIC의 비중이 두 배 넘게 뛴다는 것은, 시장이 "유연성을 약간 포기하더라도 비용을 크게 줄이겠다"는 방향으로 빠르게 움직이고 있다는 신호입니다. 이는 추론 워크로드가 그만큼 표준화·고정되고 있다는 뜻이기도 합니다. 모델이 자주 바뀌던 실험기를 지나, 검증된 모델을 안정적으로 대량 서빙하는 단계로 산업이 성숙하고 있는 것입니다.
추론 ASIC 점유 추이 (전망, 개념)
2024 ███ ~15%
2025 ██████ (상승 중)
2026 ████████ ~40%
→ 워크로드가 표준화될수록 특화 칩의 비중이 빠르게 커진다.
추론 ASIC이 잘하는 일과 못하는 일
ASIC을 더 구체적으로 이해하기 위해, 무엇을 잘하고 무엇을 못하는지 나눠 봅니다.
추론 ASIC의 강점 / 약점 (개념)
잘하는 일: - 정해진 모델을 정해진 정밀도로 대량 처리
- 전력당·토큰당 비용 최소화
- 예측 가능한 안정적 워크로드
못하는 일: - 새로운 모델 구조에 즉시 대응
- 실험적 연산·커스텀 커널
- 자주 바뀌는 워크로드
이 구분이 ASIC 채택 결정의 핵심입니다. 워크로드가 "잘하는 일" 칸에 깔끔하게 들어가면 ASIC은 압도적 경제성을 줍니다. 반대로 "못하는 일" 칸에 걸치는 부분이 많으면, 아무리 토큰당 비용이 싸 보여도 실제로는 잦은 재설계와 우회로 인해 전체 비용이 오히려 커집니다. 그래서 ASIC 결정은 칩 스펙이 아니라 "내 워크로드가 얼마나 고정적인가"라는 자기 진단에서 출발해야 합니다.
5. 트레이드오프 비교 테이블
세 범주를 한눈에 비교합니다.
| 기준 | GPU | TPU | 추론 ASIC |
|---|---|---|---|
| 유연성 | 매우 높음 | 중간 | 낮음 |
| 생태계 성숙도 | 최고(CUDA) | 중간(XLA, Google 중심) | 낮음(벤더 종속) |
| 전력당 성능 | 중간 | 높음 | 매우 높음(특화 시) |
| 토큰당 비용 | 중간 | 낮음 | 가장 낮음(고정 워크로드) |
| 지연 최적화 | 좋음 | 좋음 | 매우 좋음(특화 시) |
| 새 모델 대응 | 즉시 | 비교적 빠름 | 느림(재설계 필요) |
| 이식성 | 높음 | 낮음 | 매우 낮음 |
| 적합 시나리오 | 연구·다양한 워크로드 | 대규모 학습·추론 | 표준화된 대량 추론 |
이 표의 한 줄 해석은 이렇습니다. 오른쪽으로 갈수록 효율과 비용은 좋아지지만 유연성과 이식성은 나빠집니다. 워크로드가 얼마나 고정되어 있느냐가 선택의 핵심 변수입니다.
표를 볼 때 흔히 저지르는 실수는, 한 칸만 보고 결정하는 것입니다. 예를 들어 "토큰당 비용"만 보면 ASIC이 압도적이지만, 그 옆의 "새 모델 대응"과 "이식성"을 함께 보지 않으면 함정에 빠집니다. 토큰당 비용이 아무리 싸도, 모델을 바꿀 때마다 칩을 재설계해야 한다면 전체 비용은 오히려 커질 수 있습니다. 모든 의사결정은 한 축이 아니라 여러 축의 균형으로 이뤄져야 합니다.
또 하나 주의할 점은, 이 표의 값들이 절대적이지 않다는 것입니다. 컴파일러가 성숙하면 TPU·ASIC의 "생태계 성숙도"가 올라가고, 새 GPU 세대가 나오면 "전력당 성능"이 바뀝니다. 표는 2026년 시점의 스냅샷일 뿐, 매년 갱신되는 움직이는 지형이라는 점을 기억해야 합니다.
6. 컴파일러와 소프트웨어 스택 — CUDA vs XLA
하드웨어 못지않게 중요한 것이 소프트웨어 스택입니다. 모델 코드를 칩이 실행할 명령으로 바꾸는 컴파일러가 성능과 생산성을 좌우합니다.
CUDA 진영
GPU는 CUDA를 중심으로 돕니다. 개발자는 고수준 프레임워크로 모델을 작성하고, 그 아래에서 cuDNN, CUTLASS 같은 라이브러리와 커스텀 커널이 GPU에 맞게 연산을 최적화합니다. 핵심 강점은 성숙도와 제어력입니다. 필요하면 직접 커널을 짜서 마지막 한 방울까지 성능을 짜낼 수 있습니다.
GPU 실행 흐름 (개념)
모델 코드
│
▼
프레임워크 그래프
│
▼
CUDA 커널 / cuDNN / CUTLASS ← 손으로 커널 작성도 가능
│
▼
GPU 실행
XLA 진영
TPU와 여러 ASIC은 XLA 같은 컴파일러를 중심으로 돕니다. 개발자는 보통 커널을 직접 짜지 않고, 컴파일러가 전체 그래프를 보고 연산 융합(fusion), 레이아웃 최적화, 메모리 스케줄링을 자동으로 수행합니다.
TPU/ASIC 실행 흐름 (개념)
모델 코드
│
▼
그래프 (전체를 한꺼번에 본다)
│
▼
XLA 컴파일러 ← 연산 융합·레이아웃·스케줄링 자동
│
▼
TPU / ASIC 실행
두 철학의 차이는 명확합니다. CUDA는 "강력한 저수준 제어와 거대한 생태계"를, XLA는 "컴파일러에 맡기는 자동 최적화와 깔끔한 추상화"를 제공합니다. ASIC 벤더들은 대개 후자에 가까운 자체 컴파일러를 제공하며, 이 컴파일러의 성숙도가 곧 그 칩의 실사용성을 결정합니다.
컴파일러가 진짜 승부처인 이유
여기서 강조하고 싶은 핵심이 있습니다. 추론 하드웨어 경쟁의 진짜 승부처는 칩의 트랜지스터가 아니라 컴파일러라는 점입니다. 아무리 이론적 성능이 뛰어난 칩이라도, 컴파일러가 미숙해서 모델을 그 성능으로 끌어올리지 못하면 무용지물입니다.
이론 성능 vs 실효 성능 (개념)
칩 A: 이론 성능 100, 컴파일러 미숙 → 실효 40
칩 B: 이론 성능 80, 컴파일러 성숙 → 실효 70
→ 스펙시트의 이론 성능보다, 컴파일러가 그것을 얼마나
끌어내는지가 실제 경험을 결정한다.
이것이 NVIDIA의 해자가 단단한 이유이기도 합니다. CUDA는 칩이 아니라 십수 년간 다듬어진 소프트웨어 스택입니다. 새 ASIC이 더 좋은 트랜지스터를 갖고 나와도, "모델을 가져오면 그냥 잘 돌아가는" 경험을 제공하기까지는 컴파일러를 오랫동안 갈고닦아야 합니다. 그래서 칩 벤더에게 컴파일러 팀은 칩 설계 팀만큼 중요해졌습니다. 개발자 입장에서 새로운 가속기를 평가할 때도, "이론 TFLOPS"보다 "내 모델을 올렸을 때 컴파일러가 얼마나 잘 끌어내는가"를 직접 벤치마크하는 것이 훨씬 중요합니다.
7. ASIC의 경제학 — NRE와 손익분기
ASIC을 직접 만드는 결정에는 흥미로운 경제학이 깔려 있습니다. 칩을 설계하고 생산 라인을 준비하는 데는 막대한 일회성 비용(NRE, Non-Recurring Engineering)이 듭니다. 이 비용을 정당화하려면, 그 칩으로 처리하는 워크로드의 누적 규모가 충분히 커서 칩당 비용 절감이 NRE를 넘어서야 합니다.
ASIC 손익분기 (개념)
비용
^
| GPU 임대: 비용이 사용량에 비례해 꾸준히 증가
| /
| /
| / ____________ ASIC: 초기 NRE는 크지만, 이후 단위 비용이 낮음
| / /
| / /
| //
| X ← 손익분기점
+--------------------------> 누적 워크로드 규모
워크로드가 손익분기점을 넘을 만큼 크고 고정적일 때만 ASIC이 이득.
이 그래프가 설명하는 바는 명확합니다. 워크로드가 작거나 자주 바뀌면 GPU 임대가 싸고, 워크로드가 거대하고 고정적이면 ASIC이 싸집니다. 그래서 자체 ASIC은 초대형 클라우드와 AI 기업의 전유물에 가깝습니다. 그들만이 NRE를 정당화할 만큼 거대하고 안정적인 워크로드를 갖고 있기 때문입니다. 대부분의 회사에게 합리적인 선택은 그 인프라를 빌려 쓰는 것입니다. 즉 ASIC의 경제성은 결국 "규모"의 함수입니다.
8. 선택 기준 — 무엇을 골라야 하는가
실전 의사결정을 위한 질문 목록입니다.
- 모델 구조가 자주 바뀌는가? 예 → GPU. 연구·실험 단계에서는 유연성이 무엇보다 중요합니다.
- 하나의 고정된 모델을 거대한 규모로 돌리는가? 예 → ASIC 또는 TPU. 고정될수록 특화 칩의 경제성이 커집니다.
- 여러 클라우드/온프레미스에 이식해야 하는가? 예 → GPU. 이식성과 호환성이 압도적입니다.
- 전력·비용이 가장 큰 제약인가? 예 → 특화 칩(TPU/ASIC)을 진지하게 검토하세요.
- 팀이 저수준 최적화 역량을 갖췄는가? 예 → GPU에서 커스텀 커널로 큰 이득을 볼 수 있습니다. 아니오 → 컴파일러가 알아서 해주는 스택이 편합니다.
대부분의 일반 애플리케이션 팀은 GPU(혹은 GPU 기반 매니지드 추론 서비스)로 시작하는 것이 합리적입니다. 워크로드가 충분히 커지고 고정되면, 그때 TPU나 ASIC으로의 전환이 비용 절감으로 정당화됩니다.
실전 시나리오 세 가지
추상적인 기준을 구체적인 상황에 대입해 봅니다.
시나리오 A — 스타트업의 신규 AI 기능. 모델을 자주 바꾸고, 트래픽도 예측하기 어렵습니다. 정답은 GPU 기반 매니지드 추론입니다. 유연성과 빠른 실험이 비용 최적화보다 중요한 단계입니다. 섣불리 특화 칩에 묶이면 모델을 바꿀 때마다 발목이 잡힙니다. 이 단계에서 비용 최적화에 과하게 매달리는 것은 흔한 실수입니다. 아직 제품이 검증되지도 않았는데 인프라를 특화 칩으로 굳히면, 정작 방향을 틀어야 할 때 그 투자가 족쇄가 됩니다.
시나리오 B — 성숙한 서비스의 핵심 추론. 모델 구조가 안정됐고, 하루 수십억 호출이 들어옵니다. 이제 비용이 곧 사업성입니다. TPU나, 가능하면 그 워크로드에 맞는 특화 칩·저정밀 서빙으로 옮길 때입니다. 작은 효율 개선도 절대 금액으로는 막대합니다. 이 단계의 핵심은 "충분히 안정됐는가"의 판단입니다. 모델과 트래픽 패턴이 굳어졌다고 확신할 수 있을 때 비로소 특화로의 전환이 안전합니다.
시나리오 C — 멀티클라우드·온프레미스 제품. 고객마다 다른 환경에 배포해야 합니다. 이식성이 최우선이므로 GPU가 사실상 유일한 현실적 선택입니다. 특정 클라우드의 TPU나 자체 ASIC은 그 클라우드 밖에서는 쓸 수 없습니다.
이 세 시나리오를 한 장의 표로 정리하면 의사결정이 더 또렷해집니다.
| 시나리오 | 우선 가치 | 현실적 선택 |
|---|---|---|
| 신규·실험 단계 | 유연성 | GPU 매니지드 추론 |
| 성숙·대량 단계 | 비용 | TPU 또는 특화 칩·저정밀 |
| 멀티클라우드 제품 | 이식성 | GPU |
이 세 시나리오의 공통 교훈은, "정답은 칩의 절대 성능이 아니라 우리 단계와 제약에 달려 있다"는 것입니다.
9. 자주 묻는 질문
Q. TPU는 GPU보다 무조건 효율적인가요? A. 행렬 곱이 지배적이고 워크로드가 TPU에 잘 맞으면 효율적일 수 있습니다. 하지만 불규칙한 연산이 많거나 모델 구조가 특이하면 GPU가 더 나을 수 있습니다. "무조건"은 없습니다.
Q. 추론 ASIC을 우리 회사도 만들 수 있나요? A. 기술적으로는 가능하지만 경제적으로는 대개 비합리적입니다. 막대한 NRE를 정당화할 만큼 거대하고 고정된 워크로드가 없다면, 클라우드의 ASIC을 빌려 쓰는 편이 훨씬 쌉니다.
Q. CUDA에 묶이는 것이 정말 문제인가요? A. 당장은 편하지만 장기적으로는 협상력과 선택지를 좁힙니다. 핵심 추론 경로에 추상화 계층을 두어 백엔드를 교체할 수 있게 해두면, 미래에 더 싼 옵션이 나왔을 때 갈아탈 여지가 생깁니다.
Q. 컴파일러가 알아서 최적화해 주는데 왜 커널을 직접 짜나요? A. 대부분의 경우는 컴파일러로 충분합니다. 다만 성능이 사업의 생사를 가르는 극한의 추론 경로에서는, 직접 커널을 짜서 마지막 몇 퍼센트를 짜내는 것이 큰 차이를 만들 수 있습니다. 이것이 GPU 생태계의 깊이가 주는 이점입니다.
10. 미래
2026년 이후의 방향을 정리합니다.
- ASIC 비중의 지속 확대: 추론 워크로드가 표준화될수록 자체 ASIC의 점유가 더 커집니다.
- 컴파일러 경쟁의 격화: 칩 자체보다 컴파일러·소프트웨어 스택의 성숙도가 승부처가 됩니다. ASIC이 GPU를 이기려면 "그냥 돌아가는" 경험을 제공해야 합니다.
- 추상화 계층의 발전: 특정 하드웨어에 묶이지 않고 백엔드를 교체할 수 있게 해주는 중간 계층이 중요해집니다. 이것이 성숙하면 ASIC 채택 장벽이 낮아집니다.
- 혼합 운영: 한 서비스 안에서 워크로드 특성에 따라 GPU와 특화 칩을 섞어 쓰는 운영이 보편화됩니다.
이 혼합 운영을 조금 더 풀어 보면, 미래의 추론 시스템은 단일 칩에 의존하지 않을 가능성이 큽니다. 예컨대 모델을 자주 바꾸는 실험 트래픽은 GPU로, 안정화된 핵심 모델의 대량 트래픽은 특화 칩으로, 그리고 지연이 극도로 중요한 일부 경로는 또 다른 최적화된 자원으로 보내는 식입니다.
미래의 혼합 추론 인프라 (개념)
요청 ──┬── 실험·신모델 트래픽 ──> GPU (유연성)
├── 안정 핵심 트래픽 ──> 특화 칩 (비용)
└── 초저지연 경로 ──> 최적화 자원 (지연)
→ 단일 칩이 아니라, 워크로드 특성에 맞춰 라우팅하는 구조로 진화.
이런 구조에서 개발자에게 필요한 역량은 특정 칩을 깊이 아는 것보다, 워크로드를 특성별로 분류하고 적절한 자원으로 보내는 추상화를 설계하는 것입니다. 즉 미래의 추론 엔지니어링은 "어떤 칩이 최고인가"의 문제에서 "어떤 트래픽을 어디로 보낼 것인가"의 문제로 무게가 옮겨갑니다.
11. 개발자를 위한 실천 정리
칩을 직접 고르지 않는 개발자라도 이 비교에서 가져갈 실천 항목이 있습니다.
- 내 워크로드의 prefill/decode 비중을 파악하세요. 둘의 병목이 다르므로, 최적화 방향과 칩 선택이 달라집니다.
- 배칭과 저정밀 서빙을 먼저 적용하세요. 칩을 바꾸기 전에, 같은 칩에서 소프트웨어로 짜낼 수 있는 효율이 큽니다.
- 이론 성능이 아니라 내 모델로 벤치마크하세요. 컴파일러가 그 성능을 얼마나 끌어내는지가 진짜 지표입니다.
- 추상화 계층으로 백엔드 교체 여지를 남기세요. 특정 칩에 코드를 깊이 묶지 않으면 미래의 선택지가 넓어집니다.
- 단계에 맞게 결정하세요. 초기엔 유연성(GPU), 성숙기엔 비용(TPU/ASIC). 단계를 건너뛴 최적화는 대개 역효과입니다.
이 다섯 가지를 의식하는 것만으로, 가속기 선택과 추론 비용에서 큰 차이를 만들 수 있습니다. 그리고 이 항목 대부분은 특정 칩에 대한 깊은 지식 없이도, 워크로드를 이해하는 것만으로 실천할 수 있다는 점이 중요합니다. 즉 좋은 추론 엔지니어링의 출발점은 칩 카탈로그를 외우는 것이 아니라, 자신의 워크로드를 정확히 아는 것입니다.
마치며
GPU vs TPU vs ASIC의 추론 전쟁은 "누가 이기는가"의 문제가 아니라 "어떤 워크로드에 무엇이 맞는가"의 문제입니다. GPU는 유연성과 생태계로, TPU는 균형 잡힌 효율로, ASIC은 고정 워크로드의 극한 경제성으로 각자의 자리를 지킵니다.
개발자로서 우리가 기억할 것은 단순합니다. 워크로드가 고정될수록 특화 칩의 가치가 커지고, 변화가 많을수록 GPU의 유연성이 빛난다. 그리고 어떤 칩을 고르든, 추론의 본질이 메모리 바운드라는 점을 이해하면 비용을 크게 줄일 수 있습니다. 그 메모리 병목의 정체는 다음 글에서 깊이 파고듭니다.
마지막으로 한 가지 균형 잡힌 시각을 덧붙이겠습니다. "ASIC이 GPU를 대체한다"거나 "GPU는 끝났다" 같은 단정은 대개 과장입니다. 현실은 훨씬 점진적이고 공존적입니다. GPU는 변화와 실험의 영역에서, TPU는 균형 잡힌 대규모 워크로드에서, ASIC은 표준화된 대량 추론에서 각자의 자리를 지키며 함께 성장합니다. 어느 한 칩이 모든 것을 가져가는 미래보다는, 워크로드에 맞춰 골라 쓰는 다원적 미래가 더 현실적입니다. 그 다원적 세계를 잘 항해하는 능력이, 2026년 이후 추론 엔지니어의 핵심 역량이 될 것입니다.
참고 자료
- Google Cloud TPU: https://cloud.google.com/tpu
- Google Cloud TPU 문서: https://cloud.google.com/tpu/docs
- NVIDIA 데이터센터 GPU: https://www.nvidia.com/en-us/data-center/
- OpenXLA 프로젝트: https://openxla.org/
- AWS 자체 추론 칩(Inferentia): https://aws.amazon.com/machine-learning/inferentia/
- SemiAnalysis (AI 인프라 분석): https://www.semianalysis.com/
- arXiv (컴퓨터 아키텍처): https://arxiv.org/list/cs.AR/recent