- Published on
AI 하드웨어 전쟁 2025: NVIDIA Blackwell vs AMD MI350 vs Cerebras WSE-3 vs Google TPU v7 — 칩 패권의 모든 것
- Authors

- Name
- Youngju Kim
- @fjvbn20031
- 1. AI 칩 전쟁 지형도 2025
- 2. NVIDIA: 여전한 왕좌
- 3. Samsung: 메모리의 왕
- 4. Cerebras: 웨이퍼 스케일의 도전자
- 5. AMD: NVIDIA의 최대 도전자
- 6. Google TPU: 자체 칩의 힘
- 7. 나머지 주자들
- 8. 대비교표: AI 칩 전쟁의 5대 강자
- 9. 개발자가 알아야 할 시사점
- 실전 퀴즈
- 참고 자료
1. AI 칩 전쟁 지형도 2025
2025년은 AI 하드웨어 전쟁이 본격적으로 다극화된 해입니다. NVIDIA가 여전히 GPU 시장의 80% 이상을 점유하고 있지만, AMD, Google, Amazon, Cerebras 등이 각각 독자적인 전략으로 시장을 잠식하고 있습니다.
시장 규모와 성장
Deloitte의 분석에 따르면 2025년 AI 칩 관련 글로벌 지출은 약 7,000억 달러에 달합니다. 이는 전년 대비 60% 이상 성장한 수치이며, 2026년에는 1조 달러 돌파가 확실시됩니다.
AI 칩 시장 지출 추이:
| 연도 | 글로벌 AI 칩 지출 | 전년 대비 성장률 |
|---|---|---|
| 2023 | 약 2,500억 달러 | - |
| 2024 | 약 4,300억 달러 | 72% |
| 2025 | 약 7,000억 달러 | 63% |
| 2026(E) | 1조 달러 이상 | 43%+ |
이 성장을 이끄는 핵심 동력은 세 가지입니다.
- 대규모 언어 모델(LLM) 학습 수요: GPT-5, Claude 4, Gemini Ultra 등 차세대 모델들이 점점 더 많은 컴퓨팅 파워를 요구합니다
- 추론 인프라 확대: 학습보다 추론 수요가 더 빠르게 성장하고 있으며, 일부 추정에 따르면 추론이 전체 AI 컴퓨팅의 70%를 차지합니다
- 엣지 AI: 스마트폰, 자동차, IoT 디바이스에서의 온디바이스 AI 처리 수요
NVIDIA 독점에서 다극화로
2023년까지 NVIDIA는 AI 학습 시장을 사실상 독점했습니다. H100은 데이터센터의 표준이었고, CUDA 생태계는 넘을 수 없는 해자(moat)로 여겨졌습니다.
그러나 2025년 현재, 경쟁 구도가 뚜렷하게 변화하고 있습니다.
- AMD: MI350/MI355X로 NVIDIA 대비 메모리 우위 확보, ROCm 생태계 성숙
- Google: TPU v7 Ironwood로 자체 AI 인프라 완성, 외부 클라우드 고객에게도 제공
- Amazon: Trainium 2/3로 AWS 내부 수요 충족 + Anthropic 독점 공급
- Cerebras: 웨이퍼 스케일이라는 완전히 다른 접근법으로 OpenAI 대형 계약 수주
- Intel: Gaudi 3로 가격 경쟁력 확보, 18A 프로세스로 파운드리 재도전
이 글에서는 각 플레이어의 최신 칩 스펙, 벤치마크, 로드맵을 상세히 비교하고, 개발자와 기업이 알아야 할 시사점을 정리합니다.
2. NVIDIA: 여전한 왕좌
NVIDIA는 2025년에도 AI 칩 시장의 절대 강자입니다. Blackwell 아키텍처의 B200은 전세대 H100 대비 모든 면에서 압도적인 성능 향상을 달성했습니다.
B200: 208B 트랜지스터의 괴물
B200은 NVIDIA Blackwell 아키텍처의 핵심 GPU입니다. TSMC 4nm 공정으로 제조되며, 단일 GPU로서는 역대 최대 규모입니다.
B200 핵심 스펙:
| 항목 | H100 | B200 | 향상 비율 |
|---|---|---|---|
| 트랜지스터 | 80B | 208B | 2.6x |
| FP4 성능 | - | 20 PFLOPS | 신규 |
| FP8 성능 | 3.9 PFLOPS | 9 PFLOPS | 2.3x |
| 메모리 | 80GB HBM3 | 192GB HBM3e | 2.4x |
| 메모리 대역폭 | 3.35TB/s | 8TB/s | 2.4x |
| TDP | 700W | 1,000W | 1.4x |
| 인터커넥트 | NVLink 4.0 | NVLink 5.0 | 2x |
B200의 핵심 혁신은 FP4(4비트 부동소수점) 연산 지원입니다. FP4는 추론 시 FP8 대비 2배의 처리량을 제공하면서도 정확도 손실이 최소화됩니다. 이는 대규모 언어 모델의 추론 비용을 획기적으로 줄이는 핵심 기술입니다.
또한 B200은 두 개의 다이를 하나의 패키지에 통합한 멀티다이 구조를 채택했습니다. 이를 통해 단일 다이의 물리적 한계를 극복하면서도 칩 간 통신 지연을 최소화했습니다.
GB200 SuperChip: GPU + CPU 통합
GB200 SuperChip은 2개의 B200 GPU와 1개의 Grace CPU를 하나의 모듈로 통합한 제품입니다.
GB200 SuperChip 특징:
- 구성: Grace CPU + 2x B200 GPU
- NVLink 대역폭: 900GB/s (CPU-GPU 간)
- 추론 성능: H100 대비 30배 (LLM 추론 기준)
- 에너지 효율: H100 대비 25배 (성능/와트 기준)
- 가격: 약 60,000~70,000 달러 (추정)
GB200은 특히 대규모 LLM 추론에서 압도적입니다. 1,750억 파라미터 규모의 GPT 모델을 실시간으로 서빙할 때, H100 시스템 대비 30배 빠른 토큰 생성 속도를 보여줍니다.
NVLink과 NVSwitch: 스케일아웃의 핵심
NVIDIA의 진정한 경쟁 우위는 단일 GPU 성능이 아니라 수천 개의 GPU를 하나의 시스템처럼 연결하는 능력에 있습니다.
NVLink 5.0 스펙:
- GPU 간 대역폭: 1.8TB/s (양방향)
- NVLink Switch: 최대 576개 GPU를 단일 도메인으로 연결
- GB200 NVL72: 72개 GPU가 하나의 메모리 공간 공유 (13.5TB 통합 메모리)
NVL72 시스템은 단일 렉에 72개의 B200 GPU를 탑재하여 총 13.5TB의 통합 HBM 메모리를 제공합니다. 이는 1조 파라미터 모델을 단일 시스템에서 학습할 수 있는 규모입니다.
Blackwell Ultra (B300): 차세대 예고
2025년 하반기 출시 예정인 B300(Blackwell Ultra)은 B200의 업그레이드 버전입니다.
B300 예상 스펙:
- 메모리: 288GB HBM3e (B200 대비 50% 증가)
- TDP: 1,400W
- 메모리 대역폭: 12TB/s (추정)
- NVLink 5.0 Enhanced
288GB의 HBM3e 메모리는 대규모 모델을 단일 GPU에 더 많이 적재할 수 있게 하여, 멀티 GPU 통신 오버헤드를 줄입니다. 다만 1,400W라는 전력 소모는 데이터센터 냉각 인프라에 심각한 도전이 됩니다.
NVIDIA 로드맵: 1년 주기 혁신
Jensen Huang CEO는 "1년 주기 아키텍처 혁신"을 선언했습니다.
| 연도 | 아키텍처 | 주요 특징 |
|---|---|---|
| 2024-2025 | Blackwell (B200) | 208B 트랜지스터, FP4, 20 PFLOPS |
| 2025 H2 | Blackwell Ultra (B300) | 288GB HBM3e, 1,400W |
| 2026 | Vera Rubin | 차세대 아키텍처, HBM4 채택 예상 |
| 2027 | Rubin Ultra | Vera Rubin 강화 버전 |
| 2028 | Feynman | 2nm 이하 공정 예상 |
수주 잔고와 시장 지배력
2025년 기준 NVIDIA의 AI GPU 수주 잔고는 약 360만 유닛으로, 2026년 중반까지 이미 매진 상태입니다. Microsoft, Meta, Google, Amazon 등 빅테크 기업들이 수십억 달러 규모의 선주문을 넣었습니다.
주목할 만한 움직임 - Groq 인수:
NVIDIA는 2025년 12월 Groq를 약 200억 달러에 인수했습니다. Groq의 LPU(Language Processing Unit)는 결정론적 실행 모델을 통해 서브밀리초(sub-millisecond) 지연 시간을 달성하는 추론 특화 칩입니다. 이 인수는 NVIDIA가 학습뿐 아니라 추론 시장까지 완전히 장악하겠다는 의지를 보여줍니다.
3. Samsung: 메모리의 왕
AI 칩 전쟁에서 프로세서 못지않게 중요한 것이 메모리입니다. AI 모델의 크기가 기하급수적으로 커지면서, 고대역폭 메모리(HBM)가 병목 지점이 되고 있습니다. Samsung은 이 영역에서 업계를 선도하고 있습니다.
HBM4: 업계 최초 양산
Samsung은 2025년 하반기 HBM4를 업계 최초로 양산하기 시작했습니다. HBM4는 AI 전용 메모리의 새로운 표준이 될 기술입니다.
HBM 세대별 비교:
| 항목 | HBM3 | HBM3e | HBM4 |
|---|---|---|---|
| 전송 속도 | 6.4Gbps | 9.8Gbps | 11.7Gbps |
| 스택 대역폭 | 819GB/s | 1.2TB/s | 1.5TB/s |
| 스택 용량 | 24GB | 36GB | 48GB |
| 로직 베이스 다이 | 없음 | 없음 | 4nm 로직 다이 |
| I/O 폭 | 1,024-bit | 1,024-bit | 2,048-bit |
HBM4의 가장 큰 혁신은 로직 베이스 다이입니다. 기존 HBM은 단순한 메모리 스택이었지만, HBM4는 하단에 4nm 공정의 로직 다이를 배치하여 메모리 컨트롤러와 연산 기능을 통합했습니다. 이를 통해 메모리-프로세서 간 데이터 이동을 줄이고, Near-Memory Computing이 가능해집니다.
2nm GAA 공정: 파운드리의 반격
Samsung은 2nm GAA(Gate-All-Around) 공정인 SF2P의 양산을 시작했습니다. GAA는 FinFET의 후계 트랜지스터 구조로, 게이트가 채널을 완전히 감싸 전류 누설을 획기적으로 줄입니다.
Samsung 2nm GAA 주요 성과:
- 수율: 70% 달성 (초기 양산 기준, 경쟁사 TSMC N2 대비 경쟁력 확보)
- 전력 효율: 3nm 대비 25% 개선
- 성능: 3nm 대비 12% 향상
- 밀도: 3nm 대비 1.4배
다만 TSMC가 여전히 첨단 파운드리 시장의 60% 이상을 점유하고 있어, Samsung의 2nm 양산이 시장 판도를 뒤집기까지는 시간이 필요합니다.
HBM 매출 전망과 파트너십
Samsung의 HBM 사업은 급성장 중입니다. 2026년 HBM 매출은 2025년 대비 3배 증가할 것으로 전망됩니다.
주요 파트너십:
- AMD: MI350/MI355X용 HBM3e 공급 계약 체결
- NVIDIA: AI Factory 파트너십을 통한 HBM4 공급 협의
- Qualcomm: 모바일 AI 칩용 저전력 메모리 공급
Samsung은 메모리(HBM4)와 파운드리(2nm GAA)를 결합한 토탈 솔루션 전략을 추진하고 있습니다. 즉, AI 칩 설계 고객에게 "우리 파운드리에서 칩을 만들고, 우리 HBM을 패키징까지 해드리겠다"는 원스톱 서비스를 제안하는 것입니다.
4. Cerebras: 웨이퍼 스케일의 도전자
Cerebras Systems는 AI 칩 시장에서 가장 파격적인 접근법을 취하고 있습니다. 일반적인 칩이 웨이퍼에서 잘라낸 작은 다이(die)인 것과 달리, Cerebras는 300mm 웨이퍼 전체를 하나의 칩으로 사용합니다.
WSE-3: 4조 트랜지스터의 괴물
WSE-3(Wafer-Scale Engine 3)는 Cerebras의 3세대 웨이퍼 스케일 칩입니다.
WSE-3 핵심 스펙:
| 항목 | NVIDIA B200 | Cerebras WSE-3 |
|---|---|---|
| 트랜지스터 | 208B | 4T (4조) |
| 다이 면적 | 약 800mm2 | 46,255mm2 |
| AI 코어 | 16,896 CUDA | 900,000 AI 코어 |
| 온칩 메모리 | - | 44GB SRAM |
| 메모리 대역폭 | 8TB/s (HBM) | 21 PB/s (온칩 SRAM) |
| AI 성능 | 20 PFLOPS FP4 | 125 PFLOPS FP16 |
| 공정 | TSMC 4nm | TSMC 5nm |
| TDP | 1,000W | 약 15,000W (시스템) |
WSE-3의 핵심 장점은 온칩 메모리 대역폭입니다. 44GB의 SRAM이 칩 내부에 분산 배치되어 있어, 외부 메모리(HBM)에 접근할 필요 없이 21 PB/s(페타바이트/초)의 대역폭으로 데이터를 처리합니다. 이는 메모리 병목이 성능의 핵심 제약인 LLM 학습에서 큰 장점입니다.
WSE-2 대비 성능 향상
WSE-3는 WSE-2(2세대) 대비 동일 전력과 가격에서 2배의 성능을 달성했습니다.
세대별 비교:
| 항목 | WSE-2 | WSE-3 | 향상 |
|---|---|---|---|
| 트랜지스터 | 2.6T | 4T | 1.54x |
| AI 코어 | 850,000 | 900,000 | 1.06x |
| FP16 성능 | 약 62 PFLOPS | 125 PFLOPS | 2x |
| 공정 | 7nm | 5nm | 1세대 |
| 온칩 SRAM | 40GB | 44GB | 1.1x |
공정 미세화(7nm에서 5nm)를 통해 트랜지스터 수를 54% 늘리면서도 전력 효율을 크게 개선한 것이 핵심입니다.
OpenAI와의 대형 계약
2025년 Cerebras의 가장 큰 성과는 OpenAI와의 100억 달러 이상 규모 계약입니다.
계약 주요 내용:
- 규모: 100억 달러 이상 (2028년까지)
- 인프라: 750MW급 AI 데이터센터 구축
- 용도: OpenAI의 차세대 모델 학습 및 추론
- 위치: 미국 내 다수 사이트
이 계약은 Cerebras가 "실험적 스타트업"에서 "대규모 AI 인프라 공급자"로 전환하는 계기가 되었습니다. OpenAI가 NVIDIA 외에 Cerebras를 선택한 이유는 크게 두 가지입니다.
- NVIDIA 의존도 분산: 단일 공급자 의존은 가격 협상력과 공급 안정성 면에서 리스크
- 대규모 모델 학습 효율: 웨이퍼 스케일의 온칩 메모리 대역폭이 초대형 모델 학습에 유리
IPO 동향
Cerebras는 2025년 10월 IPO를 추진했으나, 중국 수출 규제 관련 우려로 철회했습니다. 현재 2026년 Q2에 IPO를 재도전할 계획이며, 시장에서는 100억~150억 달러 규모의 기업가치를 예상하고 있습니다.
5. AMD: NVIDIA의 최대 도전자
AMD는 NVIDIA의 가장 직접적인 경쟁자입니다. Lisa Su CEO의 리더십 아래 AMD는 AI 칩 시장에서 빠르게 점유율을 확대하고 있습니다.
MI350: CDNA 4 아키텍처
MI350은 AMD의 차세대 AI 가속기로, CDNA 4 아키텍처를 기반으로 합니다.
MI350 핵심 스펙:
| 항목 | NVIDIA B200 | AMD MI350 |
|---|---|---|
| 아키텍처 | Blackwell | CDNA 4 |
| 메모리 | 192GB HBM3e | 288GB HBM3e |
| 메모리 대역폭 | 8TB/s | 8TB/s |
| 공정 | TSMC 4nm | TSMC 3nm |
| FP8 성능 | 9 PFLOPS | 미공개 (추정 8-10 PFLOPS) |
MI350의 최대 장점은 288GB HBM3e 메모리입니다. NVIDIA B200의 192GB 대비 50% 많은 메모리는 대규모 모델을 더 적은 수의 GPU에 적재할 수 있게 합니다. 예를 들어, 700억 파라미터 모델을 MI350 4장으로 서빙할 수 있는 반면, B200은 6장이 필요할 수 있습니다.
MI355X: MI300X의 정통 후계자
MI355X는 MI300X의 직계 후속 제품으로, 더욱 공격적인 성능 향상을 목표로 합니다.
MI355X 성능 주장:
- MI300X 대비 4배 AI 컴퓨팅 성능
- MI300X 대비 2.8배 빠른 학습 속도
- 최적화된 스파시티(sparsity) 지원으로 효율적인 모델 학습
AMD는 DeepSeek과 Llama 등 주요 오픈소스 모델에서 NVIDIA 대비 20~30% 성능 우위를 주장하고 있습니다. 다만 이 수치는 특정 벤치마크에서의 결과이며, 실제 프로덕션 환경에서는 소프트웨어 최적화 수준에 따라 결과가 달라질 수 있습니다.
ROCm: 소프트웨어 생태계의 성숙
AI 칩에서 하드웨어만큼 중요한 것이 소프트웨어 스택입니다. NVIDIA의 CUDA는 10년 이상 축적된 생태계로, AMD가 넘어야 할 가장 큰 장벽이었습니다.
ROCm 7.1은 이 격차를 크게 좁혔습니다.
ROCm 7.1 주요 개선:
- 추론 성능: 이전 버전 대비 3.5배 향상
- PyTorch 3.1 네이티브 지원 (torch.compile 최적화)
- vLLM, TensorRT-LLM 대응 추론 엔진 내장
- FlashAttention 2.0 네이티브 지원
- ONNX Runtime 완전 호환
특히 PyTorch의 네이티브 지원은 결정적입니다. 대부분의 AI 연구자와 개발자가 PyTorch를 사용하므로, 코드 변경 없이 AMD GPU에서 학습과 추론을 실행할 수 있게 된 것은 큰 전환점입니다.
클라우드 배포 현황
AMD MI 시리즈는 주요 클라우드 플랫폼에서 대규모로 배포되고 있습니다.
- Microsoft Azure: MI300X 기반 ND 시리즈 VM 제공, Azure AI Studio에서 기본 옵션으로 추가
- Oracle Cloud: MI350 대규모 배포 계약 체결
- Meta: 내부 AI 인프라에 MI300X 수만 대 배포
AMD의 전략은 명확합니다. "NVIDIA와 동등한 성능을 더 많은 메모리와 더 나은 가격에 제공하겠다"는 것입니다. 특히 추론 워크로드에서 메모리 용량이 직접적으로 배치 크기와 처리량에 영향을 미치므로, MI350의 288GB 메모리는 강력한 무기입니다.
6. Google TPU: 자체 칩의 힘
Google은 AI 칩을 직접 설계하는 몇 안 되는 빅테크 기업 중 하나입니다. 2015년 첫 TPU를 발표한 이래, Google은 10년간 꾸준히 자체 칩 역량을 발전시켜 왔습니다.
TPU v6 Trillium
TPU v6(코드명 Trillium)은 2024년 말 출시된 6세대 TPU입니다.
TPU v6 Trillium 주요 스펙:
- TPU v5e 대비 4.7배 컴퓨팅 성능
- 67% 에너지 효율 개선
- HBM 용량 2배 증가
- 칩 간 인터커넥트(ICI) 대역폭 2배 증가
- 256칩 팟(pod) 구성으로 대규모 학습 지원
Trillium의 핵심 강점은 에너지 효율입니다. AI 데이터센터의 전력 비용이 전체 운영비의 30~40%를 차지하는 상황에서, 67%의 에너지 효율 개선은 TCO(총소유비용) 면에서 결정적인 경쟁력입니다.
TPU v7 Ironwood: ExaFLOPS 시대
2025년 발표된 TPU v7(코드명 Ironwood)는 Google의 야심작입니다.
TPU v7 Ironwood 핵심 스펙:
| 항목 | TPU v6 Trillium | TPU v7 Ironwood | 향상 |
|---|---|---|---|
| AI 성능 | 약 900 TFLOPS | 4,614 TFLOPS | 5.1x |
| HBM 용량 | 96GB | 192GB | 2x |
| HBM 대역폭 | 약 4.8TB/s | 7.2TB/s | 1.5x |
| 최대 팟 크기 | 256칩 | 9,216칩 | 36x |
| 팟 성능 | 약 0.23 ExaFLOPS | 42.5 ExaFLOPS | 185x |
가장 놀라운 수치는 9,216칩 팟의 42.5 ExaFLOPS입니다. 이는 단일 클러스터로서 세계에서 가장 강력한 AI 컴퓨팅 인프라입니다. 참고로, 2025년 기준 세계 최고 슈퍼컴퓨터 Frontier의 성능이 약 1.1 ExaFLOPS이므로, Ironwood 팟 하나가 Frontier의 38배에 달합니다.
Google의 TPU 전략
Google TPU의 가장 큰 특징은 수직 통합입니다. Google은 칩 설계, 시스템 아키텍처, 소프트웨어 스택(JAX/XLA), 클라우드 서비스(Google Cloud)까지 모든 것을 자체적으로 통제합니다.
TPU 활용 현황:
- Google 검색, YouTube, Gmail 등 자체 서비스의 AI 추론
- Gemini 모델 학습 (수만 대 TPU 클러스터)
- Google Cloud 고객에게 TPU v6/v7 제공
- Anthropic: Claude 학습에 최대 100만 TPU 사용 계획 발표
Anthropic의 Claude 모델이 TPU에서 학습된다는 점은 주목할 만합니다. Anthropic은 Google과의 파트너십을 통해 대규모 TPU 클러스터에 접근하고 있으며, 향후 최대 100만 개의 TPU를 사용할 계획입니다. 이는 TPU가 NVIDIA GPU의 대안으로서 실제 프로덕션 수준에서 검증되고 있음을 의미합니다.
7. 나머지 주자들
NVIDIA, AMD, Google, Samsung, Cerebras 외에도 AI 칩 시장에는 주목할 만한 플레이어들이 있습니다.
Intel Gaudi 3
Intel은 Habana Labs 인수(2019년)를 통해 확보한 Gaudi 시리즈로 AI 가속기 시장에 참여하고 있습니다.
Gaudi 3 주요 특징:
- H100 대비 약 50% 저렴한 가격대
- BF16 성능: 약 1.8 PFLOPS
- HBM2e 128GB
- 18A(1.8nm) 프로세스를 활용한 차세대 버전 계획
- Dell, Supermicro 등 서버 벤더를 통한 유통
Gaudi 3의 전략은 명확합니다. "NVIDIA H100의 80% 성능을 50% 가격에 제공하겠다"는 것입니다. 비용에 민감한 중소기업이나 학술 기관에게 매력적인 선택지입니다. 다만 소프트웨어 생태계(SynapseAI)가 CUDA나 ROCm에 비해 미성숙한 점이 약점입니다.
Amazon Trainium 2/3
Amazon은 AWS의 AI 인프라를 자체 칩으로 전환하기 위해 Trainium 시리즈를 개발하고 있습니다.
Trainium 2 주요 특징:
- AWS EC2 Trn2 인스턴스로 제공
- 16개 칩을 하나의 UltraServer로 구성
- Anthropic: 50만 개 Trainium 칩 사용 계약
- 2025년 Trainium 매출 100억 달러 이상 추정
Trainium 3 (2026년 예정):
- Trainium 2 대비 2배 이상 성능 향상 예상
- HBM4 채택 예정
- 더 큰 규모의 UltraCluster 지원
Trainium의 핵심 고객은 Anthropic입니다. Anthropic은 Amazon과의 파트너십을 통해 50만 개의 Trainium 칩에 접근하고 있으며, 이는 Google TPU와 함께 NVIDIA GPU에 대한 의존도를 분산하는 전략입니다.
Microsoft Maia 100
Microsoft도 자체 AI 칩을 개발했습니다.
Maia 100 주요 특징:
- 105B 트랜지스터
- TSMC 5nm 공정
- Azure 내부 전용 (외부 판매 없음)
- Copilot, Bing AI 등 Microsoft 자체 서비스에 배포
- NVIDIA GPU 의존도 감소가 목적
Maia 100은 Microsoft가 NVIDIA에 연간 수십억 달러를 지불하는 상황에서, 내부 추론 워크로드를 자체 칩으로 전환하여 비용을 절감하려는 전략의 산물입니다.
Apple M4 Neural Engine
Apple은 데이터센터 AI가 아닌 온디바이스 AI에 집중하고 있습니다.
M4 Neural Engine 주요 특징:
- 38 TOPS (INT8 추론)
- 16코어 Neural Engine
- 통합 메모리 아키텍처 (최대 128GB)
- 전력 효율: 약 30W TDP (노트북 전체)
- Apple Intelligence 전용 최적화
M4의 38 TOPS는 데이터센터 칩들에 비하면 미미하지만, 15~30W의 전력 소모로 이를 달성한다는 점에서 와트당 성능은 최고 수준입니다. Siri, 이미지 생성, 텍스트 요약 등 Apple Intelligence 기능이 모두 온디바이스에서 실행됩니다.
8. 대비교표: AI 칩 전쟁의 5대 강자
아래 표는 2025년 AI 칩 시장의 5대 주요 제품을 핵심 스펙 기준으로 비교한 것입니다.
| 항목 | NVIDIA B200 | AMD MI350 | Cerebras WSE-3 | Google TPU v7 | Amazon Trainium 2 |
|---|---|---|---|---|---|
| 트랜지스터 | 208B | 미공개 | 4T (4조) | 미공개 | 미공개 |
| 공정 | TSMC 4nm | TSMC 3nm | TSMC 5nm | 미공개 | 미공개 |
| AI 코어 | 16,896 CUDA | 미공개 | 900,000 | 미공개 | 미공개 |
| 메모리 종류 | HBM3e | HBM3e | 온칩 SRAM | HBM | HBM |
| 메모리 용량 | 192GB | 288GB | 44GB SRAM | 192GB | 96GB (추정) |
| 메모리 대역폭 | 8TB/s | 8TB/s | 21 PB/s (SRAM) | 7.2TB/s | 미공개 |
| FP8 성능 | 9 PFLOPS | 미공개 | 약 62 PFLOPS | 약 4.6 PFLOPS | 미공개 |
| TDP | 1,000W | 미공개 | 약 15,000W(시스템) | 미공개 | 미공개 |
| 가격 | 약 30,000~40,000 달러 | 약 20,000~30,000 달러(추정) | 시스템 단위 판매 | 클라우드 전용 | 클라우드 전용 |
| 주요 고객 | 전 세계 대부분 | Azure, Oracle, Meta | OpenAI | Google, Anthropic | Amazon, Anthropic |
| 소프트웨어 | CUDA | ROCm | Cerebras SDK | JAX/XLA | Neuron SDK |
| 최대 장점 | 생태계, 성능 | 메모리 용량 | 온칩 대역폭 | 수직 통합 | AWS 통합 |
| 최대 약점 | 가격, 전력 | 소프트웨어 생태계 | 범용성 부족 | Google 종속 | AWS 종속 |
비교 분석 요약
학습(Training)에 최적화된 칩:
- NVIDIA B200 / GB200: 가장 검증된 선택. CUDA 생태계의 방대한 라이브러리와 도구 지원
- Cerebras WSE-3: 초대형 모델(1T+ 파라미터) 학습에서 온칩 메모리 대역폭이 결정적 장점
- Google TPU v7: 42.5 ExaFLOPS 팟은 현존 최대 규모의 단일 학습 클러스터
추론(Inference)에 최적화된 칩:
- AMD MI350: 288GB 메모리로 대형 모델 서빙 시 GPU당 더 큰 배치 처리 가능
- NVIDIA B200: FP4 지원으로 추론 처리량 극대화
- Amazon Trainium 2: AWS 생태계 내에서 비용 효율적인 추론
9. 개발자가 알아야 할 시사점
AI 하드웨어 전쟁은 개발자와 기업에게 직접적인 영향을 미칩니다. 다음은 2025~2026년에 알아둬야 할 핵심 시사점입니다.
GPU 공급 부족과 클라우드 비용 상승
NVIDIA B200의 수주 잔고가 2026년 중반까지 매진된 상황에서, GPU 확보는 여전히 어려운 과제입니다. 이는 직접적으로 클라우드 GPU 비용 상승으로 이어집니다.
비용 최적화 전략:
- 스팟/프리엠프터블 인스턴스 활용: 최대 60~70% 비용 절감 가능
- 양자화 적극 활용: FP4/INT4 양자화로 동일 GPU에서 2~4배 처리량 확보
- 배치 처리 최적화: 실시간이 필요 없는 워크로드는 배치로 전환
- 멀티 클라우드 전략: AWS, GCP, Azure 간 가격 비교 후 최적 선택
멀티칩 전략의 중요성
NVIDIA 단일 의존은 리스크입니다. 점점 더 많은 기업이 멀티칩 전략을 채택하고 있습니다.
멀티칩 전략 실행 방법:
- 프레임워크 선택: PyTorch와 JAX는 모두 멀티 하드웨어를 지원. 특정 벤더에 종속되지 않는 코드 작성
- 추상화 레이어 활용: vLLM, TGI(Text Generation Inference) 등 하드웨어 추상화 추론 서버 사용
- ONNX 포맷: 모델을 ONNX로 내보내면 NVIDIA, AMD, Intel 등 다양한 하드웨어에서 실행 가능
- 클라우드 네이티브: Kubernetes 기반 오케스트레이션으로 하드웨어 전환 유연성 확보
추론 vs 학습 칩의 분화
2025년의 중요한 트렌드는 학습용 칩과 추론용 칩의 분화입니다.
학습 칩의 특성:
- 높은 FP32/FP16 성능
- 대용량 메모리 (모델 파라미터 + 옵티마이저 상태)
- 높은 칩 간 통신 대역폭
- 전력 효율보다 절대 성능 우선
추론 칩의 특성:
- FP4/INT8 등 저정밀도 연산에 최적화
- 낮은 지연 시간(latency) 우선
- 높은 처리량(throughput) 중시
- 전력 효율이 핵심 (비용 = 전력)
개발자는 워크로드 특성에 따라 학습과 추론을 다른 하드웨어에서 실행하는 전략을 고려해야 합니다. 예를 들어, 학습은 NVIDIA B200에서, 추론은 AMD MI350이나 AWS Trainium에서 실행하는 하이브리드 접근이 비용 효율적일 수 있습니다.
에너지 효율: 새로운 경쟁 축
AI 칩의 전력 소모가 급증하면서, 에너지 효율이 성능 다음으로 중요한 경쟁 지표가 되었습니다.
에너지 관련 현실:
- B200 단일 칩: 1,000W, B300은 1,400W
- NVL72 시스템: 약 120kW (소규모 빌딩 전체 전력에 해당)
- 대규모 AI 데이터센터: 수백 MW (소도시 전력에 해당)
- 2025년 AI 데이터센터 글로벌 전력 소비: 약 100TWh (한국 전체 소비량의 약 20%)
이러한 상황에서 에너지 효율이 높은 칩(Google TPU, Apple M4)의 가치가 부각되고 있습니다. 특히 유럽의 탄소 규제가 강화되면서, 와트당 성능(Performance per Watt)이 구매 의사결정의 핵심 요소로 부상하고 있습니다.
엣지 AI의 부상
데이터센터 외에 엣지(edge) 디바이스에서의 AI 처리도 빠르게 성장하고 있습니다.
엣지 AI 칩 트렌드:
- 스마트폰: Qualcomm Snapdragon 8 Elite (45 TOPS), Apple M4 (38 TOPS)
- 자동차: NVIDIA Drive Thor (2,000 TOPS), Tesla FSD Chip
- IoT/임베디드: Intel Movidius, Google Edge TPU
엣지 AI가 중요한 이유는 세 가지입니다.
- 지연 시간: 클라우드 왕복 없이 밀리초 단위 응답
- 프라이버시: 데이터가 디바이스를 떠나지 않음
- 비용: 클라우드 API 호출 비용 절감
소프트웨어 생태계: 진짜 해자는 하드웨어가 아니다
AI 칩 전쟁에서 간과하기 쉬운 사실이 있습니다. 실제 경쟁 우위는 하드웨어가 아니라 소프트웨어에서 나온다는 것입니다.
NVIDIA의 진정한 해자는 B200의 트랜지스터 수가 아니라 CUDA 생태계입니다. 10년 이상 축적된 CUDA는 다음과 같은 요소를 포함합니다.
- cuDNN: 딥러닝 프리미티브 라이브러리, 수천 개의 최적화된 커널
- TensorRT: 추론 최적화 엔진, FP4/INT8 양자화 자동화
- NCCL: 멀티 GPU 통신 라이브러리, NVLink 최적 활용
- Triton Inference Server: 프로덕션 추론 서빙 프레임워크
- cuQuantum: 양자 컴퓨팅 시뮬레이션 가속
- RAPIDS: GPU 가속 데이터 사이언스 라이브러리
이에 대한 각 경쟁사의 대응은 다음과 같습니다.
소프트웨어 스택 비교:
| 구성요소 | NVIDIA | AMD | Intel | |
|---|---|---|---|---|
| 딥러닝 프리미티브 | cuDNN | MIOpen | XLA | oneDNN |
| 추론 최적화 | TensorRT | ROCm Inference | JAX/XLA | OpenVINO |
| 멀티칩 통신 | NCCL | RCCL | ICI | oneCCL |
| 프레임워크 지원 | PyTorch/TF 완전 | PyTorch 중심 | JAX 중심 | PyTorch/TF |
| 성숙도 | 10년+ | 3-4년 | 7년+ | 5년+ |
개발자에게 실질적으로 중요한 것은 코드 한 줄 변경 없이 다른 하드웨어에서 동일한 모델을 실행할 수 있는가입니다. 2025년 현재 PyTorch 3.1의 torch.compile은 NVIDIA와 AMD 모두에서 잘 작동하지만, 최대 성능을 뽑아내려면 각 벤더의 최적화 라이브러리를 활용해야 합니다.
지정학적 요인: 무시할 수 없는 변수
AI 칩 전쟁은 순수한 기술 경쟁이 아닙니다. 미중 반도체 갈등이 시장 구도에 직접적인 영향을 미치고 있습니다.
주요 지정학적 이벤트:
- 미국 수출 규제 강화: NVIDIA H20(중국 특화 모델)마저 수출 제한 대상
- 중국의 자체 칩 개발 가속: Huawei Ascend 910C는 H100의 약 70% 성능 주장
- TSMC 미국 공장: 애리조나 팹 건설 중이나, 가동까지 2-3년 소요
- Samsung 텍사스 공장: Taylor 팹 건설 진행, 2nm 양산 목표
- 일본의 반도체 부활: Rapidus가 IBM과 협력하여 2nm 공정 개발 중
이러한 지정학적 요인은 세 가지 측면에서 개발자와 기업에 영향을 미칩니다.
- 공급망 리스크: 특정 지역에 집중된 반도체 생산이 자연재해나 정치적 갈등으로 중단될 수 있음
- 가격 변동성: 수출 규제로 인한 공급 축소가 가격 인상으로 이어짐
- 기술 접근성: 최첨단 칩에 대한 접근이 국적에 따라 제한될 수 있음
2026년 전망: 무엇이 바뀔 것인가
2026년 AI 하드웨어 시장에서 예상되는 주요 변화를 정리합니다.
확실시되는 변화:
- NVIDIA Vera Rubin 아키텍처 출시로 또 한 번의 세대 교체
- HBM4가 플래그십 AI 칩의 표준 메모리로 자리잡음
- AI 데이터센터 전력 소비가 글로벌 이슈로 부상
- 추론 전용 ASIC의 비중 증가
가능성 높은 변화:
- AMD MI400 시리즈가 NVIDIA와 대등한 소프트웨어 지원 확보
- Cerebras IPO 성공 시 웨이퍼 스케일 경쟁자 등장 가능
- Apple이 서버용 AI 칩 개발에 착수했다는 루머의 확인
- 중국의 자체 AI 칩이 H100의 90% 성능에 도달
와일드카드:
- 양자 컴퓨팅과 AI의 결합이 실용적 수준에 도달할 가능성
- 뉴로모픽 칩(Intel Loihi, IBM NorthPole)의 상용화 가속
- AI 모델 효율화로 인한 칩 수요 감소 가능성 (Jevons 역설 vs 실제 감소)
실전 퀴즈
AI 하드웨어 전쟁에 대한 이해를 점검해보겠습니다.
Q1. NVIDIA B200의 핵심 혁신인 FP4 연산이 추론 비용 절감에 중요한 이유는 무엇인가요?
정답: FP4(4비트 부동소수점)는 FP8 대비 2배의 처리량을 동일한 하드웨어에서 제공합니다. 추론 시에는 학습과 달리 높은 정밀도가 필수적이지 않으므로, FP4로 양자화해도 모델 품질 저하가 최소화됩니다. 이를 통해 동일한 GPU로 2배 많은 요청을 처리할 수 있어, 추론 비용이 사실상 절반으로 줄어듭니다. B200의 20 PFLOPS FP4 성능은 대규모 LLM 서빙의 경제성을 크게 개선합니다.
Q2. Cerebras WSE-3의 온칩 SRAM이 HBM 기반 GPU 대비 대규모 모델 학습에서 유리한 이유를 설명해주세요.
정답: WSE-3의 44GB 온칩 SRAM은 21 PB/s(페타바이트/초)의 대역폭을 제공합니다. 이는 NVIDIA B200의 HBM3e 대역폭(8TB/s)의 약 2,600배입니다. 대규모 모델 학습에서 가장 큰 병목은 메모리 대역폭이며, 특히 어텐션 메커니즘의 KV 캐시 접근 패턴에서 HBM의 대역폭이 부족해지는 경우가 많습니다. WSE-3는 모든 메모리가 칩 내부에 있어 이 병목을 근본적으로 해결합니다. 다만 44GB라는 절대 용량의 제한으로, 외부 메모리 시스템과의 연동이 필요합니다.
Q3. AMD MI350이 NVIDIA B200 대비 288GB vs 192GB로 메모리 용량 우위를 가지는 것이 실질적으로 의미하는 바는 무엇인가요?
정답: 메모리 용량의 차이는 세 가지 실질적 의미가 있습니다. 첫째, 더 큰 모델을 더 적은 GPU에 적재할 수 있어 GPU 간 통신 오버헤드가 줄어듭니다. 둘째, 추론 시 더 큰 KV 캐시를 유지할 수 있어 더 큰 배치 크기로 처리량을 높일 수 있습니다. 셋째, 멀티모달 모델처럼 이미지와 텍스트를 동시에 처리하는 경우 메모리 여유가 중요합니다. 예를 들어, 700억 파라미터 모델을 MI350 4장(1,152GB)으로 운영할 수 있지만, B200은 6장(1,152GB)이 필요하여 하드웨어 비용이 50% 증가합니다.
Q4. Google TPU v7 Ironwood의 9,216칩 팟이 42.5 ExaFLOPS를 달성한다는 것의 의미는 무엇인가요?
정답: 42.5 ExaFLOPS는 2025년 기준 세계 최고 슈퍼컴퓨터 Frontier(1.1 ExaFLOPS)의 약 38배에 해당하는 성능입니다. 이는 수조 파라미터 규모의 차세대 AI 모델을 수주 내에 학습할 수 있는 규모입니다. 또한 9,216칩을 단일 팟으로 구성할 수 있다는 것은 칩 간 통신이 고도로 최적화되어 있다는 뜻이며, 이는 Google의 수직 통합 전략(칩 설계부터 소프트웨어, 네트워크까지)의 결정체입니다. 다만 이 성능은 AI 연산(행렬 곱셈 등) 기준이며, 범용 컴퓨팅 성능과는 다릅니다.
Q5. "멀티칩 전략"이 기업에게 왜 중요하며, 이를 실행하기 위한 핵심 기술적 요소는 무엇인가요?
정답: 멀티칩 전략이 중요한 이유는 세 가지입니다. 첫째, NVIDIA 단일 의존 시 공급 부족이나 가격 인상에 취약합니다. 둘째, 워크로드별로 최적의 하드웨어가 다릅니다(학습은 NVIDIA, 추론은 AMD/Trainium 등). 셋째, 클라우드 벤더 간 가격 경쟁을 활용할 수 있습니다. 이를 실행하기 위한 핵심 요소는 다음과 같습니다. (1) PyTorch/JAX 같은 멀티 하드웨어 지원 프레임워크 사용, (2) ONNX 등 하드웨어 중립적 모델 포맷 활용, (3) vLLM/TGI 같은 추상화된 추론 서버 도입, (4) Kubernetes 기반의 하드웨어 추상화 오케스트레이션 구축.
참고 자료
- NVIDIA Blackwell 아키텍처 백서 - nvidia.com/en-us/data-center/technologies/blackwell-architecture - B200/GB200 공식 스펙
- NVIDIA GTC 2025 키노트 - Jensen Huang의 로드맵 발표 (Vera Rubin, Feynman)
- Samsung HBM4 발표 - samsung.com/semiconductor - HBM4 양산 및 스펙 공개
- Samsung 2nm GAA 공정 발표 - Samsung Foundry Forum 2025
- Cerebras WSE-3 백서 - cerebras.net - 웨이퍼 스케일 엔진 3세대 기술 문서
- Cerebras-OpenAI 계약 발표 - 2025년 공식 프레스 릴리스
- AMD MI350/MI355X 발표 - amd.com - CDNA 4 아키텍처 상세
- AMD ROCm 7.1 릴리스 노트 - github.com/ROCm - 소프트웨어 스택 업데이트
- Google TPU v7 Ironwood 발표 - cloud.google.com/blog - Ironwood 스펙 및 벤치마크
- Google Cloud TPU 문서 - cloud.google.com/tpu - TPU 사용 가이드
- Intel Gaudi 3 데이터시트 - habana.ai - Gaudi 3 성능 및 호환성
- Amazon Trainium 2 발표 - aws.amazon.com/machine-learning/trainium - Trainium 스펙
- Microsoft Maia 100 발표 - microsoft.com/en-us/research - Azure AI 칩 전략
- Apple M4 Neural Engine 백서 - Apple WWDC 2024 세션
- Deloitte AI 칩 시장 보고서 - deloitte.com - 2025 글로벌 AI 칩 지출 분석
- NVIDIA Groq 인수 분석 - 2025년 12월 M&A 리포트
- Cerebras IPO 동향 - SEC 파일링 및 시장 분석
- MLPerf Benchmark 결과 - mlcommons.org - AI 칩 공식 벤치마크
- SemiAnalysis 리포트 - semianalysis.com - AI 반도체 시장 심층 분석
- The Information: AI Infrastructure Report - 2025 AI 인프라 투자 동향
- AnandTech GPU 리뷰 - anandtech.com - Blackwell 아키텍처 심층 분석
- Tom's Hardware HBM4 분석 - tomshardware.com - HBM 세대별 기술 비교