- Authors

- Name
- Youngju Kim
- @fjvbn20031
- 들어가며
- 0. 용어 먼저 — LPU, RDU, 그리고 ASIC
- 1. 왜 추론 전용 칩인가
- 2. Groq LPU — 결정적 실행이라는 발상
- 3. SambaNova RDU — 데이터플로우를 재구성한다
- 4. GPU와의 비교 — 지연, 처리량, 비용
- 4.5. 같은 추론, 다른 칩 — 한 장으로 보기
- 5. 소프트웨어와 컴파일러
- 6. 어떤 워크로드에 맞는가, 그리고 한계
- 6.5. 토큰/초가 왜 중요한지 — 직관적 계산
- 7. 시장 포지셔닝 — 2026년의 그림
- 8. 개발자 관점 — 무엇을 보고 판단할까
- 8.5. 더 큰 흐름 — 왜 지금 추론 칩인가
- 9. LLM 추론의 두 단계 — prefill과 decode
- 10. 결정적 실행이 운영에 주는 의미
- 11. 데이터플로우 vs 폰노이만 — 더 깊은 대비
- 12. 양자화와 정밀도 — 추론 칩의 공통 무기
- 13. 두 회사의 전략 차이 정리
- 14. 자주 묻는 질문
- 15. 한눈에 보는 핵심 요약
- 마치며
- 참고 자료
들어가며
지난 10년간 AI 하드웨어 이야기는 사실상 "학습용 GPU" 이야기였습니다. 더 큰 모델을 더 빨리 학습시키는 경쟁이 시장을 끌어왔습니다. 그런데 2026년, 무게중심이 옮겨가고 있습니다. 모델은 이미 충분히 똑똑해졌고, 이제 문제는 그 모델을 "얼마나 싸고 빠르게 서빙하느냐"입니다.
이 흐름을 숫자로 말하면, 2026년은 추론 capex가 학습 capex를 처음으로 추월하는 전환점으로 이야기됩니다. 클라우드 사업자들이 자체 추론 ASIC을 쏟아내고, 추론 전용 칩의 시장 점유가 빠르게 오르는 배경입니다.
학습이 "모델을 만드는 일회성 투자"라면, 추론은 "그 모델을 쓰는 동안 매일 발생하는 운영비"입니다. 모델이 널리 쓰일수록 추론 비용이 누적되고, 그래서 추론 효율 한 줌이 거대한 비용 절감으로 이어집니다. 이 경제학이 추론 전용 칩의 등장을 떠받칩니다.
이 글의 주인공은 그 흐름의 선봉에 선 두 회사입니다. Groq는 LPU(Language Processing Unit)로 "결정적이고 극단적으로 낮은 지연"을, SambaNova는 RDU(Reconfigurable Dataflow Unit)로 "데이터플로우 재구성"을 무기로 삼습니다. 둘 다 GPU와는 근본적으로 다른 설계 철학을 가집니다.
이 글은 이 두 칩의 동작 원리를 가능한 한 직관적으로 풀고, GPU 대비 어디서 이기고 어디서 지는지를 균형 있게 짚는 것을 목표로 합니다. 마케팅 문구가 아니라 설계의 논리를 따라가다 보면, "왜 이런 칩이 지금 등장하는가"가 자연스럽게 이해될 것입니다.
0. 용어 먼저 — LPU, RDU, 그리고 ASIC
본문에 들어가기 전에, 자주 나올 약어를 먼저 정리하면 읽기가 한결 수월합니다.
| 약어 | 풀이 | 한 줄 설명 |
|---|---|---|
| LPU | Language Processing Unit | Groq의 추론 특화 칩. 결정적 실행이 특징 |
| RDU | Reconfigurable Dataflow Unit | SambaNova의 칩. 데이터플로우를 재구성 |
| ASIC | Application-Specific IC | 특정 용도에 맞춘 맞춤형 칩 |
| HBM | High Bandwidth Memory | 칩 옆에 쌓는 고대역폭 메모리 |
| SRAM | Static RAM | 빠른 온칩 메모리 |
| decode | (추론 단계) | 토큰을 하나씩 순차 생성하는 단계 |
표의 마지막 줄에 둔 decode는 칩이 아니라 추론의 한 단계지만, 추론 칩을 이해하는 데 워낙 중요해서 함께 적어 두었습니다. 뒤에서 다시 자세히 다룹니다.
LPU와 RDU는 둘 다 넓은 의미에서 추론에 특화된 ASIC의 일종입니다. GPU가 "무엇이든 처리하는 범용 칩"이라면, 이들은 "추론, 특히 LLM 서빙을 잘하도록 좁힌 칩"입니다. 좁히는 대신 그 영역에서 더 잘하는 것, 이것이 특화 칩의 기본 거래입니다.
이 거래의 손익을 이해하는 것이 이 글의 목표입니다. 무엇을 내주고(범용성, 생태계), 무엇을 얻는가(지연, 효율). 그 균형을 알면 "내 워크로드에 이 칩이 맞는가"를 스스로 판단할 수 있게 됩니다.
1. 왜 추론 전용 칩인가
학습과 추론은 비슷해 보이지만 워크로드 특성이 다릅니다.
| 특성 | 학습 | 추론(서빙) |
|---|---|---|
| 배치 크기 | 크게 키울 수 있음 | 작거나 1 (실시간) |
| 핵심 지표 | 처리량, 시간당 비용 | 지연(latency), 토큰/초 |
| 데이터 재사용 | 높음 | 낮음 (토큰마다 가중치 1회 읽기) |
| 정밀도 | 높게 시작 | 양자화 적극 활용 |
특히 실시간 LLM 서빙은 배치 크기가 작고, 토큰 하나를 만들 때마다 모델 가중치를 한 번 읽어야 해서 메모리 대역폭에 묶입니다. GPU는 학습을 위해 처리량을 극대화하도록 설계됐기에, 이 "작은 배치, 낮은 지연" 영역에서는 잠재력을 다 쓰지 못하는 경우가 많습니다. 추론 전용 칩은 바로 이 빈틈을 노립니다.
비유하자면, 학습은 화물 트럭으로 한 번에 많은 짐을 옮기는 일에 가깝고, 실시간 추론은 택배 오토바이로 한 건을 빠르게 배달하는 일에 가깝습니다. 화물 트럭(GPU)은 처리량이 압도적이지만, 단 한 건을 가장 빨리 배달하는 데는 오토바이(추론 칩)가 유리할 수 있습니다. 둘은 경쟁한다기보다 서로 다른 일을 잘합니다.
2. Groq LPU — 결정적 실행이라는 발상
캐시도, 추측도 없다
일반적인 프로세서는 성능을 위해 캐시, 분기 예측, 비순차 실행 같은 "동적" 기법을 잔뜩 씁니다. 이들은 평균 성능을 끌어올리지만, 실행 시간이 입력과 상태에 따라 들쭉날쭉해집니다. 같은 연산이라도 캐시 히트면 빠르고 미스면 느립니다.
Groq의 LPU는 이 동적 요소를 걷어냅니다. 실행이 결정적(deterministic)입니다. 즉, 어떤 연산이 정확히 몇 번째 사이클에 어디서 실행될지 컴파일 시점에 전부 정해집니다. 하드웨어에 캐시 미스나 예측 실패 같은 "운에 따른 변동"이 없습니다.
일반 프로세서 Groq LPU
----------------- -----------------
런타임에 스케줄링 컴파일 타임에 스케줄링
캐시 히트/미스로 시간 변동 사이클 단위로 시간 확정
하드웨어가 순서를 결정 컴파일러가 순서를 결정
지연이 예측 불가 지연이 예측 가능
컴파일러가 모든 것을 결정한다
이 결정성은 컴파일러에 막대한 책임을 지웁니다. 어떤 데이터가 언제 어느 연산 유닛에 도착해야 하는지, 메모리에서 언제 읽어야 하는지를 컴파일러가 사이클 단위로 미리 배치합니다. 하드웨어는 그 계획을 그대로 실행할 뿐입니다.
장점은 명확합니다. 지연이 예측 가능하고 매우 낮습니다. 토큰 생성 속도가 일관되게 빠르고, 꼬리 지연(tail latency)이 튀지 않습니다. 온칩 SRAM 중심으로 가중치를 두고, HBM의 변동성에 기대지 않는 구조가 이를 뒷받침합니다.
# 개념적 흐름 (실제 API와 다를 수 있음)
import groq_compiler as gc
model = load_transformer("my-llm")
# 컴파일러가 연산을 사이클 단위로 스케줄링.
# 결과 바이너리는 결정적으로 실행된다.
plan = gc.compile(model, target="lpu", seq_len=2048)
# 서빙: 지연이 일관되게 낮다.
for prompt in requests:
tokens = plan.generate(prompt, max_tokens=256)
트레이드오프
대신 단일 LPU의 온칩 메모리는 작습니다. 큰 모델을 서빙하려면 여러 LPU를 묶어 모델을 펼쳐야 하고, 이 시스템 구성이 비용과 복잡도를 만듭니다. 결정적 설계는 지연에서 이기지만, "큰 모델 한 장에 담기"에서는 불리합니다.
3. SambaNova RDU — 데이터플로우를 재구성한다
명령어를 흘리는 대신, 회로를 바꾼다
GPU와 CPU는 "명령어를 메모리에서 가져와 실행"하는 폰노이만 방식입니다. SambaNova의 RDU는 다른 길을 갑니다. 연산 그래프 자체를 칩 위에 "공간적으로 배치"하는 reconfigurable dataflow 방식입니다.
쉽게 말해, 모델의 레이어들을 칩 위에 파이프라인처럼 깔아두고, 데이터가 그 파이프라인을 흘러 지나가면서 결과가 나오게 만듭니다. 명령어를 매번 불러오는 오버헤드가 줄고, 한 레이어의 출력이 메모리를 거치지 않고 다음 레이어로 바로 흐를 수 있습니다.
폰노이만 (GPU/CPU) 데이터플로우 (RDU)
----------------- -----------------
명령어 fetch -> 실행 반복 연산 그래프를 칩에 배치
중간 결과를 메모리에 저장 결과가 유닛 사이로 흐름
범용적, 유연 그래프에 특화, 효율적
재구성 가능성
"reconfigurable"의 핵심은 같은 칩을 다른 모델/연산 그래프에 맞게 다시 배치할 수 있다는 점입니다. FPGA처럼 회로를 통째로 바꾸는 것은 아니지만, 거친 입자(coarse-grained) 단위로 데이터플로우 구성을 바꿔 다양한 모델에 적응합니다. 덕분에 GPU만큼은 아니어도 일정한 유연성을 유지합니다.
SambaNova는 또한 큰 모델을 다루기 위해 메모리를 계층적으로 두고(온칩 + 대용량 외부), 수천억~조 단위 파라미터 모델도 적은 수의 시스템으로 서빙하는 것을 강조해 왔습니다. 데이터플로우 배치와 메모리 계층이 결합해, 모델을 잘게 쪼개지 않고도 서빙하는 접근입니다.
4. GPU와의 비교 — 지연, 처리량, 비용
세 칩을 거칠게 비교하면 이렇게 정리됩니다.
| 항목 | GPU | Groq LPU | SambaNova RDU |
|---|---|---|---|
| 설계 철학 | 범용 처리량 | 결정적 저지연 | 데이터플로우 |
| 강점 | 학습 + 추론 모두 | 실시간 토큰/초 | 큰 모델 효율 서빙 |
| 단일 칩 메모리 | HBM 큼 | 온칩 SRAM 작음 | 계층적 |
| 유연성 | 최상 | 추론 특화 | 중간 |
| 생태계 | CUDA, 압도적 | 성장 중 | 성장 중 |
핵심 직관 하나. GPU는 "무엇이든 그럭저럭 잘"하고, 추론 전용 칩은 "특정 영역에서 더 잘"합니다. 실시간 단일 요청 토큰 생성에서 Groq는 인상적인 토큰/초를 보여주고, 모델을 적은 시스템으로 효율적으로 서빙하는 데서 SambaNova가 강점을 주장합니다. 반면 다양한 워크로드, 빠르게 바뀌는 모델 아키텍처, 풍부한 라이브러리가 필요하면 GPU가 여전히 안전합니다.
4.5. 같은 추론, 다른 칩 — 한 장으로 보기
지금까지의 비교를 한 그림으로 정리하면, 같은 LLM 추론 요청이 각 칩에서 어떻게 처리되는지가 보입니다.
같은 추론 요청, 다른 처리 방식
-----------------------------------
GPU : 가중치 HBM에서 읽기, 큰 배치로 처리량 극대화
LPU(Groq): 가중치 온칩 SRAM, 결정적으로 토큰 빠르게
RDU(Samba): 그래프를 칩에 펼침, 큰 모델 효율 서빙
핵심은 "정답이 하나가 아니다"입니다. 같은 요청이라도 무엇을 최적화하느냐에 따라 다른 칩이 답이 됩니다. 처리량과 유연성을 원하면 GPU, 단일 요청의 일관된 저지연을 원하면 LPU, 큰 모델을 적은 시스템으로 효율적으로 돌리고 싶으면 RDU가 후보가 됩니다. 하드웨어 선택은 곧 "내가 무엇을 최적화하고 싶은가"를 정하는 일입니다.
5. 소프트웨어와 컴파일러
추론 전용 칩의 운명은 컴파일러가 쥐고 있습니다. 하드웨어가 아무리 빨라도, 개발자의 표준 모델을 칩에 효율적으로 매핑하지 못하면 쓸모가 없습니다.
- Groq: 결정적 실행이라 컴파일러가 사이클 단위 스케줄을 짜야 합니다. 컴파일이 잘 되면 지연이 환상적이지만, 새로운 연산자나 모델 구조를 지원하려면 컴파일러 작업이 필요합니다.
- SambaNova: 연산 그래프를 데이터플로우로 배치하는 컴파일러가 핵심입니다. PyTorch 등에서 받은 그래프를 RDU 구성으로 변환합니다.
두 회사 모두 PyTorch 같은 표준 프런트엔드를 받아들이고, 그 뒤에서 자사 칩에 맞는 변환을 처리하는 구조를 지향합니다. 개발자 입장에서 중요한 질문은 "내가 쓰는 모델/연산자가 이 칩의 컴파일러에서 1급 시민으로 지원되는가"입니다. 지원되면 매끄럽고, 안 되면 고통스럽습니다.
[ PyTorch 모델 정의 ]
|
[ 벤더 컴파일러 ] <- 여기서 칩에 맞춰 변환/스케줄링
|
[ 칩 실행 바이너리 ]
6. 어떤 워크로드에 맞는가, 그리고 한계
잘 맞는 곳
- 저지연이 중요한 LLM 서빙: 대화형 챗봇, 음성 비서, reasoning 체인이 긴 모델
- 일관된 꼬리 지연이 필요한 프로덕션 서비스 (특히 Groq의 결정적 실행)
- 모델을 자주 바꾸지 않고, 안정적으로 대량 서빙하는 환경
한계
- 메모리와 모델 크기: 단일 칩 메모리가 작으면 큰 모델을 여러 칩에 펼쳐야 하고, 이는 시스템 비용과 복잡도를 높입니다.
- 유연성: 모델 아키텍처가 빠르게 진화하는 시기에, 특화 칩의 컴파일러가 최신 연산자를 따라가지 못하면 채택이 늦어집니다.
- 생태계: CUDA의 라이브러리·커뮤니티·인재 풀이라는 해자가 여전히 큽니다.
6.5. 토큰/초가 왜 중요한지 — 직관적 계산
추론 칩의 핵심 지표인 "토큰/초"가 실제로 무엇을 의미하는지, 개념적으로 따라가 봅시다.
LLM이 답을 생성할 때, decode 단계는 토큰을 하나씩 순차적으로 만듭니다. 각 토큰을 만들려면 모델 가중치를 한 번 읽어야 합니다. 그러므로 토큰 생성 속도는 대략 "가중치 전체를 얼마나 빨리 읽느냐"에 비례합니다.
토큰 생성 속도 ~ 가중치 읽기 속도
-----------------------------------
가중치가 HBM에 있음 -> HBM 대역폭이 상한
가중치가 온칩 SRAM에 -> 온칩 대역폭이 상한
온칩 대역폭이 자릿수 빠름 -> 토큰/초가 크게 향상
직관적으로 풀면 이렇습니다. 어떤 모델의 가중치를 한 번 읽는 데 걸리는 시간이 토큰 하나의 최소 생성 시간을 결정합니다. 가중치를 HBM이 아니라 자릿수 빠른 온칩 SRAM에서 읽으면, 같은 모델이라도 토큰을 훨씬 빨리 뽑습니다. 이것이 추론 전용 칩이 단일 요청 토큰/초에서 GPU를 앞서는 핵심 원리입니다.
왜 단일 요청이 중요할까요? 사용자가 챗봇과 대화할 때, 그 사용자는 자기 요청 하나의 속도를 체감합니다. 배치로 100개 요청을 묶어 처리량을 높이는 것은 서버 효율에는 좋지만, 그 사용자 한 명의 체감 속도를 빠르게 하지는 못합니다. 실시간 대화에서는 단일 요청 지연이 곧 사용자 경험입니다.
7. 시장 포지셔닝 — 2026년의 그림
2026년 가속기 시장에서 NVIDIA는 여전히 약 75~80%를 점유하며 Blackwell 세대로 학습과 추론 양쪽을 누릅니다. 차세대 Vera Rubin이 연말께 더 높은 perf/watt를 목표로 거론되고, Google TPU(Trillium, 추론 특화 Ironwood)와 AMD MI350X가 경쟁을 형성합니다.
이 거대한 그늘 아래에서 Groq와 SambaNova가 노리는 자리는 "전부"가 아니라 "추론 지연"이라는 한 점입니다. 추론 ASIC의 시장 점유가 2024년 약 15%에서 2026년 약 40%로 전망될 만큼 빠르게 커지는 흐름은, 이런 특화 칩에 우호적인 바람입니다. 추론 capex가 학습 capex를 추월하는 시대에, "싸고 빠른 서빙"은 곧 돈이 되는 능력이기 때문입니다.
8. 개발자 관점 — 무엇을 보고 판단할까
특화 칩 도입을 검토하는 개발자라면 다음을 점검하면 좋습니다.
- 내 모델이 지원되는가: 쓰는 아키텍처와 연산자가 벤더 컴파일러에서 1급으로 지원되는지 확인합니다.
- 진짜 병목이 지연인가: 워크로드가 배치 처리량 중심이면 GPU가 나을 수 있습니다. 단일 요청 지연이 핵심이면 특화 칩이 빛납니다.
- 총소유비용(TCO): 칩 단가만이 아니라, 큰 모델을 펼치는 데 필요한 시스템 수, 전력, 운영 복잡도를 함께 봅니다.
- 로드인 위험: 벤더 종속과 생태계 성숙도를 평가합니다. 마이그레이션 경로가 있는지 확인합니다.
8.5. 더 큰 흐름 — 왜 지금 추론 칩인가
추론 전용 칩의 부상을 한 발 물러나 보면, 몇 가지 구조적 힘이 동시에 작용하고 있음을 알 수 있습니다.
- 모델의 성숙: 거대 모델 학습 경쟁이 어느 정도 안정되면서, 가치의 무게중심이 "더 좋은 모델 만들기"에서 "있는 모델 잘 쓰기"로 옮겨갑니다. 추론이 곧 비즈니스입니다.
- 전력 상한: 데이터센터 전력이 실질적 상한이 되면서, 같은 일을 더 적은 전력으로 하는 효율이 직접적인 경쟁력이 됩니다.
- 비용 압박: 모델을 서빙하는 비용이 운영비의 큰 부분을 차지하면서, 추론당 비용을 낮추는 하드웨어가 곧바로 마진으로 이어집니다.
- 워크로드의 분화: reasoning처럼 추론 과정을 길게 펼치는 모델이 늘면서, decode 단계의 저지연이 더 중요해집니다.
이 힘들이 합쳐져, 추론 ASIC의 시장 점유가 2024년 약 15%에서 2026년 약 40%로 전망되는 빠른 성장을 만듭니다. NVIDIA가 약 75~80%로 여전히 지배적이지만, 클라우드 사업자들의 자체 추론 ASIC과 Groq·SambaNova 같은 특화 칩이 그 빈틈을 빠르게 메우고 있습니다.
2024 -> 2026 추론 ASIC 점유 흐름
-----------------------------------
2024: 약 15% (대부분 GPU)
2026: 약 40% (자체 ASIC + 특화 칩 급증)
배경: 추론 capex가 학습 capex를 첫 추월
핵심은 이 흐름이 일시적 유행이 아니라 구조적 전환이라는 점입니다. 모델이 성숙하고, 전력이 상한이 되고, 추론이 비즈니스가 되는 한, 추론 효율을 무기로 삼는 칩의 자리는 계속 넓어집니다.
9. LLM 추론의 두 단계 — prefill과 decode
추론 전용 칩을 제대로 이해하려면 LLM 추론이 두 단계로 나뉜다는 점을 알아야 합니다.
- prefill 단계: 입력 프롬프트 전체를 한 번에 처리해 첫 토큰을 만들 준비를 합니다. 토큰이 많아 병렬성이 높고, 연산(compute)에 묶이는 경향이 있습니다.
- decode 단계: 토큰을 하나씩 순차적으로 생성합니다. 매 토큰마다 모델 가중치를 한 번 읽어야 해서, 메모리 대역폭에 묶입니다.
prefill (병렬, compute-bound) decode (순차, bandwidth-bound)
----------------- -----------------
프롬프트 전체를 한 번에 토큰을 1개씩 생성
연산량이 큼 매 토큰 가중치 1회 읽기
처리량이 중요 지연이 중요
추론 전용 칩이 빛나는 곳은 주로 decode 단계입니다. 사용자가 체감하는 "타이핑되는 속도"는 decode 속도이고, 이것이 메모리 대역폭에 묶여 있기 때문입니다. Groq가 온칩 SRAM으로 가중치 읽기를 가속하고, 결정적 실행으로 토큰마다의 시간을 확정하는 것은 바로 이 decode 단계의 일관된 저지연을 노린 설계입니다. 이 두 단계의 구분을 알면, 왜 "토큰/초"가 추론 칩의 핵심 지표인지가 분명해집니다.
10. 결정적 실행이 운영에 주는 의미
Groq의 결정적 실행은 단순히 "빠르다"를 넘어, 프로덕션 운영에 실질적 가치를 줍니다.
프로덕션 서비스에서 가장 다루기 어려운 것은 평균 지연이 아니라 꼬리 지연(tail latency)입니다. 1000번의 요청 중 999번이 빨라도, 1번이 튀면 그 사용자는 나쁜 경험을 합니다. SLA(서비스 수준 약속)는 보통 평균이 아니라 p99 같은 꼬리 지표로 정의됩니다.
변동이 큰 시스템 결정적 시스템
----------------- -----------------
평균은 빠름 평균도 빠름
가끔 지연이 튐(p99 나쁨) 꼬리도 안정(p99 좋음)
캐시 미스 등 운에 좌우 사이클 단위로 확정
용량 산정이 어려움 용량 산정이 쉬움
캐시 미스나 스케줄링 변동이 없는 결정적 시스템은 꼬리 지연이 안정적입니다. 이는 두 가지 운영 이점으로 이어집니다. 첫째, SLA를 지키기 쉽습니다. 둘째, 용량 산정이 쉽습니다. 각 요청이 정확히 얼마나 걸릴지 예측 가능하므로, 몇 대의 시스템이 필요한지 정밀하게 계산할 수 있습니다. 변동이 큰 시스템에서는 최악의 경우를 대비해 과다 프로비저닝하기 쉬운데, 결정적 시스템은 이 낭비를 줄입니다.
11. 데이터플로우 vs 폰노이만 — 더 깊은 대비
SambaNova의 데이터플로우 접근을 더 깊이 이해하기 위해, 두 패러다임을 나란히 놓고 봅시다.
폰노이만 기계(CPU, GPU)는 "명령어 스트림"을 중심으로 동작합니다. 메모리에서 명령어를 가져와 해석하고 실행하는 사이클을 반복합니다. 유연하지만, 명령어를 가져오는 오버헤드와 중간 결과를 메모리에 저장하는 비용이 따릅니다.
데이터플로우 기계(RDU)는 "데이터 의존성"을 중심으로 동작합니다. 연산 그래프를 칩 위에 펼쳐두고, 데이터가 준비되면 해당 연산이 자동으로 실행됩니다. 한 연산의 출력이 다음 연산의 입력으로 바로 흘러, 중간 결과를 메모리에 저장했다 다시 읽는 왕복이 줄어듭니다.
폰노이만 데이터플로우
----------------- -----------------
명령어가 흐름의 중심 데이터가 흐름의 중심
fetch-decode-execute 반복 그래프를 공간에 펼침
중간 결과 메모리 왕복 결과가 유닛 사이로 직접 흐름
유연하지만 오버헤드 그래프에 특화, 효율적
신경망 추론은 본질적으로 정해진 연산 그래프(레이어들의 연쇄)를 반복 실행하는 일입니다. 그래프가 고정적이라면, 매번 명령어를 가져오는 폰노이만 방식보다 그래프를 칩에 펼쳐두는 데이터플로우 방식이 자연스럽게 효율적입니다. RDU의 "reconfigurable"은 이 펼침을 다른 그래프에 맞게 다시 할 수 있다는 뜻이고, 그래서 다양한 모델에 적응하면서도 데이터플로우의 효율을 누립니다.
12. 양자화와 정밀도 — 추론 칩의 공통 무기
추론 전용 칩들이 공통으로 의지하는 기법이 양자화(quantization)입니다. 학습은 보통 높은 정밀도(FP16, BF16 등)로 하지만, 추론은 낮은 정밀도(INT8, FP8, 심지어 더 낮은 비트)로도 충분히 정확한 경우가 많습니다.
낮은 정밀도는 추론 칩에 세 가지 이득을 줍니다.
- 메모리 절약: 가중치를 적은 비트로 저장하면 같은 SRAM에 더 큰 모델이 들어갑니다.
- 대역폭 절약: 토큰마다 읽는 가중치 양이 줄어, decode 속도가 빨라집니다.
- 연산 효율: 낮은 비트 연산 유닛은 더 작고 빨라, 같은 면적에 더 많이 넣을 수 있습니다.
정밀도 메모리/대역폭 정확도 위험
-----------------------------------------
FP16/BF16 기준 안전
INT8/FP8 절반 수준 대부분 안전
더 낮은 비트 더 절약 모델/레이어 따라 위험
물론 정밀도를 낮추면 정확도가 떨어질 위험이 있어, 어디까지 낮춰도 되는지를 찾는 것이 핵심입니다. 추론 칩과 그 컴파일러는 보통 이런 양자화 경로를 잘 지원하도록 설계됩니다. 개발자 입장에서는 "내 모델이 이 칩에서 어느 정밀도까지 정확도를 유지하는가"가 실무적으로 중요한 질문입니다.
13. 두 회사의 전략 차이 정리
Groq와 SambaNova는 같은 "추론" 시장을 노리지만, 강조점이 다릅니다.
| 측면 | Groq | SambaNova |
|---|---|---|
| 핵심 무기 | 결정적 실행, 극저지연 | 데이터플로우, 큰 모델 효율 |
| 메모리 철학 | 온칩 SRAM 중심 | 온칩 + 대용량 외부 계층 |
| 주력 시나리오 | 일관된 저지연 토큰 생성 | 적은 시스템으로 대형 모델 서빙 |
| 강조하는 지표 | 토큰/초, p99 지연 | 모델당 시스템 수, 효율 |
거칠게 말하면, Groq는 "한 요청을 가장 빠르고 일관되게"에 가깝고, SambaNova는 "큰 모델을 가장 효율적으로"에 가깝습니다. 어느 쪽이 맞는지는 다시 한번 워크로드에 달려 있습니다. 초저지연 대화형 서비스라면 Groq의 강점이, 수천억 파라미터급 대형 모델을 적은 인프라로 서빙해야 한다면 SambaNova의 강점이 부각됩니다.
14. 자주 묻는 질문
Q. 추론 전용 칩이 GPU를 대체하나요? 아닙니다. 학습과 다양한 워크로드는 GPU가 계속 중심입니다. 추론 칩은 저지연 서빙이라는 특정 영역을 공략하는 보완재입니다.
Q. 결정적 실행이 왜 그렇게 중요한가요? 꼬리 지연이 안정되어 SLA를 지키기 쉽고 용량 산정이 쉬워지기 때문입니다. 프로덕션 운영에서 예측 가능성은 큰 가치입니다.
Q. 내 모델을 바로 올릴 수 있나요? 컴파일러가 지원하는 연산자와 모델 구조라면 비교적 매끄럽습니다. 지원되지 않는 최신 연산자가 있으면 작업이 필요할 수 있습니다.
Q. 어떤 지표를 봐야 하나요? 단일 요청 토큰/초, p99 지연, 그리고 큰 모델을 펼치는 데 필요한 시스템 수와 전력을 함께 봅니다. 평균 처리량만 보면 추론 칩의 강점을 놓칠 수 있습니다.
15. 한눈에 보는 핵심 요약
- 2026년은 추론 capex가 학습 capex를 처음 추월하는 전환점으로, 추론 전용 칩에 우호적인 시대입니다.
- Groq LPU는 결정적 실행으로 예측 가능하고 낮은 지연을 제공합니다. 컴파일러가 사이클 단위로 스케줄을 짭니다.
- SambaNova RDU는 데이터플로우를 칩에 펼쳐, 큰 모델을 적은 시스템으로 효율적으로 서빙합니다.
- 두 칩 모두 컴파일러가 운명을 쥐며, 내 모델/연산자의 지원 여부가 도입의 관건입니다.
- GPU를 대체하기보다, 저지연 추론이라는 특정 영역을 공략하는 보완재로 자리합니다.
마치며
Groq와 SambaNova는 GPU를 정면으로 이기려 하지 않습니다. 대신 GPU가 구조적으로 불리한 "추론, 특히 저지연 서빙"이라는 한 점을 깊게 파고듭니다. Groq는 결정적 실행으로 예측 가능하고 낮은 지연을, SambaNova는 reconfigurable dataflow로 효율적인 큰 모델 서빙을 무기로 삼습니다.
이들의 성패는 결국 두 가지에 달려 있습니다. 하나는 컴파일러가 개발자의 모델을 얼마나 매끄럽게 받아내느냐, 다른 하나는 추론 중심 시대로의 전환이 얼마나 빠르고 깊게 진행되느냐입니다. 분명한 것은, "하나의 칩이 모든 것을 잘한다"는 시대가 저물고, 워크로드별로 최적의 하드웨어를 고르는 시대가 오고 있다는 점입니다. 그 선택지가 늘어난다는 것은 개발자에게 좋은 소식입니다.
마지막으로 한 가지를 강조하고 싶습니다. 좋은 하드웨어 선택은 벤치마크 숫자를 비교하는 데서 시작하지 않습니다. "내 워크로드의 진짜 병목이 무엇인가"를 먼저 측정하는 데서 시작합니다. 그 질문에 답할 수 있다면, Groq든 SambaNova든 GPU든, 도구는 자연스럽게 따라옵니다.
참고 자료
- Groq 공식 사이트: https://groq.com
- SambaNova 공식 사이트: https://sambanova.ai
- NVIDIA Blackwell 플랫폼: https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/
- Google Cloud TPU: https://cloud.google.com/tpu
- 컴퓨터 아키텍처 연구 검색(arXiv): https://arxiv.org/list/cs.AR/recent
- SemiAnalysis (반도체 산업 분석): https://www.semianalysis.com