학습이 아니라 추론에 모든 것을 건 두 칩, Groq LPU와 SambaNova RDU의 동작 원리를 깊게 들여다봅니다. 결정적 실행과 컴파일러 스케줄링, reconfigurable dataflow가 어떻게 낮은 지연을 만들어내는지, 그리고 GPU 대비 어디서 이기고 어디서 지는지 정리합니다.
추론 비용의 구조를 메모리 월 관점에서 풀어내고, 양자화(INT8/FP8/FP4)와 구조적 희소성(2:4), dataflow 아키텍처, 연산자 융합, 배칭과 KV 캐시까지 하드웨어-소프트웨어 공동설계의 큰 그림을 정리합니다. 2026년 Blackwell FP4와 Vera Rubin 흐름을 반영해 실무 적용 포인트를 짚습니다.
AI 가속기의 핵심 연산인 행렬곱을 효율적으로 처리하는 systolic array의 동작 원리를 ASCII 다이어그램과 함께 깊이 파헤칩니다. weight-stationary와 output-stationary 같은 dataflow 전략, 데이터 재사용과 에너지, 텐서코어와의 비교, 컴파일러 매핑까지 TPU의 심장 원리를 정리합니다.