Dataflow

All Posts

Published on
2026년 6월 16일
Groq와 SambaNova — 추론에 올인한 칩들
groq sambanova inference ai-hardware lpu dataflow
학습이 아니라 추론에 모든 것을 건 두 칩, Groq LPU와 SambaNova RDU의 동작 원리를 깊게 들여다봅니다. 결정적 실행과 컴파일러 스케줄링, reconfigurable dataflow가 어떻게 낮은 지연을 만들어내는지, 그리고 GPU 대비 어디서 이기고 어디서 지는지 정리합니다.
Published on
2026년 6월 16일
추론을 빠르게 — 양자화, 희소성, Dataflow의 하드웨어 관점
inference quantization sparsity dataflow gpu hardware optimization
추론 비용의 구조를 메모리 월 관점에서 풀어내고, 양자화(INT8/FP8/FP4)와 구조적 희소성(2:4), dataflow 아키텍처, 연산자 융합, 배칭과 KV 캐시까지 하드웨어-소프트웨어 공동설계의 큰 그림을 정리합니다. 2026년 Blackwell FP4와 Vera Rubin 흐름을 반영해 실무 적용 포인트를 짚습니다.
Published on
2026년 6월 16일
Systolic Array와 Dataflow 아키텍처 — TPU의 심장 원리
gpu-cuda systolic-array dataflow tpu ai-hardware matrix-multiply accelerator
AI 가속기의 핵심 연산인 행렬곱을 효율적으로 처리하는 systolic array의 동작 원리를 ASCII 다이어그램과 함께 깊이 파헤칩니다. weight-stationary와 output-stationary 같은 dataflow 전략, 데이터 재사용과 에너지, 텐서코어와의 비교, 컴파일러 매핑까지 TPU의 심장 원리를 정리합니다.

Dataflow

dataflow (3)

Groq와 SambaNova — 추론에 올인한 칩들

추론을 빠르게 — 양자화, 희소성, Dataflow의 하드웨어 관점

Systolic Array와 Dataflow 아키텍처 — TPU의 심장 원리