Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

시작하며

AI 워크로드가 다양해짐에 따라 하드웨어 가속기 시장도 폭발적으로 성장하고 있습니다. NVIDIA GPU가 여전히 지배적이지만, Google TPU, Cerebras WSE-3, AWS Inferentia, Apple Neural Engine 등 목적에 특화된 가속기들이 빠르게 자리를 잡고 있습니다.

이 가이드는 주요 AI 하드웨어 가속기의 아키텍처, 성능 특성, 사용 사례를 체계적으로 비교합니다. 학습용 GPU 선택부터 엣지 배포 칩까지, 올바른 하드웨어를 선택하는 데 필요한 모든 정보를 담았습니다.

1. NVIDIA Hopper 아키텍처: H100 & H200

Hopper SM 구조

NVIDIA H100은 Hopper 마이크로아키텍처를 기반으로 설계되었습니다. 각 Streaming Multiprocessor(SM)는 다음 구성 요소를 포함합니다.

4개의 워프 스케줄러: 동시에 4개의 워프(32 스레드)를 스케줄링
4세대 Tensor Core: FP8, FP16, BF16, TF32, FP64 지원
공유 메모리: SM당 최대 228KB (L1 캐시 포함)
레지스터 파일: SM당 65,536개의 32비트 레지스터

H100 SXM5 전체 스펙은 다음과 같습니다.

항목	H100 SXM5	H200 SXM5
SM 수	132	132
CUDA 코어	16,896	16,896
Tensor Core (4세대)	528	528
FP8 TFLOPS	3,958	3,958
BF16 TFLOPS	1,979	1,979
메모리 종류	HBM3	HBM3e
메모리 용량	80GB	141GB
메모리 대역폭	3.35TB/s	4.8TB/s
TDP	700W	700W
NVLink 대역폭	900GB/s	900GB/s

4세대 Tensor Core와 Transformer Engine

H100의 핵심 혁신은 Transformer Engine입니다. 이 엔진은 FP8 연산을 지원하면서도 정밀도 손실을 최소화합니다.

동작 원리는 다음과 같습니다. 각 트랜스포머 레이어마다 활성화 값의 통계(최댓값, 표준편차)를 추적하고, 이를 기반으로 동적 스케일링 팩터를 계산합니다. FP8로 연산하면서 스케일링을 통해 수치 안정성을 유지합니다.

# CUDA 디바이스 속성 쿼리
import torch

def query_gpu_properties():
    if not torch.cuda.is_available():
        print("CUDA를 사용할 수 없습니다.")
        return

    for i in range(torch.cuda.device_count()):
        props = torch.cuda.get_device_properties(i)
        print(f"GPU {i}: {props.name}")
        print(f"  Compute Capability: {props.major}.{props.minor}")
        print(f"  Total Memory: {props.total_memory / 1024**3:.1f} GB")
        print(f"  Multiprocessors: {props.multi_processor_count}")
        print(f"  Max Threads/SM: {props.max_threads_per_multi_processor}")
        print(f"  L2 Cache Size: {props.l2_cache_size / 1024**2:.1f} MB")

        # Hopper 여부 확인 (Compute Capability 9.0)
        if props.major == 9:
            print(f"  Architecture: Hopper (H100/H200)")
        elif props.major == 8:
            print(f"  Architecture: Ampere (A100/A800)")

query_gpu_properties()

NVLink 4.0과 NVSwitch

대규모 모델 학습에는 다수의 GPU 간 고속 통신이 필수입니다. H100의 NVLink 4.0은 GPU당 900GB/s의 양방향 대역폭을 제공합니다.

NVLink 3.0 (A100): GPU당 600GB/s
NVLink 4.0 (H100): GPU당 900GB/s
NVSwitch 3세대: 단일 스위치당 7.2TB/s 전체 대역폭

DGX H100 시스템(8개 GPU)에서 NVSwitch 3개가 모든 GPU를 full-mesh 토폴로지로 연결합니다. 이를 통해 any-to-any GPU 통신이 PCIe 대비 7배 이상 빠릅니다.

2. Google TPU: Systolic Array 아키텍처

TPU의 핵심: Systolic Array

TPU(Tensor Processing Unit)는 행렬 곱셈에 특화된 ASIC입니다. 핵심 연산 유닛인 systolic array는 데이터가 물결처럼 흘러가며(systolic) 연산이 이루어지는 구조입니다.

TPU v4의 MXU(Matrix Multiply Unit)는 128x128 크기의 systolic array를 사용합니다. 각 셀은 이전 셀로부터 입력값을 받아 MAC(Multiply-Accumulate) 연산을 수행하고 결과를 다음 셀로 전달합니다.

이 구조의 장점은 다음과 같습니다.

메모리 접근 횟수 최소화: 데이터가 어레이를 통과하는 동안 재사용
높은 산술 집약도(Arithmetic Intensity): 같은 데이터로 더 많은 연산
결정론적 실행: 지연시간 예측 가능

TPU v4와 v5e 비교

항목	TPU v4	TPU v5e
BF16 TFLOPS	275	197
INT8 TOPS	275	394
HBM 용량	32GB	16GB
HBM 대역폭	1,200GB/s	1,600GB/s
ICI 대역폭	1,200GB/s/chip	1,600GB/s/chip
전력 소비	~170W	~90W
비용 효율	학습 최적화	추론 최적화

TPU v5e는 전력 효율에 최적화되어 추론 워크로드에 특히 경제적입니다.

TPU Pod와 ICI

TPU Pod는 수천 개의 TPU 칩을 고속 ICI(Inter-Chip Interconnect)로 연결한 클러스터입니다. ICI는 데이터센터 네트워크 대신 칩 간 직접 연결을 사용해 지연시간을 극적으로 줄입니다.

TPU v4 Pod: 4,096개 칩, 1 exaFLOPS(BF16) 이상
ICI 토폴로지: 3D 토러스(torus) 메시

JAX/XLA로 TPU 활용

# JAX on TPU 기본 예제
import jax
import jax.numpy as jnp
from jax import random

# TPU 디바이스 확인
devices = jax.devices()
print(f"사용 가능한 디바이스: {devices}")

# 데이터 샤딩으로 TPU Pod 전체 활용
from jax.sharding import Mesh, PartitionSpec, NamedSharding
import numpy as np

# 8-way 텐서 병렬화 설정
mesh = Mesh(np.array(jax.devices()).reshape(2, 4), ('batch', 'model'))

def matrix_multiply_tpu(a, b):
    # XLA가 자동으로 TPU systolic array 활용을 최적화
    return jnp.dot(a, b)

# jit 컴파일로 XLA 최적화 적용
compiled_matmul = jax.jit(matrix_multiply_tpu)

key = random.PRNGKey(0)
a = random.normal(key, (4096, 4096), dtype=jnp.bfloat16)
b = random.normal(key, (4096, 4096), dtype=jnp.bfloat16)

result = compiled_matmul(a, b)
print(f"결과 shape: {result.shape}, dtype: {result.dtype}")

3. AI ASIC: 전용 가속기들

Cerebras WSE-3: 웨이퍼 스케일 엔진

Cerebras WSE-3(Wafer Scale Engine 3)는 단일 실리콘 웨이퍼 전체를 하나의 칩으로 사용하는 획기적인 설계입니다.

항목	WSE-3 사양
다이 크기	46,225 mm² (웨이퍼 전체)
AI 코어 수	900,000개
온칩 SRAM	44GB
메모리 대역폭	21PB/s (온칩)
FP16 성능	125 PFLOPS
패브릭 대역폭	220Pb/s

핵심 장점은 inter-chip 통신 병목의 완전 제거입니다. 기존 GPU 클러스터에서는 수백 개의 GPU가 네트워크나 NVLink로 연결되어 통신 오버헤드가 발생합니다. WSE-3는 모든 코어가 단일 웨이퍼 위의 온칩 패브릭으로 연결되어 있어 지연시간이 나노초 단위입니다.

CS-3 시스템에서는 웨이퍼 하나가 최대 24개 서버 랙의 GPU 클러스터를 대체한다고 Cerebras는 주장합니다.

Graphcore IPU

Graphcore의 IPU(Intelligence Processing Unit)는 Bulk Synchronous Parallel(BSP) 실행 모델을 사용합니다.

MK2 GC200: 1,472개의 IPU 타일, 각 타일에 8,832개 스레드
온칩 메모리: 900MB (SRAM)
대역폭: 45TB/s
특징: 희소(sparse) 연산 최적화, 그래프 신경망에 탁월

IPU는 불규칙한 그래프 구조 연산에서 GPU를 능가하며, 강화학습이나 GNN 워크로드에 유리합니다.

Groq LPU

Groq LPU(Language Processing Unit)는 LLM 추론에 특화된 ASIC으로, 결정론적 실행(deterministic execution) 아키텍처가 특징입니다.

소프트웨어 정의 메모리: 런타임에 동적 메모리 관리 없음
SIMD 스트리밍: 컴파일 시점에 모든 메모리 접근 패턴 결정
클럭 사이클당 처리량: 예측 가능한 지연시간

결과적으로 LLaMA-3 70B 추론에서 Groq는 초당 240토큰 이상을 달성하는데, 이는 GPU 대비 10배 이상 빠른 수치입니다.

SambaNova DataScale

SambaNova의 RDU(Reconfigurable Dataflow Unit)는 데이터플로우 아키텍처를 채택합니다.

모델 가중치를 온칩 SRAM에 완전히 적재
DRAM 접근 최소화로 메모리 병목 해소
GPT-4급 모델 추론 지원

4. 추론 전용 칩

AWS Inferentia 2

AWS가 자체 설계한 추론 전용 칩으로, Trainium과 함께 AWS의 AI 하드웨어 전략의 핵심입니다.

항목	Inferentia 1	Inferentia 2
NeuronCore 수	4	2 (강화된 설계)
FP16 TFLOPS	128	384
메모리	8GB	32GB HBM
메모리 대역폭	50GB/s	820GB/s
NeuronLink 대역폭	-	384GB/s
가격 (시간당)	inf1.xlarge ~$0.228	inf2.xlarge ~$0.758

Inferentia 2는 NeuronSDK를 통해 PyTorch, TensorFlow, JAX 모델을 투명하게 지원합니다.

Intel Gaudi 3

Intel Gaudi 3는 Habana Labs(Intel 인수)의 설계로 H100과 직접 경쟁합니다.

항목	Gaudi 3	H100 SXM5
BF16 TFLOPS	1,835	1,979
FP8 TOPS	1,835	3,958
HBM 용량	96GB HBM2e	80GB HBM3
HBM 대역폭	3.7TB/s	3.35TB/s
네트워크	24x 200GbE RoCE	NVLink 4.0
TDP	900W	700W

비용 효율 면에서 Gaudi 3는 H100 대비 약 30% 저렴한 클라우드 인스턴스를 제공합니다.

Qualcomm Cloud AI 100

Qualcomm의 데이터센터 추론 칩으로, 전력 효율이 강점입니다.

AI 100 Ultra: 960 TOPS (INT8), 400W
온칩 메모리: 144MB SRAM
메모리 대역폭: 3.6TB/s
서버당 최대 8개 카드 지원

5. 엣지 AI 칩

Apple Neural Engine (ANE)

Apple Silicon의 Neural Engine은 iPhone, iPad, Mac에 내장된 전용 AI 가속기입니다.

칩	ANE 성능	출시연도
A15 Bionic	15.8 TOPS	2021
A16 Bionic	17 TOPS	2022
A17 Pro	35 TOPS	2023
M4	38 TOPS	2024

ANE는 CoreML 프레임워크를 통해 접근 가능하며, 모델 추론에서 CPU 대비 최대 10배 전력 효율을 보입니다.

# Apple CoreML로 엣지 AI 배포
import coremltools as ct
import torch
import torchvision

# PyTorch 모델을 CoreML로 변환
model = torchvision.models.mobilenet_v3_small(pretrained=True)
model.eval()

# 예시 입력으로 트레이싱
example_input = torch.rand(1, 3, 224, 224)
traced_model = torch.jit.trace(model, example_input)

# CoreML 변환 (Neural Engine 타깃)
mlmodel = ct.convert(
    traced_model,
    inputs=[ct.ImageType(
        name="input",
        shape=example_input.shape,
        color_layout=ct.colorlayout.RGB
    )],
    compute_units=ct.ComputeUnit.ALL,  # ANE + GPU + CPU 자동 선택
    minimum_deployment_target=ct.target.iOS17,
)

mlmodel.save("mobilenet_v3_small.mlpackage")
print("CoreML 모델 저장 완료 - Neural Engine 최적화 적용")

Qualcomm Hexagon DSP

Qualcomm Snapdragon에 내장된 Hexagon DSP는 스마트폰 AI 처리의 핵심입니다.

Hexagon 698 (Snapdragon 8 Gen 3): 98 TOPS
HVX(Hexagon Vector eXtensions): SIMD 벡터 연산
HTA(Hexagon Tensor Accelerator): 트랜스포머 전용 가속

Qualcomm Neural Processing SDK(SNPE)를 통해 TensorFlow/PyTorch 모델을 Hexagon에 배포할 수 있습니다.

Raspberry Pi 5 AI HAT

Raspberry Pi AI HAT+는 Hailo-8L 칩을 탑재한 엣지 AI 가속기입니다.

Hailo-8L: 13 TOPS
M.2 인터페이스로 RPi 5에 연결
가격: 약 $70
용도: 실시간 영상 분석, 객체 탐지

6. 메모리 기술: HBM3e vs GDDR7

HBM(High Bandwidth Memory) 아키텍처

HBM은 DRAM 다이를 수직으로 적층(3D stacking)하고 실리콘 인터포저를 통해 GPU와 연결하는 메모리 기술입니다.

메모리	대역폭	용량	전력	핀 수	주요 용도
HBM2e	3.2TB/s	최대 80GB	~460W	1,024	A100
HBM3	3.35TB/s	최대 80GB	~700W	1,024	H100
HBM3e	4.8TB/s	최대 141GB	~700W	1,024	H200, MI300X
GDDR6X	576GB/s	최대 24GB	低	384	RTX 4090
GDDR7	960GB/s	최대 32GB	低	512	RTX 5090

HBM이 AI 학습에 유리한 이유는 크게 세 가지입니다.

대역폭: GDDR7 대비 5배 이상 높은 메모리 대역폭은 대형 배치 학습 시 메모리 병목을 해소합니다.
용량: 단일 GPU에 80~141GB 탑재 가능해 70B 파라미터 모델도 단일 GPU에서 추론 가능합니다.
에너지 효율: 바이트당 전력 소비가 GDDR 대비 낮아 TCO가 유리합니다.

Near-Memory Computing

Near-memory computing(또는 Processing-in-Memory, PIM)은 메모리 내부에 연산 유닛을 배치하는 개념입니다. Samsung HBM-PIM, SK Hynix AiM(Accelerator in Memory)이 대표적입니다.

메모리-연산 유닛 간 데이터 이동 최소화
메모리 대역폭 병목의 근본적 해소
특히 추론 단계에서 메모리 바운드 연산에 효과적

CXL(Compute Express Link)

CXL은 CPU와 가속기, 메모리 확장 장치를 PCIe 물리 레이어 위에서 연결하는 차세대 인터커넥트 표준입니다.

CXL 1.1: Type 1(가속기), Type 2(가속기+메모리), Type 3(메모리 확장)
CXL 2.0: 스위칭 지원으로 다중 호스트 공유
CXL 3.0: P2P 통신, 패브릭 지원

AI 서버에서 CXL Type 3 메모리 확장으로 GPU VRAM 부족 문제를 해결하려는 시도가 늘고 있습니다.

7. 하드웨어 선택 가이드

학습 vs 추론

워크로드 유형에 따라 최적 하드웨어가 다릅니다.

대규모 학습(Pre-training)

최적: H100 SXM5 (NVLink 필수), TPU v4 Pod
이유: 높은 MFU(Model FLOP Utilization), NVLink/ICI 집합 통신 속도
배치 크기: 가능한 한 크게 (Global batch 수백만 토큰)

파인튜닝(Fine-tuning)

최적: H100/A100, AMD MI300X, Gaudi 3
이유: 중간 규모 GPU 클러스터, 비용 효율
배치 크기: 중간 (512~4096 토큰)

대규모 추론(Serving, 높은 처리량)

최적: H100, Inferentia 2, Gaudi 3
이유: 대용량 KV캐시, 높은 처리량
배치 크기: 동적 (연속 배칭)

저지연 추론(Latency-critical)

최적: Groq LPU, Cerebras CS-3
이유: 결정론적 실행, 메모리 병목 없음
배치 크기: 소규모 (1~8)

모델 크기별 하드웨어 요구사항 (추론 기준)

모델 크기	파라미터	FP16 VRAM	BF16 최소 GPU
Small	7B	14GB	1x A10G (24GB)
Medium	13B	26GB	1x A100 (40GB)
Large	34B	68GB	2x A100 (80GB)
XL	70B	140GB	2x H100 (80GB)
XXL	405B	810GB	10x H100 (80GB)

PyTorch 디바이스 선택 및 벤치마킹

# PyTorch 디바이스 선택 및 벤치마킹
import torch
import time

def benchmark_matmul(device_name: str, size: int = 4096, dtype=torch.float16):
    """행렬 곱셈 벤치마크"""
    device = torch.device(device_name)

    a = torch.randn(size, size, dtype=dtype, device=device)
    b = torch.randn(size, size, dtype=dtype, device=device)

    # 워밍업
    for _ in range(5):
        _ = torch.matmul(a, b)

    if device.type == 'cuda':
        torch.cuda.synchronize()

    start = time.perf_counter()
    for _ in range(100):
        c = torch.matmul(a, b)
    if device.type == 'cuda':
        torch.cuda.synchronize()
    elapsed = time.perf_counter() - start

    ops = 2 * size ** 3 * 100  # FLOPs
    tflops = ops / elapsed / 1e12
    print(f"{device_name} ({dtype}): {tflops:.2f} TFLOPS ({elapsed*1000/100:.2f} ms/iter)")

# 사용 가능한 디바이스 자동 선택
if torch.cuda.is_available():
    benchmark_matmul("cuda:0", dtype=torch.float16)
    benchmark_matmul("cuda:0", dtype=torch.bfloat16)

if hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
    benchmark_matmul("mps", dtype=torch.float16)

benchmark_matmul("cpu", dtype=torch.float32)

torch.compile로 하드웨어 최적화

# torch.compile 활용 하드웨어 최적화
import torch
import torch.nn as nn

class TransformerBlock(nn.Module):
    def __init__(self, d_model=1024, nhead=16):
        super().__init__()
        self.attn = nn.MultiheadAttention(d_model, nhead, batch_first=True)
        self.ff = nn.Sequential(
            nn.Linear(d_model, d_model * 4),
            nn.GELU(),
            nn.Linear(d_model * 4, d_model),
        )
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)

    def forward(self, x):
        attn_out, _ = self.attn(x, x, x)
        x = self.norm1(x + attn_out)
        x = self.norm2(x + self.ff(x))
        return x

model = TransformerBlock().cuda().to(torch.bfloat16)

# torch.compile: Triton 커널로 자동 최적화
# H100에서 Hopper 전용 FlashAttention 활용
compiled_model = torch.compile(model, mode="max-autotune")

x = torch.randn(8, 512, 1024, dtype=torch.bfloat16, device="cuda")

# 첫 실행 시 컴파일 (수 초 소요)
with torch.autocast("cuda", dtype=torch.bfloat16):
    out = compiled_model(x)

print(f"출력 shape: {out.shape}")

비용 효율 분석 (2025년 기준 클라우드 시간당 가격)

인스턴스	GPU	시간당 가격	TFLOPS (BF16)	$/TFLOP
p4d.24xlarge	8x A100 40GB	$32.77	8 x 312 = 2,496	$13.1
p4de.24xlarge	8x A100 80GB	$40.96	8 x 312 = 2,496	$16.4
p5.48xlarge	8x H100 80GB	$98.32	8 x 1,979 = 15,832	$6.2
trn1.32xlarge	16x Trainium	$21.50	16 x 420 = 6,720	$3.2
inf2.48xlarge	12x Inferentia2	$12.98	12 x 384 = 4,608	$2.8
g6.48xlarge	8x L40S 48GB	$16.29	8 x 733 = 5,864	$2.8

추론 워크로드에서는 Inferentia 2와 Trainium이 비용 효율이 가장 높습니다.

8. 하드웨어 비교 종합표

가속기	유형	BF16 TFLOPS	메모리	대역폭	TDP	주요 용도
H100 SXM5	GPU	1,979	80GB HBM3	3.35TB/s	700W	학습/추론
H200 SXM5	GPU	1,979	141GB HBM3e	4.8TB/s	700W	대형 모델 추론
A100 SXM4	GPU	312	80GB HBM2e	2.0TB/s	400W	범용
AMD MI300X	GPU	1,307	192GB HBM3	5.3TB/s	750W	대형 모델
TPU v5e	ASIC	197 (INT8: 394)	16GB HBM	1.6TB/s	90W	대규모 추론
Cerebras WSE-3	ASIC	125,000	44GB SRAM	21PB/s	23kW/시스템	초대형 학습
Groq LPU	ASIC	750	230MB SRAM	80TB/s	300W	저지연 추론
Gaudi 3	ASIC	1,835	96GB HBM2e	3.7TB/s	900W	비용효율 학습
Inferentia 2	ASIC	384	32GB HBM	820GB/s	75W	클라우드 추론
Apple M4 ANE	엣지	38 TOPS	공유	공유	~10W	온디바이스
Hailo-8L	엣지	13 TOPS	-	-	1W	임베디드

퀴즈

Q1. NVIDIA H100의 Transformer Engine이 FP8 학습에서 정밀도를 유지하는 방법은?

정답: 동적 스케일링(Dynamic Scaling)과 혼합 정밀도 유지

설명: Transformer Engine은 각 레이어마다 활성화(activation)와 가중치(weight)의 통계(최댓값)를 추적합니다. 이를 기반으로 FP8 양자화 시 최적 스케일 팩터를 계산합니다. 순전파는 FP8로 수행하지만, 그래디언트 누적은 BF16/FP32로 유지합니다. 또한 레이어별로 수치 범위를 모니터링하여 오버플로나 언더플로 발생 시 자동으로 재스케일합니다. 이 Delayed Scaling 메커니즘 덕분에 FP8의 속도 이점을 누리면서도 BF16에 가까운 학습 안정성을 유지합니다.

Q2. Google TPU의 systolic array가 행렬 곱셈을 병렬화하는 방식은?

정답: 데이터 재사용 파이프라인 방식의 MAC 연산 배열

설명: Systolic array는 NxN 개의 MAC(Multiply-Accumulate) 유닛이 격자 형태로 배치된 구조입니다. 행렬 A의 행 데이터는 왼쪽에서 오른쪽으로, 행렬 B의 열 데이터는 위에서 아래로 흘러갑니다. 각 셀은 자신을 통과하는 두 값을 곱하고, 이전 셀의 누적값에 더합니다. 물결(systole)처럼 데이터가 흐르기 때문에 각 데이터 원소가 어레이의 모든 관련 셀을 통과하며 재사용됩니다. TPU v4의 128x128 MXU는 한 클럭 사이클당 128x128=16,384번의 MAC 연산을 수행하며, 메모리 접근 없이 온칩에서 처리합니다.

Q3. HBM이 GDDR보다 AI 학습에 유리한 이유 (대역폭 vs 용량)?

정답: 높은 대역폭과 대용량 두 가지 모두에서 우위

설명: 대역폭 측면에서 HBM3e(H200)는 4.8TB/s인 반면 GDDR7(RTX 5090)은 960GB/s로 5배 차이입니다. AI 학습은 메모리 대역폭에 민감한(bandwidth-bound) 연산이 많아 이 차이가 직접적인 성능 차이로 이어집니다. 용량 측면에서 H200의 141GB HBM3e는 RTX 5090의 32GB GDDR7 대비 4배 이상 많아, 70B 파라미터 모델을 단일 GPU에서 처리할 수 있습니다. 구조적으로 HBM은 DRAM 다이를 수직 적층하고 수천 개의 와이드 버스로 GPU와 연결하여 높은 대역폭과 에너지 효율을 동시에 달성합니다.

Q4. Cerebras WSE-3의 웨이퍼 스케일 집적이 inter-chip 통신 병목을 제거하는 원리는?

정답: 단일 웨이퍼 내 온칩 패브릭으로 모든 코어 연결

설명: 일반 GPU 클러스터에서는 수백 개의 칩이 NVLink, InfiniBand 등의 네트워크로 연결됩니다. 이 inter-chip 통신은 수 마이크로초의 지연시간과 제한된 대역폭을 가집니다. WSE-3는 900,000개의 AI 코어가 하나의 웨이퍼 위에 있어 모든 코어 간 통신이 온칩 패브릭을 통해 이루어집니다. 온칩 패브릭 지연시간은 나노초 수준이며 대역폭은 220Pb/s에 달합니다. 또한 44GB의 SRAM을 코어 근처에 분산 배치하여 메모리 접근 지연도 최소화합니다. 이 덕분에 대규모 모델 학습 시 통신 오버헤드가 거의 없어 near-linear 스케일링이 가능합니다.

Q5. LLM 추론에서 Groq LPU가 GPU보다 낮은 지연시간을 달성하는 아키텍처 결정은?

정답: 컴파일 시점의 결정론적 메모리 스케줄링

설명: GPU에서 LLM 추론 시 지연시간이 높은 주요 원인은 불규칙한 메모리 접근 패턴과 런타임 동적 스케줄링입니다. Groq LPU는 컴파일 시점에 모든 텐서의 메모리 위치와 이동 경로를 정적으로 결정합니다. 실행 중 메모리 할당/해제나 스케줄러 오버헤드가 없습니다. 또한 SRAM 기반 메모리 아키텍처로 DRAM의 불규칙한 접근 지연이 없습니다. 모든 연산이 정해진 클럭 사이클에 실행되어 지연시간이 예측 가능합니다. 이 결정론적 실행 덕분에 LLaMA-3 70B 기준 초당 240토큰 이상의 처리량과 매우 낮은 첫 토큰 생성 지연시간(TTFT)을 달성합니다.

마치며

AI 하드웨어 가속기 시장은 2024-2026년 사이 빠르게 다양화되고 있습니다. NVIDIA H100/H200이 학습 워크로드의 황금 표준이지만, 목적별 최적화된 가속기들이 특정 사용 사례에서 우위를 보입니다.

핵심 선택 원칙은 다음과 같습니다.

학습: 대역폭과 NVLink가 핵심 — H100 SXM5, TPU v4 Pod
고처리량 추론: 비용 효율 중시 — Inferentia 2, Gaudi 3, TPU v5e
저지연 추론: 결정론적 실행 — Groq LPU
엣지 배포: 전력 효율 — Apple ANE, Qualcomm Hexagon
초대형 학습: inter-chip 병목 없음 — Cerebras WSE-3

하드웨어 선택은 결국 워크로드 특성, 예산, 생태계 성숙도의 균형입니다. NVIDIA 에코시스템의 성숙도는 여전히 강력한 이점이지만, 특정 워크로드에서는 전용 ASIC이 훨씬 경제적일 수 있습니다.