Mamba vs Transformer 실무 비교: 논문에서 제품까지

Transformer의 한계와 SSM의 등장 배경
Mamba: Selective State Space Model
Mamba-2: State Space Duality
아키텍처 수준의 차이 비교
실측 벤치마크: 어디서 차이가 나는가
워크로드별 라우팅: 하나만 고르지 않는다
프로덕션 전환 시 주의할 점
- 토크나이저 호환성
- 커널/드라이버 업데이트 회귀
실전 트러블슈팅
선택을 위한 결정 프레임워크
참고 자료

Transformer의 한계와 SSM의 등장 배경

Transformer(Vaswani et al., 2017, arxiv:1706.03762)는 self-attention 메커니즘을 통해 시퀀스 내 모든 위치 간의 관계를 직접 모델링한다. 이 설계는 병렬 학습과 장거리 의존성 포착에서 혁명적이었지만, 근본적인 계산 비용 문제를 안고 있다.

시간 복잡도: self-attention은 시퀀스 길이 L에 대해 O(L^2)의 연산이 필요하다.
메모리 복잡도: KV cache는 레이어 수 x 헤드 수 x 시퀀스 길이에 비례해 증가한다.
추론 비용: autoregressive 생성 시 매 토큰마다 전체 KV cache를 참조해야 한다.

시퀀스 길이가 4K, 8K에서 128K, 1M으로 늘어나면서 이 비용은 선형적이 아니라 2차적으로 증가한다. 이것이 subquadratic 아키텍처 연구가 활발해진 배경이다.

Structured State Space Models(S4, Gu et al., 2021, arxiv:2111.00396)는 연속 시간 시스템의 이산화를 통해 시퀀스를 모델링하는 접근이다. 시간 복잡도 O(L)로 긴 시퀀스를 처리할 수 있지만, 초기 SSM은 내용 기반(content-based) 추론이 약해서 언어 모델링에서 Transformer를 따라가지 못했다.

Mamba: Selective State Space Model

Mamba(Gu & Dao, 2023, arxiv:2312.00752)는 SSM의 핵심 한계를 해결한 모델이다. 기존 SSM이 입력에 무관하게 동일한 dynamics를 적용하는 것과 달리, Mamba는 입력에 따라 SSM 파라미터(B, C, delta)를 동적으로 조절한다. 이것이 "selective" state space의 의미다.

주요 기술적 기여를 정리하면 다음과 같다.

Selection Mechanism: SSM 파라미터가 입력의 함수가 된다. 이를 통해 어떤 정보를 state에 기록하고 어떤 정보를 무시할지를 입력 내용에 따라 결정할 수 있다. Transformer의 attention이 "모든 위치를 보고 가중합을 구하는" 방식이라면, Mamba의 selection은 "어떤 정보를 state에 기록할지 입출력 게이팅하는" 방식이다.

Hardware-aware Algorithm: selection을 도입하면 기존 SSM의 효율적인 convolution 연산을 사용할 수 없게 된다. Mamba는 이를 GPU SRAM 활용에 최적화된 scan 알고리즘으로 해결한다. FlashAttention(Dao et al., 2022)의 설계 철학을 SSM에 적용한 것이다.

Simplified Architecture: attention도 MLP도 없이, selective SSM 블록만으로 전체 아키텍처를 구성한다. 레이어 수를 줄이면서도 성능을 유지한다.

Mamba-2: State Space Duality

Mamba-2(Dao & Gu, 2024, arxiv:2405.21060)는 SSM과 attention이 수학적으로 동일한 계열(semi-separable matrix)에 속한다는 것을 증명하고, 이 duality를 활용해 2-8배 빠른 알고리즘을 제안한다.

이 결과의 실무적 함의는 크다. SSM과 Transformer가 "완전히 다른 패러다임"이 아니라 같은 연산 공간의 다른 지점이라는 것은, 하이브리드 아키텍처가 이론적 근거를 가진다는 뜻이다. 실제로 Jamba(AI21, 2024)처럼 Mamba 레이어와 attention 레이어를 섞어 쓰는 모델이 등장했다.

아키텍처 수준의 차이 비교

특성	Transformer	Mamba (SSM)
핵심 연산	self-attention (Q, K, V 내적)	selective state space (입력 의존 게이팅)
시간 복잡도 (학습)	O(L^2 * d)	O(L _ d _ N), N은 state 차원
시간 복잡도 (추론/토큰)	O(L * d), KV cache 참조	O(d * N), 상수 크기 state 참조
메모리 (추론)	KV cache: O(L _ d _ layers)	hidden state: O(d _ N _ layers), L 무관
병렬 학습	높음 (attention 행렬 연산)	높음 (parallel scan)
장거리 의존성	직접 모델링 (모든 위치 참조)	state를 통한 간접 전달
생태계 성숙도	매우 높음 (CUDA, TensorRT, vLLM 등)	초기 단계 (mamba-ssm 패키지)
in-context learning	강력 (few-shot 학습의 기반)	상대적으로 약함 (연구 진행 중)

실측 벤치마크: 어디서 차이가 나는가

벤치마크 숫자를 인용할 때 주의할 점이 있다. 논문의 벤치마크는 특정 하드웨어, 특정 구현, 특정 데이터셋에서의 결과다. 직접 측정하지 않으면 자신의 환경에서 동일한 결과를 기대할 수 없다.

다음은 자체 워크로드에서 두 아키텍처를 비교하기 위한 벤치마크 프레임워크다.

"""
Mamba vs Transformer 실측 벤치마크 러너.

동일한 입력 세트에 대해 두 모델의 지연, 처리량, 메모리, 품질을
통제된 환경에서 측정한다.
"""
import time
import torch
import json
from dataclasses import dataclass, asdict
from pathlib import Path


@dataclass
class BenchmarkResult:
    model_name: str
    sequence_length: int
    batch_size: int
    # 성능 지표
    ttft_ms: float           # Time to First Token
    tps: float               # Tokens per Second (생성)
    total_latency_ms: float  # 전체 응답 지연
    # 자원 지표
    peak_vram_gb: float
    avg_vram_gb: float
    # 품질 지표 (별도 평가)
    quality_score: float = 0.0


class ModelBenchmarker:
    def __init__(self, model, tokenizer, model_name: str):
        self.model = model
        self.tokenizer = tokenizer
        self.model_name = model_name

    @torch.no_grad()
    def measure_generation(
        self,
        prompt: str,
        max_new_tokens: int = 256,
    ) -> BenchmarkResult:
        """단일 프롬프트에 대한 생성 성능을 측정한다."""
        input_ids = self.tokenizer.encode(prompt, return_tensors="pt")
        input_ids = input_ids.to(self.model.device)
        seq_len = input_ids.shape[1]

        torch.cuda.reset_peak_memory_stats()

        # TTFT 측정: 첫 토큰 생성까지의 시간
        start = time.perf_counter()
        outputs = self.model.generate(
            input_ids,
            max_new_tokens=1,
            do_sample=False,
        )
        ttft = (time.perf_counter() - start) * 1000

        # 전체 생성 측정
        torch.cuda.synchronize()
        start = time.perf_counter()
        outputs = self.model.generate(
            input_ids,
            max_new_tokens=max_new_tokens,
            do_sample=False,
        )
        total_time = (time.perf_counter() - start) * 1000

        generated_tokens = outputs.shape[1] - seq_len
        tps = generated_tokens / (total_time / 1000) if total_time > 0 else 0

        peak_vram = torch.cuda.max_memory_allocated() / (1024**3)
        current_vram = torch.cuda.memory_allocated() / (1024**3)

        return BenchmarkResult(
            model_name=self.model_name,
            sequence_length=seq_len,
            batch_size=1,
            ttft_ms=round(ttft, 2),
            tps=round(tps, 2),
            total_latency_ms=round(total_time, 2),
            peak_vram_gb=round(peak_vram, 3),
            avg_vram_gb=round(current_vram, 3),
        )

    def run_suite(
        self,
        prompts: list[str],
        max_new_tokens: int = 256,
    ) -> list[BenchmarkResult]:
        """여러 프롬프트에 대해 벤치마크를 수행하고 결과를 반환한다."""
        results = []
        for prompt in prompts:
            # GPU 캐시 정리로 측정 간 간섭 최소화
            torch.cuda.empty_cache()
            result = self.measure_generation(prompt, max_new_tokens)
            results.append(result)
        return results


def compare_models(
    results_a: list[BenchmarkResult],
    results_b: list[BenchmarkResult],
) -> dict:
    """두 모델의 벤치마크 결과를 비교 요약한다."""
    def avg(lst, field):
        values = [getattr(r, field) for r in lst]
        return sum(values) / len(values) if values else 0

    return {
        "model_a": results_a[0].model_name if results_a else "unknown",
        "model_b": results_b[0].model_name if results_b else "unknown",
        "ttft_ratio": avg(results_b, "ttft_ms") / max(avg(results_a, "ttft_ms"), 0.01),
        "tps_ratio": avg(results_b, "tps") / max(avg(results_a, "tps"), 0.01),
        "vram_ratio": avg(results_b, "peak_vram_gb") / max(avg(results_a, "peak_vram_gb"), 0.01),
        "note": "ratio > 1 means model_b uses more of the metric than model_a",
    }

워크로드별 라우팅: 하나만 고르지 않는다

실무에서 가장 현실적인 전략은 "하나를 선택"하는 것이 아니라, 요청 특성에 따라 라우팅하는 것이다.

"""
요청 특성에 따라 Transformer/Mamba 모델을 동적으로 라우팅하는 서비스.

단순한 시퀀스 길이 기준부터 시작해서, 품질 피드백을 기반으로
라우팅 정책을 점진적으로 개선한다.
"""
from dataclasses import dataclass
from enum import Enum
from typing import Protocol


class ModelType(Enum):
    TRANSFORMER = "transformer"
    MAMBA = "mamba"


@dataclass
class RoutingDecision:
    model: ModelType
    reason: str
    confidence: float  # 0.0 ~ 1.0


@dataclass
class RequestFeatures:
    sequence_length: int
    task_type: str          # "chat", "summarization", "retrieval", "coding"
    latency_budget_ms: int
    gpu_memory_gb: float
    requires_in_context_learning: bool = False


class ModelRouter:
    """규칙 기반 모델 라우터.

    초기 도입 시에는 명시적 규칙으로 시작하고,
    A/B 테스트 결과를 반영해 점진적으로 룰을 갱신한다.
    """

    # 시퀀스 길이 임계값: 이 이상이면 Mamba가 VRAM 효율적
    LONG_CONTEXT_THRESHOLD = 32_000
    # 매우 짧은 시퀀스에서는 Transformer 오버헤드가 미미
    SHORT_CONTEXT_THRESHOLD = 2_000

    def route(self, features: RequestFeatures) -> RoutingDecision:
        # 규칙 1: in-context learning이 필요하면 Transformer
        if features.requires_in_context_learning:
            return RoutingDecision(
                model=ModelType.TRANSFORMER,
                reason="In-context learning requires attention mechanism",
                confidence=0.9,
            )

        # 규칙 2: 긴 시퀀스 + 제한된 GPU 메모리 -> Mamba
        if (features.sequence_length > self.LONG_CONTEXT_THRESHOLD
                and features.gpu_memory_gb <= 24):
            return RoutingDecision(
                model=ModelType.MAMBA,
                reason=f"Seq len {features.sequence_length} exceeds {self.LONG_CONTEXT_THRESHOLD} "
                       f"with only {features.gpu_memory_gb}GB VRAM",
                confidence=0.85,
            )

        # 규칙 3: 긴 시퀀스 + 충분한 GPU -> 태스크 유형으로 판단
        if features.sequence_length > self.LONG_CONTEXT_THRESHOLD:
            if features.task_type in ("summarization", "retrieval"):
                return RoutingDecision(
                    model=ModelType.MAMBA,
                    reason="Long-context summarization/retrieval benefits from linear scaling",
                    confidence=0.7,
                )

        # 규칙 4: 짧은 시퀀스에서는 Transformer 생태계 이점 활용
        if features.sequence_length < self.SHORT_CONTEXT_THRESHOLD:
            return RoutingDecision(
                model=ModelType.TRANSFORMER,
                reason="Short sequences: Transformer ecosystem (vLLM, TensorRT) is more optimized",
                confidence=0.8,
            )

        # 기본값: Transformer (생태계 성숙도 우위)
        return RoutingDecision(
            model=ModelType.TRANSFORMER,
            reason="Default: Transformer ecosystem maturity",
            confidence=0.5,
        )

프로덕션 전환 시 주의할 점

토크나이저 호환성

모델을 교체할 때 간과하기 쉬운 것이 토크나이저 차이다. 동일한 텍스트가 모델에 따라 다른 토큰 수로 분리되므로, 비용 추정, 길이 제한, 프롬프트 설계가 모두 영향을 받는다.

def compare_tokenization(text: str, tokenizer_a, tokenizer_b) -> dict:
    """두 토크나이저의 분절 차이를 비교한다.

    모델 교체 시 토큰 수 차이가 비용과 품질에 미치는 영향을
    사전에 파악하기 위한 도구.
    """
    tokens_a = tokenizer_a.encode(text)
    tokens_b = tokenizer_b.encode(text)

    return {
        "text_length_chars": len(text),
        "tokenizer_a_count": len(tokens_a),
        "tokenizer_b_count": len(tokens_b),
        "token_ratio": len(tokens_b) / len(tokens_a) if tokens_a else 0,
        "cost_impact": f"Model B uses {len(tokens_b)/len(tokens_a)*100:.1f}% tokens vs Model A"
        if tokens_a else "N/A",
        # 한국어 등 비라틴 텍스트에서 차이가 큼
        "sample_tokens_a": tokenizer_a.convert_ids_to_tokens(tokens_a[:20]),
        "sample_tokens_b": tokenizer_b.convert_ids_to_tokens(tokens_b[:20]),
    }

커널/드라이버 업데이트 회귀

Mamba의 custom CUDA kernel은 드라이버 버전에 민감하다. NVIDIA 드라이버 업데이트 후 성능이 변하거나, 아예 kernel이 실패하는 경우가 있다.

# CI에서 모델 회귀 테스트를 자동화하는 GitHub Actions 예시
name: model-regression-gate
on:
  pull_request:
    paths:
      - 'requirements*.txt'
      - 'Dockerfile*'
      - 'configs/model_*.yaml'
  schedule:
    - cron: '0 6 * * 1' # 매주 월요일 06:00 UTC

jobs:
  regression-test:
    runs-on: [self-hosted, gpu, a100]
    steps:
      - uses: actions/checkout@v4

      - name: Install dependencies
        run: pip install -r requirements-inference.txt

      - name: Run quality benchmark
        run: |
          python scripts/benchmark.py \
            --models transformer,mamba \
            --suite production_sample \
            --output results/regression_$(date +%Y%m%d).json

      - name: Check quality gate
        run: |
          python scripts/check_regression.py \
            --results results/regression_$(date +%Y%m%d).json \
            --min-quality 0.82 \
            --max-p95-latency-ms 900 \
            --max-vram-gb 24

      - name: Upload results
        if: always()
        uses: actions/upload-artifact@v4
        with:
          name: regression-results
          path: results/

실전 트러블슈팅

OOM: 긴 컨텍스트에서 메모리 부족

증상: torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 4.00 GiB

원인 분석: Transformer에서 128K 컨텍스트를 처리할 때, KV cache만으로 수십 GB를 소모한다. 예를 들어 70B 모델, 80 layer, 64 head, head_dim=128이면: 80 * 64 * 128K * 128 * 2(K,V) * 2(fp16) = 약 167GB

대응 방안:

chunked prefill: 입력을 chunk 단위로 나눠 순차 처리. vLLM의 enable_chunked_prefill=True 옵션.
KV cache quantization: FP16 -> INT8/INT4로 KV cache를 양자화. vLLM 0.4+에서 지원.
Mamba 대체: 동일 입력에서 Mamba는 state 크기가 시퀀스 길이에 무관하므로 OOM이 발생하지 않을 수 있다. 단, 품질 검증 필수.

벤치마크와 실서비스 성능 괴리

증상: 논문/벤치마크에서 Mamba가 5x 빠르다고 했는데, 실제 서비스에서는 Transformer와 차이가 미미하다.

원인 분석:

벤치마크는 batch_size=1, 최적 시퀀스 길이에서 측정. 실서비스는 동시 요청이 많고 시퀀스 길이가 다양하다.
Transformer는 vLLM, TensorRT-LLM 등의 고도로 최적화된 서빙 프레임워크가 있지만, Mamba는 아직 이런 수준의 서빙 인프라가 부족하다.
continuous batching, paged attention 등 Transformer 전용 최적화가 서빙 효율을 크게 높인다.

대응 방안: synthetic benchmark가 아니라, 실제 production log에서 추출한 요청 분포로 벤치마크를 재실행한다. 동시 요청 수, 시퀀스 길이 분포, 배치 크기를 실서비스와 동일하게 맞춘다.

지연 분산 급등

증상: p50은 정상인데 p99가 평소의 5배로 튄다.

원인 분석: GPU 클러스터에서 다른 워크로드와 GPU를 공유하면, compute preemption으로 인해 간헐적 지연이 발생한다. 특히 Mamba의 custom kernel은 SM(Streaming Multiprocessor) 점유율이 높아서 간섭에 민감하다.

대응 방안:

inference 워크로드 전용 GPU 노드를 분리한다(MIG 또는 dedicated node pool).
동시 요청 상한(max concurrency)을 두어 GPU utilization이 95%를 넘지 않도록 한다.
p99 지연 경보를 설정하고, 임계값 초과 시 자동으로 요청을 다른 노드로 라우팅한다.

선택을 위한 결정 프레임워크

최종 선택은 기술적 우열이 아니라 워크로드와 조직 상황의 함수다.

[시작]
  |
  v
시퀀스 길이가 주로 32K 이상인가? ──No──> Transformer 유지
  |                                        (생태계 이점이 압도적)
 Yes
  |
  v
GPU 메모리가 충분한가 (>=80GB)? ──Yes──> Transformer + chunked prefill
  |                                        (품질 확보가 우선이면)
  No
  |
  v
in-context learning이 핵심인가? ──Yes──> Transformer (작은 모델 + 긴 컨텍스트)
  |                                        또는 Jamba 같은 하이브리드
  No
  |
  v
품질 요구가 "Transformer 수준"인가? ──Yes──> 하이브리드 (Mamba + Attention layers)
  |
  No (약간의 품질 트레이드오프 허용)
  |
  v
Mamba 도입 후 A/B 테스트로 검증

참고 자료

Vaswani et al., "Attention Is All You Need", 2017 -- arxiv:1706.03762
Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", 2023 -- arxiv:2312.00752
Dao & Gu, "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality", 2024 -- arxiv:2405.21060
Gu et al., "Efficiently Modeling Long Sequences with Structured State Spaces (S4)", 2021 -- arxiv:2111.00396
Dao et al., "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness", 2022 -- arxiv:2205.14135
Mamba GitHub repository -- github.com/state-spaces/mamba
vLLM documentation -- docs.vllm.ai
PyTorch MultiheadAttention -- pytorch.org/docs

퀴즈

Mamba의 "selective"가 기존 SSM과 구별되는 핵심 차이는 무엇인가? 정답: ||기존 SSM은 입력에 무관하게 동일한 dynamics(A, B, C 행렬)를 적용하지만, Mamba는 입력에 따라 B, C, delta 파라미터를 동적으로 조절한다. 이를 통해 내용 기반 추론(content-based reasoning)이 가능해진다.||
Transformer 추론 시 KV cache의 메모리 복잡도는? 정답: ||O(L x d x layers x 2). 시퀀스 길이(L)에 비례하여 선형 증가한다. 128K 컨텍스트의 70B 모델에서는 KV cache만 100GB 이상을 소모할 수 있다.||
Mamba-2의 State Space Duality가 실무적으로 의미하는 바는? 정답: ||SSM과 attention이 semi-separable matrix라는 같은 수학적 구조의 다른 형태임을 보여준다. 이는 Mamba 레이어와 attention 레이어를 혼합한 하이브리드 아키텍처에 이론적 근거를 제공한다.||
짧은 시퀀스(2K 이하)에서도 Mamba가 유리한 경우가 있는가? 정답: ||거의 없다. 짧은 시퀀스에서는 Transformer의 O(L^2) 비용이 미미하고, vLLM/TensorRT 등 고도로 최적화된 서빙 인프라가 Mamba보다 월등히 성숙하다. Mamba의 이점은 긴 시퀀스에서 나타난다.||
모델 교체 시 토크나이저 차이를 무시하면 어떤 문제가 발생하는가? 정답: ||동일 텍스트의 토큰 수가 달라져서 비용 추정이 틀어지고, max_tokens 제한의 실효성이 변하며, 프롬프트 내 few-shot 예시의 위치/비율이 의도와 달라질 수 있다. 특히 한국어 등 비라틴 언어에서 차이가 크다.||
벤치마크에서 Mamba가 5x 빠른데 실서비스에서 차이가 미미한 원인은? 정답: ||벤치마크는 batch_size=1, 최적 조건에서 측정하지만, 실서비스는 continuous batching, paged attention 등 Transformer 전용 서빙 최적화가 적용되어 있다. Mamba는 아직 이런 수준의 서빙 인프라가 부족하다.||
두 모델을 동시에 운영할 때의 라우팅 기준으로 가장 실용적인 첫 번째 변수는? 정답: ||시퀀스 길이. 32K 이상의 긴 컨텍스트는 Mamba로, 짧은 컨텍스트는 Transformer로 라우팅하는 것이 가장 단순하고 효과적인 출발점이다.||
GPU 드라이버 업데이트 후 Mamba 성능이 저하될 때 가장 먼저 확인해야 할 것은? 정답: ||Mamba의 custom CUDA kernel 호환성. mamba-ssm 패키지가 새 드라이버/CUDA 버전에 맞게 recompile되었는지, 그리고 kernel launch configuration이 새 GPU 아키텍처에서 정상 동작하는지 확인해야 한다.||