💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 2026년 모델 아키텍처가 다시 흥미로워진 이유

2017년 6월 Vaswani 외 8인이 NeurIPS에 제출한 "Attention is All You Need"는 RNN과 CNN을 거의 한 세대 만에 시퀀스 모델 무대에서 밀어냈다. 그 후 7년간 우리는 거의 모든 LLM, 비전 트랜스포머, 음성 모델, 단백질 모델까지 Transformer 한 가지 구조 위에서 굴렸다.

그러나 2023년 12월 Albert Gu와 Tri Dao가 Mamba를 공개한 뒤, 풍경이 바뀌었다. 2024년 한 해 동안 Mamba 2, Jamba, xLSTM, Falcon Mamba 7B, Test-Time Training, Mixture of A Million Experts, Flash Attention 3가 줄지어 나왔다. 2025년에는 DeepSeek-V3의 671B MoE가 등장하면서 "Transformer는 끝이 아니라 출발점이었구나"라는 인식이 굳어졌다.

이 글은 2026년 5월 시점에서 **여전히 Transformer가 표준이지만, 그 주변에 무엇이 자랐는지** 지도를 그린다. 학술 논문이 아니라 엔지니어의 시선으로 — 누가 어떤 문제를 풀고, 누가 어떤 모델을 골라야 하는지에 집중한다.

1장 · 2026년 아키텍처 지도 — 네 진영

거칠게 네 묶음으로 나누면 다음과 같다.

| 진영 | 대표 | 핵심 아이디어 |

| --- | --- | --- |

| Transformer 정통 | GPT-4, Claude 4.7, Gemini 2.5, Llama 4 | Self-attention. 표현력 최강, 비용 가장 비쌈 |

| 상태공간 / 선형 RNN | Mamba, Mamba 2, RWKV, RetNet, Griffin, xLSTM | 시퀀스 길이에 선형. 추론이 싸다 |

| 하이브리드 | Jamba, Griffin, Zamba, Recurrent Gemma | SSM + Attention 섞어서 양쪽 장점 |

| 희소 / MoE | Mixtral 8x7B, DeepSeek-V3 671B, Google Million Experts | 파라미터는 크고 활성은 적게 |

여기에 **직교축**으로 두 가지가 더 있다.

- **DiT(Diffusion Transformer)** 같은 이미지·영상 생성 아키텍처 — OpenAI Sora의 기반.

- **장문 컨텍스트 알고리즘** — Flash Attention 3, Ring Attention, Gemini 2M, Magic LTM-2-mini 100M.

세 축을 함께 보는 그림은 다음과 같다.

표현력 강함

│

Transformer ────┼──── DiT (이미지/영상)

(GPT, Claude) │

│

하이브리드 (Jamba, Griffin)

│

Mamba 2 ────────┼──── RWKV, RetNet

(Linear time) │

│

추론 비용 싸짐

핵심 메시지 — **2026년에는 "모든 작업에 Transformer 한 가지" 시대가 끝났다.** 작업 성격에 따라 SSM·MoE·하이브리드를 섞어 쓴다.

2장 · Transformer (Vaswani 2017) — 여전한 표준

논문: Vaswani et al., "Attention is All You Need", NeurIPS 2017. arXiv:1706.03762.

핵심은 **scaled dot-product attention**. 입력 시퀀스 X에서 Query·Key·Value 세 행렬을 만들고, Q와 K의 내적을 정규화한 뒤 softmax로 가중치를 만든다. 그 가중치를 V에 적용한다.

수식 한 줄로는 (블록 수식):

\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right) V

좋은 점:

- **모든 토큰 쌍을 직접 본다.** 거리에 상관없이 의존성을 학습.

- **완전히 병렬화된다.** RNN처럼 순차 의존이 없다 — TPU/GPU에서 쭉 펴서 곱한다.

- **귀납적 편향이 거의 없다.** 충분한 데이터를 주면 무엇이든 학습.

나쁜 점:

- **시퀀스 길이 N에 대해 시간/메모리 모두 O(N²).** 4K → 32K → 128K로 늘릴수록 폭발.

- **KV cache가 추론을 잡아먹는다.** 디코딩 한 토큰당 모든 과거 K/V를 다시 읽는다.

- **귀납적 편향이 없다는 게 양날의 검.** 적은 데이터 환경에선 SSM/CNN보다 나쁘다.

2026년 현재 GPT-4o, Claude 4.7, Gemini 2.5, Llama 4, Mistral Large 2, Qwen 3 — 모두 여전히 Transformer 기반이다. 다만 안에는 RoPE, Grouped Query Attention, SwiGLU, RMSNorm, Flash Attention 3 같은 후속 부품으로 채워져 있다.

3장 · Flash Attention 3 (Tri Dao 2024.7) — Transformer 가속의 끝판왕

Flash Attention 시리즈는 Stanford의 Tri Dao가 주도한다.

- **Flash Attention 1** (May 2022, NeurIPS 2022): tiling + recomputation으로 메모리 O(N²) → O(N).

- **Flash Attention 2** (Jul 2023): 워크 분할을 head/seq 축으로 다시 짜서 약 2배 빨라짐.

- **Flash Attention 3** (Jul 2024): H100의 비동기 Tensor Core와 FP8를 활용해 또 1.5~2배.

핵심 아이디어는 항상 같다 — **softmax(QK^T)V를 한 큰 행렬로 쓰지 않고, 블록 단위로 SRAM에서 처리한 뒤 누적한다.** 메모리 대역폭이 보틀넥이라는 사실을 받아들이고 IO 최적화를 한다.

개념적 의사코드 (실제는 CUDA/CUTLASS)

def flash_attention(Q, K, V, block_size=128):

out = zeros_like(Q)

row_max = full(Q.shape[:-1], -inf)

row_sum = zeros(Q.shape[:-1])

for j in range(0, K.shape[0], block_size):

Kj = K[j:j+block_size]

Vj = V[j:j+block_size]

SRAM 안에서 부분 attention 계산

Sij = Q @ Kj.T / sqrt(d_k)

new_max = maximum(row_max, Sij.max(-1))

online softmax 업데이트

...

return out

Flash Attention 3는 H100에서 BF16 기준 약 740 TFLOPS, FP8에서 약 1.2 PFLOPS를 낸다 — 이론 한계의 75% 수준이다. 2026년 H200/B200에서도 동일 패턴이 굴러간다.

엔지니어 관점에서 — **PyTorch 2.x의 SDPA가 Flash Attention 3를 자동으로 호출한다.** 별도 통합이 필요 없다. Llama 4, Claude 4.7 같은 큰 모델들이 모두 이 위에 서 있다.

4장 · Ring Attention — long context 처리

Liu et al., "Ring Attention with Blockwise Transformers for Near-Infinite Context", 2023. arXiv:2310.01889.

문제: 한 GPU에 KV cache가 안 들어가는 1M+ 토큰 컨텍스트는 어떻게 처리하나?

답: 시퀀스를 GPU들 사이에 잘라서 나누고, K/V 블록을 GPU 링 위로 순환시킨다. 각 GPU는 자기 Q에 대해 모든 K/V를 한 번씩 본다 — 단, 한 번에 한 블록만.

GPU0 ──▶ GPU1 ──▶ GPU2 ──▶ GPU3

▲ │

└────────────────────────────┘

각 GPU는 Q를 가만히 두고,

K/V 블록을 시계방향으로 패스.

네 번 돌면 모든 GPU가 모든 K/V를 본 셈.

장점은 GPU 수에 따라 컨텍스트 길이가 거의 선형으로 늘어난다는 것이다. Gemini 1.5 Pro가 2024년 1M 토큰 컨텍스트를 처음 데모했을 때, Ring Attention 류의 분산 전략이 핵심이라고 알려졌다. 2026년에는 Gemini 2.5가 2M까지 늘렸다.

비슷한 흐름의 다른 기법들:

- **StreamingLLM** (Xiao et al., 2023): attention sink로 KV cache 크기 제한.

- **YaRN** (Peng et al., 2023): RoPE 보간으로 학습 길이 너머 확장.

- **LongRoPE** (Microsoft, 2024): 2M 토큰 RoPE 확장.

5장 · Mamba (Albert Gu + Tri Dao 2023.12) — S6 상태공간 모델

논문: Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", Dec 2023. arXiv:2312.00752.

이 논문이 2024년 머신러닝 커뮤니티를 흔든 이유 — Transformer 수준의 언어 모델 성능을 **시퀀스 길이에 선형**으로 얻을 수 있다는 것을 처음으로 명료하게 보였기 때문이다.

상태공간 모델(SSM)의 본질은 연속 시간 동역학에서 출발한 다음 이산화하는 것. 한 줄 요약:

h_t = A h_{t-1} + B x_t, \quad y_t = C h_t

이 식만 보면 RNN이지만, S4/S6는 두 가지 트릭으로 GPU 친화적으로 만들었다.

1. **A를 특수한 구조(HiPPO, diagonal-plus-low-rank)로 잡아 안정성과 표현력 확보.**

2. **시퀀스 차원에서 병렬 스캔(parallel scan)으로 학습.**

Mamba(S6)의 결정적 추가:

- **선택(selection)**: A, B, C, step size를 입력 의존적으로 만들었다. 즉, 토큰마다 동역학이 달라진다.

- **selective scan 커널**: 입력 의존 SSM은 일반적인 컨볼루션으로 풀 수 없다. 그래서 Triton/CUDA로 직접 짠 selective scan 커널을 함께 공개.

개념 의사코드 — 실제 mamba-ssm 패키지의 selective_scan 호출

from mamba_ssm import Mamba

model = Mamba(

d_model=2560,

d_state=16, # SSM 상태 차원

d_conv=4, # 1D conv 커널

expand=2,

).cuda()

x = torch.randn(2, 8192, 2560).cuda() # batch, seq, dim

y = model(x) # (2, 8192, 2560) — 8K 토큰을 선형 시간에

Mamba가 가진 의미:

- 시퀀스 길이 N에 대해 **학습 O(N), 추론 O(1)/토큰**.

- KV cache 없음 — 모든 과거는 상태 h에 압축.

- 1.4B 규모에서 Pythia-1.4B와 비슷하거나 더 좋은 zero-shot 성능.

한계도 분명:

- 인-컨텍스트 검색(in-context retrieval)이 약하다. "이 표에서 X 행 Y 열 값은?" 같은 정확 매칭에서 Transformer가 낫다.

- 70B 이상 규모에서는 아직 충분한 검증이 부족하다.

6장 · Mamba 2 (2024.5) — SSM과 attention의 통일

논문: Dao & Gu, "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality", May 2024. arXiv:2405.21060.

Mamba 2의 핵심 통찰은 **상태공간 모델과 self-attention이 같은 추상의 두 얼굴**이라는 것이다. 저자들이 SSD(Structured State Space Duality)라고 부른다.

수학적 골자:

- SSM은 1-semiseparable 행렬을 통한 시퀀스 변환.

- linear attention은 같은 종류의 행렬을 다른 파라미터화로 표현.

- 둘 다 더 일반적인 SSD 프레임 안에 들어간다.

실용적 결과:

- **2~8배 더 빠른 학습.** A를 더 큰 헤드 차원으로 잡아 matmul 친화적인 알고리즘.

- **GQA(Grouped Query Attention)와의 호환.** Transformer 가속 기법이 그대로 적용.

- 같은 파라미터로 Mamba 1보다 perplexity 1~3% 개선.

from mamba_ssm import Mamba2

model = Mamba2(

d_model=2560,

d_state=128, # Mamba 1보다 훨씬 큰 상태

headdim=64, # head 차원 도입

expand=2,

).cuda()

Mamba 2는 같은 시기에 나온 **Linear Attention, RetNet, RWKV-6, Griffin, GLA 등이 사실은 모두 SSD의 특수 케이스**라는 점도 정리했다. 이 진영의 연구를 정렬해 준 매우 중요한 페이퍼다.

7장 · Hyena (Stanford) — Linear time 대안

논문: Poli et al., "Hyena Hierarchy: Towards Larger Convolutional Language Models", ICML 2023. arXiv:2302.10866.

Stanford 그룹(같은 그룹에서 H3, Hyena, Mamba가 모두 나옴)이 attention을 **암시적 긴 컨볼루션 + 게이팅**으로 갈음한 시도. FFT 기반으로 O(N log N) 시간에 계산.

Hyena 연산자 의사코드:

데이터 형식: x: (batch, seq, dim)

v: value (linear projection of x)

h: 학습 가능한 긴 필터 (각 채널마다)

일련의 gating g1, g2, ...

def hyena_operator(x):

v = linear(x)

h = filter_mlp(positions) # 위치 임베딩 → 긴 필터

y = fft_conv(v, h) # FFT 기반 convolution: O(N log N)

g = sigmoid(linear(x)) # 게이트

return g * y

장점은 매우 긴 시퀀스에서 attention보다 빠르다는 것. 단점은 Mamba 같은 selective 메커니즘이 없어서 정보 라우팅이 덜 유연하다는 것. 2024년 이후 Hyena는 Mamba 계열에 자리를 많이 내줬지만, Stanford의 H3, Hyena Filter, Striped Hyena 같은 후속 모델이 hybrid에서 계속 쓰인다.

8장 · RWKV (Bo Peng) — 재발견된 RNN

웹사이트: rwkv.com. 논문: Peng et al., "RWKV: Reinventing RNNs for the Transformer Era", EMNLP 2023. arXiv:2305.13048.

Bo Peng(Discord 닉네임 BlinkDL)이 거의 1인 프로젝트로 시작한 모델. 이름의 의미는 **R**eceptance · **W**eight · **K**ey · **V**alue. 핵심 아이디어 — **학습 시에는 Transformer처럼 병렬로, 추론 시에는 RNN처럼 순차적으로** 같은 함수를 표현.

수식 골자는 "time-mixing"과 "channel-mixing" 블록이다.

입력 x_t

│

▼

time-mixing ──▶ R, W, K, V 결정. 가중 합 = RWKV.

│

▼

channel-mixing ──▶ 채널 간 정보 섞기 (1D conv-like)

│

▼

출력 y_t

매력적인 점:

- KV cache 없음 — 상태가 고정 크기.

- 매우 빠른 토큰당 디코딩.

- 100% 오픈소스. 학습 데이터와 코드를 모두 공개.

2024~2025년 진행:

- **RWKV-5 "Eagle"** — 행렬 값 상태로 확장.

- **RWKV-6 "Finch"** — Mamba 같은 selective dynamics 도입.

- **RWKV-7 "Goose"** — 7B 규모로 Llama 3와 경쟁.

리눅스 재단 산하 RWKV Foundation이 거버넌스를 맡고 있다. 한국·일본 커뮤니티도 활발하다.

9장 · RetNet (Microsoft) — Retentive Networks

논문: Sun et al., "Retentive Network: A Successor to Transformer for Large Language Models", Jul 2023. arXiv:2307.08621.

Microsoft Research Asia의 응답. RetNet은 "retention" 메커니즘을 세 가지 형식으로 동시에 표현할 수 있다는 게 매력.

- **Parallel form** — 학습 시 한 번에 모든 토큰 처리. softmax 대신 exponential decay 마스크.

- **Recurrent form** — 추론 시 상태 1개로 토큰별 처리. O(1)/토큰.

- **Chunkwise form** — 긴 컨텍스트에 청크 단위로 처리.

이 "세 얼굴(triple representation)"이 Mamba 2의 SSD와도 가족 관계다.

학습: parallel ──▶ GPU 가득 채워서 계산

추론: recurrent ──▶ 토큰당 상태 1개

긴 입력: chunkwise ──▶ 청크 단위 효율

후속 작업: Microsoft의 **YOCO**(You Only Cache Once, 2024)와 **DiffTransformer**(2024)가 RetNet의 아이디어를 흡수하면서 발전 중이다.

10장 · Griffin (DeepMind) — gated linear RNN

논문: De et al., "Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models", Feb 2024. arXiv:2402.19427.

DeepMind의 답. Griffin의 핵심 부품은 **RG-LRU(Real-Gated Linear Recurrent Unit)**이라는 RNN 블록과 **로컬 attention(슬라이딩 윈도우)**을 섞은 것.

Griffin 블록 = RG-LRU (선형 RNN) + Local Attention (sliding window)

저자들이 강조한 점:

- TPU/GPU에서 효율적인 학습 (Mamba와 비슷한 속도).

- 긴 컨텍스트에서 Mamba보다 안정.

- Llama 7B/13B 수준에서 perplexity와 다운스트림 성능 동등 이상.

같은 논문 2부에 등장한 **Hawk**는 attention을 완전히 빼고 RG-LRU만 쓴 버전이다.

2024년 4월 DeepMind는 Hugging Face와 함께 **RecurrentGemma**라는 Griffin 기반 오픈모델을 공개했다. 2B 파라미터로 Gemma 2B와 동등하면서 추론이 훨씬 싸다.

11장 · S5 (Stanford) — 개선된 상태공간

논문: Smith et al., "Simplified State Space Layers for Sequence Modeling", ICLR 2023. arXiv:2208.04933.

S4(Albert Gu 박사 논문, 2021)의 후속. S4가 SISO(single-input single-output) SSM을 여러 채널 적층하는 방식이었다면, S5는 한 번에 MIMO(multi-input multi-output)로 모든 채널을 함께 다룬다.

이점:

- 더 작은 hidden state로 같은 표현력.

- 병렬 스캔 한 번에 모든 채널 처리 — GPU 친화적.

- Long Range Arena 벤치마크에서 모든 task 90%+ 정확도(Path-X 포함).

S5는 다른 SSM 변형(LRU, GSS, MEGA 등)과 함께 Mamba/Mamba 2가 자리잡기 전 1~2년을 채워준 연구다. 2026년에도 시계열 모델(예: TimeMixer)이 S5 위에 서 있는 경우가 많다.

12장 · Linear Attention — Schmidhuber 계보

Schmidhuber 그룹의 Schlag, Irie, Schmidhuber, "Linear Transformers Are Secretly Fast Weight Programmers", ICML 2021. arXiv:2102.11174. 그리고 Katharopoulos et al., "Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention", ICML 2020. arXiv:2006.16236.

기본 아이디어 — softmax(QK^T)V를 풀어쓰면 두 개의 정규화 항이다. softmax를 비음수 feature map φ로 갈음하면:

\text{Attention}(Q, K, V)_i = \frac{\phi(Q_i)^{\top} \sum_j \phi(K_j) V_j^{\top}}{\phi(Q_i)^{\top} \sum_j \phi(K_j)}

분모 분자의 합을 누적해서 들고 다니면 토큰당 O(1)에 갱신 가능. 결과는 RNN — Katharopoulos 논문 제목 그대로 "Transformer는 사실 RNN이었다".

후속: GLA(Gated Linear Attention, 2024), DeltaNet, RWKV의 매트릭스 변형 모두 이 가족이다. Mamba 2의 SSD 프레임이 이 모두를 한 우산 아래 묶어냈다.

13장 · xLSTM (Sepp Hochreiter, 2024.5) — LSTM의 부활

논문: Beck et al., "xLSTM: Extended Long Short-Term Memory", May 2024. arXiv:2405.04517.

Sepp Hochreiter는 1997년 LSTM의 원저자다. xLSTM은 그의 그룹이 "LSTM을 LLM 시대에 맞춰 살려 보자"는 시도.

두 가지 새 블록:

- **sLSTM** — 스칼라 메모리, 새 exponential 게이트.

- **mLSTM** — 행렬 메모리, 병렬화 가능한 covariance update.

핵심 트릭은 **exponential gating**과 **memory mixing**이다. LSTM의 한계였던 (1) 정보 저장 용량과 (2) 병렬 학습 어려움을 둘 다 노린다.

xLSTM 블록 = mLSTM (행렬 메모리, 병렬) + sLSTM (스칼라, exponential gate)

Hochreiter 그룹은 7B xLSTM이 Llama 2 7B / Mamba 1.4B 와 경쟁할 수 있다고 보고했다. 2024~2025년 EU 권역의 NXAI/Linz가 상용 모델을 만들고 있고, Sakana AI도 영감을 받은 변형 연구가 있다.

14장 · Jamba (AI21, 2024.3) — Mamba + Transformer hybrid

논문: AI21 Labs, "Jamba: A Hybrid Transformer-Mamba Language Model", Mar 2024. arXiv:2403.19887.

이스라엘의 AI21 Labs가 공개한 **하이브리드 오픈 모델**. 의미가 크다 — 큰 규모(52B 파라미터, 12B active MoE)에서 SSM+Transformer 결합을 처음 본격적으로 보여줬다.

블록 패턴: 매 8 레이어 중 1 레이어만 attention, 나머지는 Mamba. 거기에 매 2 레이어마다 MoE.

[Mamba] [Mamba] [Mamba] [Attn+MoE] [Mamba] [Mamba] [Mamba] [Attn+MoE] ...

장점:

- 256K 토큰 컨텍스트를 단일 80GB H100에 — Transformer 같은 크기로는 불가능.

- 추론 시 KV cache가 매우 작아 처리량 3배.

- 같은 perplexity에서 Llama 2 70B보다 약 2.5배 빠름.

후속: **Jamba 1.5 Mini/Large**(2024.8), **Jamba 1.6**(2025) — 한층 다듬어진 버전. NVIDIA의 Hymba와 IBM의 Bamba가 비슷한 패턴을 따랐다.

15장 · Falcon Mamba 7B (2024.8) — UAE가 만든 순수 SSM

기관: TII(Technology Innovation Institute), 아부다비.

2024년 8월 공개. **Mamba 아키텍처로 학습된 첫 7B 규모 일반 언어 모델**. 그동안 SSM 진영의 1.5B/2.7B에서 멈춰 있던 규모를 한 단계 끌어올렸다.

특징:

- Attention 0개, Mamba 블록만으로 학습.

- 5.5T 토큰 — Llama 3와 비슷한 학습 예산.

- MMLU 등 벤치마크에서 Llama 3 7B, Mistral 7B와 동등.

- Hugging Face에 가중치 공개, Apache 2.0.

TII는 그 후 Falcon Mamba를 Jamba 같은 하이브리드로도 확장해 비교 연구를 했다. SSM 진영이 "장난감" 단계를 벗어났다는 신호.

16장 · Test-Time Training (Sun et al, 2024.7) — 추론 중에도 학습

논문: Sun et al., "Learning to (Learn at Test Time): RNNs with Expressive Hidden States", Jul 2024. arXiv:2407.04620.

TTT의 핵심 아이디어 — **hidden state 자체를 작은 학습 가능한 모델**로 만들고, 추론 시 시퀀스를 흘려보내면서 그 모델의 파라미터를 SGD로 업데이트한다.

입력 토큰 ──▶ inner-loop SGD ──▶ hidden state(작은 MLP)의 가중치 갱신

│

▼

출력 토큰 예측

장점:

- 매우 긴 컨텍스트에서 정보를 RNN 상태보다 훨씬 잘 압축.

- 인-컨텍스트 학습이 자연스럽게 일어남 — 명시적인 inner update이므로.

- Mamba와 동일한 선형 시간 추론.

저자(Yu Sun, Tatsunori Hashimoto 등 Stanford/CMU 공동)는 7B 모델까지 학습해 Mamba 2 7B와 견줄 만한 성능을 보고했다. 2025~2026년 TTT 변형(TTT-MLP, TTT-Linear, TTT-Hash)이 계속 나오는 중.

17장 · DiT (Diffusion Transformer) — Sora의 기반

논문: Peebles & Xie, "Scalable Diffusion Models with Transformers", ICCV 2023. arXiv:2212.09748.

UC Berkeley의 William Peebles와 Saining Xie가 제안. 디퓨전 모델의 backbone을 U-Net(Stable Diffusion까지의 표준)에서 **Transformer로 바꿔도 더 잘 된다**는 결과. 핵심 부품:

- 이미지를 패치로 토큰화.

- AdaLN-Zero — diffusion timestep과 조건을 LayerNorm scale/shift로 주입.

- 표준 Transformer 블록.

이미지 ──▶ patch embedder ──▶ [DiT block] × N ──▶ noise prediction

│

▼

condition (timestep, class, text)

DiT의 의미는 **OpenAI Sora(2024.2)**, Stable Diffusion 3, Flux, Lumina-T2X 등 2024~2026년의 거의 모든 SOTA 영상·이미지 생성 모델이 DiT 패턴을 따른다는 데 있다. 비디오에서는 시공간 패치(spatio-temporal patches)를 토큰으로 본다.

2026년 변형:

- **PixArt-Σ** — 효율적 DiT, 모바일까지.

- **HunyuanDiT, CogVideoX** — 중국계.

- **MovieGen, Veo 2, Sora 2** — 미국 빅테크.

- **Stable Video Diffusion 2** — Stability AI.

18장 · MoE — Mixtral / DeepSeek-V3 / Million Experts

MoE(Mixture of Experts)는 1991년 Jacobs et al. "Adaptive Mixtures of Local Experts"까지 거슬러 올라간다. 2017년 Shazeer et al.의 Sparsely-Gated MoE로 다시 살아났고, 2023~2025년 LLM의 주류가 됐다.

핵심 — **파라미터는 많이, 활성화는 적게.** FFN을 N개의 expert로 분리하고, 토큰마다 그중 k개만 켠다.

대표 모델 비교:

| 모델 | 총 파라미터 | 활성 파라미터 | 출시 |

| --- | --- | --- | --- |

| Switch Transformer | 1.6T | ~7B | 2021 (Google) |

| Mixtral 8x7B | 47B | 13B | 2023.12 (Mistral) |

| Mixtral 8x22B | 141B | 39B | 2024.4 |

| DBRX | 132B | 36B | 2024.3 (Databricks) |

| DeepSeek-V3 | 671B | 37B | 2024.12 (DeepSeek) |

| DeepSeek-R1 | 671B | 37B | 2025.1 (reasoning 변형) |

| Qwen3-235B | 235B | 22B | 2025 |

**DeepSeek-V3**(2024.12)의 임팩트는 엄청났다. 671B 총 파라미터지만 37B만 활성, 14.8T 토큰 학습에 H800 약 280만 GPU-시간, 즉 500만 달러 수준으로 GPT-4 급 성능. MoE 라우팅에서 보조 손실 없이 부하 분산을 하는 **auxiliary-loss-free balancing**과 **Multi-head Latent Attention(MLA)**가 핵심 기여.

**Mixture of A Million Experts** (DeepMind PEER, Aug 2024). He et al., "Mixture of A Million Experts", arXiv:2407.04153. Product key memory로 1M 개 expert를 사실상 dictionary lookup으로 라우팅. 미래의 sparse 모델이 어디로 가는지 보여주는 연구.

19장 · Long context — Gemini 2M / Magic LTM-2-mini 100M

2024~2026년의 또 다른 거대 흐름은 **컨텍스트 길이의 폭발**.

2023: Claude 2: 100K, GPT-4: 32K

2024: Gemini 1.5 Pro: 1M, Claude 3: 200K

2024.8: Magic LTM-2-mini: 100M (1억) 토큰

2025: Gemini 2.5: 2M, Claude 4: 200K

2026: 많은 모델이 1M+ 표준

긴 컨텍스트를 가능케 한 기술 스택:

- **알고리즘**: Flash Attention 3, Ring Attention, PagedAttention(vLLM), StreamingLLM.

- **위치 임베딩**: RoPE → YaRN → LongRoPE → NTK-aware scaling.

- **아키텍처**: SSM 하이브리드(Jamba, Hymba)가 일반 Transformer보다 메모리 측면에서 유리.

- **데이터**: long-context fine-tuning, "needle in a haystack" 평가.

**Magic LTM-2-mini**(2024.8)는 약간 다른 흐름. 100M 컨텍스트를 위해 attention이 아닌 **새 시퀀스 아키텍처**(LTM, Long-Term Memory)를 발표. 100M 토큰 needle-in-a-haystack에서 거의 완벽한 회수율을 보고했다. 자세한 아키텍처는 비공개지만, SSM과 hash 기반 retrieval의 결합으로 알려져 있다.

20장 · 한국 — 카카오 브레인 / 네이버 HyperCLOVA X / KAIST

한국 진영도 빠르게 따라가고 있다.

- **네이버 HyperCLOVA X(HCX)**. 2024년 HCX-Seed가 공개됐고, 2025년 HCX-Speech, HCX-Vision 등 멀티모달 확장. 내부적으로는 Llama 3 계열 Transformer를 한국어/일본어로 튜닝한 변종 + 자체 학습 모델을 병행. 2025년 HCX-3.5는 MoE 구조를 일부 도입했다고 공개.

- **카카오 브레인 KoGPT, mini.kanana**. Stable Diffusion 한국어 파인튜닝과 카카오톡 통합. 2024년 KoChat 7B/30B 공개, 2025년에는 사내 멀티모달 어시스턴트 카나나(kanana).

- **KAIST AI**. Edward Choi 그룹의 의료 LLM, Sung Ju Hwang 그룹의 효율 학습, Se-Young Yun 그룹의 distillation 등. 2025년 KAIST가 주도한 SAIDA(Sparse Attention via Importance Distillation) 같은 효율 attention 연구.

- **업스테이지 Solar**, **NCSOFT VARCO**, **LG AI Research EXAONE 3.5/4.0**. 모두 Transformer 기반.

- **사이오닉AI**, **노타** — on-device 압축/양자화.

한국 진영의 특징은 (1) 한국어/일본어 토크나이저 최적화, (2) on-device·엣지 추론에 강한 압축, (3) 의료·법률 같은 도메인 특화 — 이 셋이다. 순수 SSM 연구는 아직 학계 중심.

21장 · 일본 — Sakana AI / NTT Tsuzumi / ELYZA / PFN

일본 진영도 흥미로운 시기.

- **Sakana AI**(2023 도쿄, 데이비드 하 + 라이언 호이브카). 진화 알고리즘 기반 **evolutionary model merging**으로 유명. 2024년 EvoLLM-JP는 일본어 수학 모델 가중치들을 진화적으로 섞어 SOTA를 만들었다. 2025년 The AI Scientist v2 — 모델 자체보다 자동 연구 에이전트.

- **NTT Tsuzumi**(つづみ). NTT가 2023년 공개한 일본어 LLM. 7B/13B 가벼운 규모로 일본 기업 온프레미스 보급에 집중. 2025년 Tsuzumi 2는 멀티모달 확장.

- **ELYZA**(도쿄대 분사). Llama 기반 일본어 튜닝의 강자. Llama-3-ELYZA-JP-8B, ELYZA-Tasks-100 평가셋. 2024년 KDDI 자회사화.

- **Preferred Networks(PFN)**. 도요타 자율주행, 신약 발견 등의 산업 응용에 집중. 자체 슈퍼컴퓨터 MN-3, 모델 PLaMo 100B. 2025년 PLaMo Translate는 일·영·한 번역에서 GPT-4와 경쟁.

- **AI Inside, Rinna, Stockmark, Karakuri**. 도메인 특화·중견 규모.

일본의 특징은 (1) 진화·자동연구 같은 메타-수준 접근(Sakana), (2) 제조·자동차·신약 등 산업 직결(PFN), (3) 일본어 양·질에 강한 데이터셋 — 이 셋이다. 도쿄대 정보이공계 연구실들도 활발하다.

22장 · 누가 어떤 아키텍처를 골라야 하나

세 가지 페르소나로 정리한다.

학술 연구자

- **표현력 한계 연구** — Transformer 정통. Anthropic Interpretability 도구, mechanistic interpretability 커뮤니티.

- **효율적 시퀀스 모델** — Mamba 2, RWKV-7, xLSTM, TTT 직접 만져보기.

- **이론 연구** — SSD 프레임(Dao & Gu 2024), Linear Attention 가족 정리 논문들.

추론 비용을 줄이고 싶은 프로덕션 팀

- **클라우드 동시성 큰 서비스** — Mixtral 8x22B / DeepSeek-V3 / Jamba 1.6. MoE로 활성 파라미터 적게.

- **on-device / edge** — RWKV-7 1.5B/3B, RecurrentGemma, Falcon Mamba 7B 양자화. KV cache 작거나 없음.

- **GPU 비용 줄이기** — 같은 perplexity에서 SSM 하이브리드는 처리량 2~3배.

긴 컨텍스트가 필요한 팀

- **1M+ 컨텍스트** — Gemini 2.5, Magic LTM-2-mini. SaaS 호출이 현실적.

- **자체 호스팅 256K~1M** — Jamba 1.6, Hymba, Bamba — Mamba+Transformer 하이브리드.

- **시간 시리즈/장기 메모리** — TTT, S5, TimeMixer 같은 SSM 변종.

이미지·영상 생성

- **이미지** — DiT 계열(Stable Diffusion 3, Flux, PixArt).

- **영상** — Sora 2, Veo 2, MovieGen, CogVideoX, HunyuanVideo, Stable Video 2 — 모두 DiT.

23장 · 직접 만져보기 — 30분 안에 SSM 체험

가장 빠르게 SSM이 어떤 느낌인지 알고 싶다면 Mamba 2부터.

1) 환경

conda create -n ssm python=3.11 -y

conda activate ssm

pip install torch==2.4.0 transformers accelerate

pip install mamba-ssm causal-conv1d

2) 가장 작은 코드

from transformers import AutoTokenizer, AutoModelForCausalLM

Mamba 2 130M (학습용 베이비)

name = "state-spaces/mamba2-130m"

tok = AutoTokenizer.from_pretrained(name)

model = AutoModelForCausalLM.from_pretrained(name, torch_dtype=torch.float16).cuda()

prompt = "상태공간 모델은"

ids = tok(prompt, return_tensors="pt").input_ids.cuda()

out = model.generate(ids, max_new_tokens=128)

print(tok.decode(out[0]))

3) RWKV-7도 같은 느낌

pip install rwkv

또는 HuggingFace의 RWKV/rwkv-7-world-1.5B

4) Jamba 1.6 (큰 VRAM 필요, 80GB H100 권장)

pip install transformers>=4.42 mamba-ssm causal-conv1d

from transformers import AutoModelForCausalLM

AutoModelForCausalLM.from_pretrained("ai21labs/AI21-Jamba-1.6-Mini")

작은 모델로도 — 같은 길이에서 Transformer 대비 약 2~3배 빠른 토큰 디코딩, KV cache가 거의 없는 메모리 패턴을 직접 측정해 볼 수 있다. PyTorch `torch.cuda.memory_allocated()`로 비교해 보면 차이가 보인다.

24장 · 결론 — 2026년 모델 아키텍처의 의미

7년간 Transformer 한 가지가 모든 시퀀스 문제를 풀었다. 그 시기는 끝났다 — 라고 말하면 과장이다. Transformer는 여전히 SOTA의 중심이다. 그러나 2026년에는 다음 변화가 분명하다.

1. **거대 LLM은 점점 더 MoE로 간다.** DeepSeek-V3 / Qwen3 / Mixtral / 미공개 GPT-5는 모두 MoE.

2. **on-device·엣지에서는 SSM/하이브리드가 자리잡았다.** RecurrentGemma, RWKV-7, Falcon Mamba.

3. **이미지/영상은 DiT 천하.** Sora 2, Veo 2, MovieGen.

4. **장문 컨텍스트 알고리즘**(Flash Attention 3, Ring Attention)이 학습·추론을 모두 다시 그렸다.

5. **한국·일본 진영**은 도메인 특화·산업 응용·진화 메타학습 등 각자의 색깔로 자리잡았다.

엔지니어로서 우리가 해야 할 일은 — 한 가지 아키텍처에 충성하지 않는 것. 작업 성격에 맞는 도구를 고르는 것. 그리고 다음 5년간 어떤 아키텍처가 더 나올지를 즐기는 것이다.

참고 · References

- Vaswani et al., "Attention is All You Need", NeurIPS 2017. https://arxiv.org/abs/1706.03762

- Dao et al., "FlashAttention", NeurIPS 2022. https://arxiv.org/abs/2205.14135

- Dao, "FlashAttention-2", 2023. https://arxiv.org/abs/2307.08691

- Shah et al., "FlashAttention-3", 2024. https://arxiv.org/abs/2407.08608

- Liu et al., "Ring Attention", 2023. https://arxiv.org/abs/2310.01889

- Gu & Dao, "Mamba", 2023. https://arxiv.org/abs/2312.00752

- Dao & Gu, "Transformers are SSMs (Mamba 2 / SSD)", 2024. https://arxiv.org/abs/2405.21060

- Poli et al., "Hyena Hierarchy", 2023. https://arxiv.org/abs/2302.10866

- Peng et al., "RWKV", EMNLP 2023. https://arxiv.org/abs/2305.13048

- RWKV Foundation. https://rwkv.com

- Sun et al., "Retentive Network (RetNet)", 2023. https://arxiv.org/abs/2307.08621

- De et al., "Griffin", 2024. https://arxiv.org/abs/2402.19427

- Google RecurrentGemma. https://huggingface.co/google/recurrentgemma-2b

- Smith et al., "S5", ICLR 2023. https://arxiv.org/abs/2208.04933

- Katharopoulos et al., "Linear Transformers / Transformers are RNNs", 2020. https://arxiv.org/abs/2006.16236

- Schlag, Irie, Schmidhuber, "Linear Transformers as Fast Weight Programmers", 2021. https://arxiv.org/abs/2102.11174

- Beck et al., "xLSTM", 2024. https://arxiv.org/abs/2405.04517

- AI21 Labs, "Jamba", 2024. https://arxiv.org/abs/2403.19887

- TII Falcon Mamba 7B. https://huggingface.co/tiiuae/falcon-mamba-7b

- Sun et al., "Test-Time Training (TTT)", 2024. https://arxiv.org/abs/2407.04620

- Peebles & Xie, "DiT", 2022. https://arxiv.org/abs/2212.09748

- DeepSeek-V3 Tech Report. https://arxiv.org/abs/2412.19437

- He et al., "Mixture of A Million Experts (PEER)", 2024. https://arxiv.org/abs/2407.04153

- Mixtral of Experts. https://arxiv.org/abs/2401.04088

- Magic LTM-2-mini. https://magic.dev/blog/100m-token-context-windows

- Gemini 1.5 Technical Report. https://arxiv.org/abs/2403.05530

- Sakana AI EvoLLM. https://arxiv.org/abs/2403.13187

- NTT Tsuzumi. https://www.rd.ntt/e/research/JN202310_18075.html

- ELYZA Llama-JP. https://huggingface.co/elyza

- Preferred Networks PLaMo. https://www.preferred.jp/en/projects/llm/

- Naver HyperCLOVA X. https://clova.ai/en/ko-llm

- KAIST AI. https://gsai.kaist.ac.kr