💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 2026 年、モデルアーキテクチャが再び面白くなった理由

2017 年 6 月に Vaswani ほか 8 名が NeurIPS に投稿した「Attention is All You Need」は、RNN と CNN をほぼ一世代でシーケンスモデルの主役の座から追い落とした。その後の 7 年間、ほぼすべての LLM、ビジョン Transformer、音声モデル、タンパク質モデルまでが Transformer 一つのアーキテクチャの上で動いてきた。

しかし 2023 年 12 月、Albert Gu と Tri Dao が Mamba を発表してから風景が変わった。2024 年は Mamba 2、Jamba、xLSTM、Falcon Mamba 7B、Test-Time Training、Mixture of A Million Experts、Flash Attention 3 が立て続けに登場した。2025 年には DeepSeek-V3 の 671B MoE が現れ、「Transformer は終着点ではなく出発点だった」という認識が定着した。

この記事は 2026 年 5 月時点で、**Transformer はなお標準ではあるが、その周辺に何が育ったか**を地図にする。論文サーベイではなくエンジニアの目線で — 誰がどの問題を解き、誰がどのモデルを選ぶべきかに焦点を絞る。

1 章 · 2026 年のアーキテクチャ地図 — 四つの陣営

ざっくり四つに分けるとこうなる。

| 陣営 | 代表 | 中核アイデア |

| --- | --- | --- |

| Transformer 本流 | GPT-4, Claude 4.7, Gemini 2.5, Llama 4 | Self-attention。表現力最強、コスト最高 |

| 状態空間 / 線形 RNN | Mamba, Mamba 2, RWKV, RetNet, Griffin, xLSTM | 系列長に対して線形。推論が安い |

| ハイブリッド | Jamba, Griffin, Zamba, RecurrentGemma | SSM と Attention を混ぜて双方の長所 |

| 疎 / MoE | Mixtral 8x7B, DeepSeek-V3 671B, Million Experts | パラメータは巨大、活性化は少ない |

加えて直交軸として二つ:

- **DiT (Diffusion Transformer)** — 画像・動画生成。OpenAI Sora の基盤。

- **長文脈アルゴリズム** — Flash Attention 3, Ring Attention, Gemini 2M, Magic LTM-2-mini 100M。

表現力高

│

Transformer ────┼──── DiT (画像/動画)

(GPT, Claude) │

│

ハイブリッド (Jamba, Griffin)

│

Mamba 2 ────────┼──── RWKV, RetNet

(線形時間) │

│

推論コスト安

要点は — **「すべてを Transformer 一つで」という時代は 2026 年に終わった。** タスクごとに SSM・MoE・ハイブリッドを使い分ける。

2 章 · Transformer (Vaswani 2017) — 今も標準

論文: Vaswani et al., "Attention is All You Need", NeurIPS 2017. arXiv:1706.03762.

中核は **scaled dot-product attention**。入力 X から Query, Key, Value を線形射影し、Q と K の内積を正規化、softmax で重みを作り、V に適用する。

ブロック式:

\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right) V

長所:

- **全トークンが全トークンを直接見る。** 距離に関係なく依存性を学習。

- **完全並列。** RNN のような逐次依存がない — TPU/GPU 向き。

- **帰納バイアスがほぼ無い。** 十分なデータがあれば何でも学習。

短所:

- 系列長 N に対して **時間・メモリとも O(N**2)**。32K でつらく、128K では爆発。

- **KV キャッシュが推論を支配する。** 各デコードで過去の K/V を全部読み直す。

- **帰納バイアスの無さは諸刃の剣。** 低データ環境では SSM や CNN が勝る。

それでも 2026 年現在、GPT-4o、Claude 4.7、Gemini 2.5、Llama 4、Mistral Large 2、Qwen 3 — すべて Transformer ベース。中身は RoPE、Grouped Query Attention、SwiGLU、RMSNorm、Flash Attention 3 などで更新されているが、外殻は変わらない。

3 章 · Flash Attention 3 (Tri Dao 2024.7) — Transformer 加速の到達点

Flash Attention シリーズはスタンフォードの Tri Dao が主導している。

- **Flash Attention 1** (May 2022, NeurIPS 2022): タイリングと再計算でメモリを O(N**2) から O(N) へ。

- **Flash Attention 2** (Jul 2023): 作業分割を head/seq 軸で再構成、約 2 倍高速。

- **Flash Attention 3** (Jul 2024): H100 の非同期 Tensor Core と FP8 を活用し、さらに 1.5〜2 倍。

レシピはずっと同じ — **softmax(QK^T)V を巨大な一枚の行列にせず、ブロック単位で SRAM 上で処理し、オンライン累積する。** メモリ帯域がボトルネックという事実を受け入れる。

概念的擬似コード。実体は CUDA/CUTLASS

def flash_attention(Q, K, V, block_size=128):

out = zeros_like(Q)

row_max = full(Q.shape[:-1], -inf)

row_sum = zeros(Q.shape[:-1])

for j in range(0, K.shape[0], block_size):

Kj = K[j:j+block_size]

Vj = V[j:j+block_size]

SRAM 上で部分 attention を計算

Sij = Q @ Kj.T / sqrt(d_k)

new_max = maximum(row_max, Sij.max(-1))

online softmax 更新

...

return out

Flash Attention 3 は H100 で BF16 が約 740 TFLOPS、FP8 が約 1.2 PFLOPS — 理論ピークの 75% ほど。H200 と B200 でも同じパターンが効く。

エンジニアにとっての肝 — **PyTorch 2.x の SDPA が Flash Attention 3 を自動で呼ぶ。** 統合作業は不要。Llama 4 や Claude 4.7 はこの上に乗っている。

4 章 · Ring Attention — 長文脈の捌き方

Liu et al., "Ring Attention with Blockwise Transformers for Near-Infinite Context", 2023. arXiv:2310.01889.

問題: 1 枚の GPU に KV キャッシュが乗らない 1M+ トークン文脈をどう処理するか。

答え: 系列を GPU で分割し、K/V ブロックを GPU の輪上で回転させる。各 GPU は自分の Q を固定し、すべての K/V を順番に一度ずつ見る — ただし一度に 1 ブロックずつ。

GPU0 ──▶ GPU1 ──▶ GPU2 ──▶ GPU3

▲ │

└────────────────────────────┘

各 GPU は Q を据え置き、

K/V ブロックを時計回りに回す。

4 周で全 GPU が全 K/V を見る。

利点は文脈長が GPU 台数にほぼ線形にスケールすること。2024 年 2 月に Gemini 1.5 Pro が 1M を披露したとき、Ring Attention 系の分散戦略が中核と知られた。2025 年の Gemini 2.5 は 2M まで伸ばした。

5 章 · Mamba (Albert Gu + Tri Dao 2023.12) — S6 状態空間モデル

論文: Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", Dec 2023. arXiv:2312.00752.

これが 2024 年の機械学習コミュニティを揺さぶった理由 — Transformer 級の言語モデル性能を **系列長に対して線形**に出せると初めて明快に示したから。

状態空間モデル (SSM) の本質は、連続時間ダイナミクスから出発し、離散化すること。一行で:

h_t = A h_{t-1} + B x_t, \quad y_t = C h_t

定義上 RNN だが、S4/S6 は二つのトリックで GPU フレンドリーにした。

1. A を特殊な構造 (HiPPO, diagonal-plus-low-rank) にとって安定性と表現力を確保。

2. 系列方向に並列スキャン (parallel scan) で学習。

Mamba (S6) の決定的追加:

- **選択 (selection)**: A, B, C, ステップサイズを入力依存にする。トークンごとにダイナミクスが変わる。

- **selective scan カーネル**: 入力依存 SSM は通常の畳み込みに帰着できないので、Triton/CUDA で手書きカーネルを同梱。

概念擬似コード。実 API は mamba-ssm パッケージ

from mamba_ssm import Mamba

model = Mamba(

d_model=2560,

d_state=16, # SSM 状態次元

d_conv=4, # 1D convolution カーネル

expand=2,

).cuda()

x = torch.randn(2, 8192, 2560).cuda() # batch, seq, dim

y = model(x) # 8K トークンを線形時間で

Mamba が与えるもの:

- **学習 O(N)、推論 O(1)/トークン**。

- KV キャッシュなし — 履歴は状態 h に圧縮。

- 1.4B 規模で Pythia-1.4B と同等以上の zero-shot 性能。

限界も明確:

- in-context 検索が弱い。「この表の X 行 Y 列の値は?」のような厳密マッチでは Transformer が強い。

- 70B 以上ではまだ検証が薄い。

6 章 · Mamba 2 (2024.5) — SSM と attention の統一

論文: Dao & Gu, "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality", May 2024. arXiv:2405.21060.

中心的洞察は **状態空間モデルと self-attention は同じ抽象の二つの顔**ということ。著者は SSD (Structured State Space Duality) と呼ぶ。

数学的には:

- SSM は 1-semiseparable 行列によるシーケンス変換。

- 線形 attention は同じ族の別パラメータ化。

- どちらも SSD という大きな枠に入る。

実務上の帰結:

- **学習が 2〜8 倍速い。** A をより大きな head 次元にとり、matmul に親和的なアルゴリズム。

- **Grouped Query Attention など Transformer 加速技と互換。**

- 同パラメータで Mamba 1 より perplexity が 1〜3% 改善。

from mamba_ssm import Mamba2

model = Mamba2(

d_model=2560,

d_state=128, # Mamba 1 よりはるかに大きな状態

headdim=64, # head 次元を導入

expand=2,

).cuda()

Mamba 2 は線形 attention、RetNet、RWKV-6、Griffin、GLA がすべて SSD の特殊例だと整理した。陣営をそろえた重要論文だ。

7 章 · Hyena (Stanford) — 線形時間の代替案

論文: Poli et al., "Hyena Hierarchy: Towards Larger Convolutional Language Models", ICML 2023. arXiv:2302.10866.

スタンフォードのグループ (H3, Hyena, Mamba を同じ系列から輩出) が attention を **暗黙的な長畳み込みとゲーティング**で置き換えた試み。FFT ベースで O(N log N) で計算する。

x: (batch, seq, dim)

v: value (x の線形射影)

h: 学習可能な長フィルタ (チャネル毎)

gates g1, g2, ...

def hyena_operator(x):

v = linear(x)

h = filter_mlp(positions) # 位置埋め込み → 長フィルタ

y = fft_conv(v, h) # FFT ベースの畳み込み O(N log N)

g = sigmoid(linear(x)) # ゲート

return g * y

長所: 非常に長い系列で attention より速い。

短所: Mamba のような選択機構がなく、情報ルーティングが柔軟性に欠ける。2024 年以降は Mamba 系に勢いを譲ったが、H3、Hyena Filter、Striped Hyena はハイブリッドで使い続けられている。

8 章 · RWKV (Bo Peng) — 再発見された RNN

サイト: rwkv.com。論文: Peng et al., "RWKV: Reinventing RNNs for the Transformer Era", EMNLP 2023. arXiv:2305.13048.

Bo Peng (Discord ハンドル BlinkDL) がほぼ一人で始めたモデル。名称は **R**eceptance, **W**eight, **K**ey, **V**alue。中核は — **学習時は Transformer のように並列、推論時は RNN のように逐次**で同じ関数を表現する。

ブロックは「time-mixing」と「channel-mixing」の二段構え。

入力 x_t

│

▼

time-mixing ──▶ R, W, K, V を決定。加重和 = RWKV。

│

▼

channel-mixing ──▶ チャネル間で混ぜる (1D conv ライク)

│

▼

出力 y_t

魅力:

- KV キャッシュなし — 状態が固定サイズ。

- 非常に速いトークン毎デコード。

- 完全オープン。重みも学習コードも公開。

ロードマップ 2024〜2025:

- **RWKV-5 「Eagle」** — 行列値状態に拡張。

- **RWKV-6 「Finch」** — Mamba 式の選択ダイナミクス導入。

- **RWKV-7 「Goose」** — 7B 規模で Llama 3 と競合。

Linux Foundation 配下の RWKV Foundation がガバナンスを担う。韓国・日本コミュニティもとくに活発だ。

9 章 · RetNet (Microsoft) — Retentive Networks

論文: Sun et al., "Retentive Network: A Successor to Transformer for Large Language Models", Jul 2023. arXiv:2307.08621.

Microsoft Research Asia の答え。RetNet の魅力は retention 機構を**三通りの表現**で同時に書けること。

- **Parallel form** — 学習時。全トークン一気に処理。softmax の代わりに指数減衰マスク。

- **Recurrent form** — 推論時。固定サイズの状態 1 個でトークン毎。O(1)/トークン。

- **Chunkwise form** — 長文入力。チャンク単位で効率処理。

学習: parallel ──▶ GPU を埋め尽くす計算

推論: recurrent ──▶ トークンごとに状態 1 個

長い入力: chunkwise ──▶ ブロック単位で効率

この「三つの顔」は Mamba 2 の SSD と親戚関係にある。

後続: Microsoft の **YOCO** (You Only Cache Once, 2024) と **DiffTransformer** (2024) が RetNet の発想を取り込みつつ発展中。

10 章 · Griffin (DeepMind) — ゲーティング付き線形 RNN

論文: De et al., "Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models", Feb 2024. arXiv:2402.19427.

DeepMind の答え。Griffin の中核部品は **RG-LRU (Real-Gated Linear Recurrent Unit)** という RNN ブロックと **ローカル attention (スライディングウィンドウ)** の組合せ。

Griffin ブロック = RG-LRU (線形 RNN) + Local Attention (sliding window)

主張点:

- TPU/GPU で効率的に学習可能 (Mamba と同等)。

- 長文脈で Mamba より安定。

- 7B〜13B で Llama と perplexity・下流タスクとも同等以上。

同論文後半の **Hawk** は attention を完全に外し RG-LRU のみで構築した変種。

2024 年 4 月、DeepMind は Hugging Face と組んで Griffin ベースのオープンモデル **RecurrentGemma** を公開。2B パラメータで Gemma 2B と同等の品質、はるかに安い推論。

11 章 · S5 — 改良型状態空間

論文: Smith et al., "Simplified State Space Layers for Sequence Modeling", ICLR 2023. arXiv:2208.04933.

S4 (Albert Gu の 2021 年の博論研究) の後継。S4 が SISO の SSM をチャネル方向に積層していたのに対し、S5 は MIMO で全チャネルをまとめて扱う。

利点:

- 同じ表現力で隠れ状態が小さい。

- 並列スキャン一回で全チャネル処理 — GPU 親和。

- Long Range Arena ベンチで全タスク 90% 以上 (Path-X 含む)。

S5 (および LRU, GSS, MEGA) は Mamba 到来以前の 1〜2 年を支えた研究。2026 年でも時系列モデル (例: TimeMixer) は S5 系の核に乗ることが多い。

12 章 · 線形 Attention — Schmidhuber 系譜

Schlag, Irie, Schmidhuber, "Linear Transformers Are Secretly Fast Weight Programmers", ICML 2021. arXiv:2102.11174。そして Katharopoulos et al., "Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention", ICML 2020. arXiv:2006.16236。

softmax(QK^T)V を展開すると 2 つの正規化項。softmax を非負の特徴写像 phi に置き換えれば:

\text{Attention}(Q, K, V)_i = \frac{\phi(Q_i)^{\top} \sum_j \phi(K_j) V_j^{\top}}{\phi(Q_i)^{\top} \sum_j \phi(K_j)}

分子分母の総和を累積で持ち回せば、トークン毎 O(1) で更新可能。これは RNN — Katharopoulos 論文のタイトル通り「Transformer は実は RNN だった」。

後継: Gated Linear Attention (GLA, 2024)、DeltaNet、RWKV の行列値変種。Mamba 2 の SSD がこの一族を一つの傘の下にまとめた。

13 章 · xLSTM (Sepp Hochreiter 2024.5) — LSTM の復活

論文: Beck et al., "xLSTM: Extended Long Short-Term Memory", May 2024. arXiv:2405.04517.

Sepp Hochreiter は 1997 年 LSTM の原著者。xLSTM は彼のグループによる「LSTM を LLM 時代に蘇らせる」試み。

二つの新ブロック:

- **sLSTM** — スカラーメモリ、新しい指数ゲート。

- **mLSTM** — 行列メモリ、並列化可能な共分散更新。

鍵は **exponential gating** と **memory mixing**。LSTM の (1) 情報蓄積容量と (2) 並列学習の難しさ、両方を狙う。

xLSTM ブロック = mLSTM (行列メモリ、並列) + sLSTM (スカラー、指数ゲート)

Hochreiter グループは 7B xLSTM が Llama 2 7B / Mamba 1.4B と競合できると報告。EU 圏では NXAI/リンツが商用化を進めており、Sakana AI でも影響を受けた変種研究がある。

14 章 · Jamba (AI21 2024.3) — Mamba + Transformer ハイブリッド

論文: AI21 Labs, "Jamba: A Hybrid Transformer-Mamba Language Model", Mar 2024. arXiv:2403.19887.

イスラエルの AI21 Labs がリリースした **大規模ハイブリッドオープンモデル**。意味は大きい — 52B パラメータ (12B active MoE) の規模で SSM と Transformer の結合を初めて本格的に示した。

ブロックパターン: 8 層に 1 層が attention、残りは Mamba。さらに 2 層に 1 つ MoE。

[Mamba] [Mamba] [Mamba] [Attn+MoE] [Mamba] [Mamba] [Mamba] [Attn+MoE] ...

利点:

- 80GB H100 単独で 256K トークン文脈 — 同サイズの密 Transformer では不可能。

- KV キャッシュが極小で推論スループット 3 倍。

- 同 perplexity で Llama 2 70B より約 2.5 倍速い。

後続: **Jamba 1.5 Mini/Large** (2024.8)、**Jamba 1.6** (2025) — 洗練された後継。NVIDIA Hymba、IBM Bamba も同パターン。

15 章 · Falcon Mamba 7B (2024.8) — UAE 製の純 SSM

組織: TII (Technology Innovation Institute)、アブダビ。

2024 年 8 月公開。**Mamba アーキテクチャで学習された初の 7B 級汎用言語モデル**。それまで SSM 陣営は 1.5B / 2.7B で止まっていた規模を一段引き上げた。

特徴:

- Attention ゼロ、Mamba ブロックのみで学習。

- 5.5T トークン — Llama 3 級の学習予算。

- MMLU 等ベンチで Llama 3 7B、Mistral 7B と同等。

- Hugging Face で重み公開、Apache 2.0。

TII はその後、比較研究のため Falcon Mamba を Jamba 風ハイブリッドにも拡張。SSM が「おもちゃ」段階を抜けた信号。

16 章 · Test-Time Training (Sun et al 2024.7) — 推論中にも学習

論文: Sun et al., "Learning to (Learn at Test Time): RNNs with Expressive Hidden States", Jul 2024. arXiv:2407.04620.

TTT の中核は — **隠れ状態そのものを小さな学習可能モデル**にし、推論中に系列を流しながらその重みを SGD で更新すること。

入力トークン ──▶ inner-loop SGD ──▶ 隠れ状態 MLP の重み更新

│

▼

出力トークン予測

長所:

- 非常に長い文脈で、RNN 状態よりはるかに良い情報圧縮。

- 明示的な inner update により in-context 学習が自然に発生。

- Mamba と同じ線形時間推論。

著者 (Yu Sun, Tatsunori Hashimoto ら Stanford/CMU 連合) は 7B まで学習し、Mamba 2 7B 並みの性能を報告。2025〜2026 年は TTT-MLP、TTT-Linear、TTT-Hash の変種が続出中。

17 章 · DiT (Diffusion Transformer) — Sora の背骨

論文: Peebles & Xie, "Scalable Diffusion Models with Transformers", ICCV 2023. arXiv:2212.09748.

UC Berkeley の William Peebles と Saining Xie が提案。拡散モデルのバックボーンを U-Net から **Transformer に置き換えても (むしろ) より良く動く**ことを示した。要素:

- 画像をパッチでトークン化。

- AdaLN-Zero — 拡散タイムステップと条件を LayerNorm のスケール・シフトで注入。

- それ以外は標準的な Transformer。

画像 ──▶ patch embedder ──▶ [DiT block] × N ──▶ ノイズ予測

│

▼

条件 (timestep, class, text)

DiT の意義は **OpenAI Sora** (2024.2)、Stable Diffusion 3、Flux、Lumina-T2X など 2024〜2026 年のほぼ全 SOTA 動画・画像生成モデルが DiT 系列であること。動画では時空パッチをトークンにする。

2026 年の変種:

- **PixArt-Σ** — 効率的 DiT、モバイルまで。

- **HunyuanDiT, CogVideoX** — 中国系。

- **MovieGen, Veo 2, Sora 2** — 米国大手。

- **Stable Video Diffusion 2** — Stability AI。

18 章 · MoE — Mixtral / DeepSeek-V3 / Million Experts

MoE (Mixture of Experts) は 1991 年の Jacobs et al. "Adaptive Mixtures of Local Experts" まで遡る。2017 年 Shazeer ほかの Sparsely-Gated MoE で再生し、2023〜2025 年に LLM の主流となった。

要点 — **パラメータは多く、活性化は少なく。** FFN を N 個のエキスパートに分け、トークンごとにそのうち k 個だけ点火する。

| --- | --- | --- | --- |

| Switch Transformer | 1.6T | ~7B | 2021 (Google) |

| Mixtral 8x7B | 47B | 13B | 2023.12 (Mistral) |

| Mixtral 8x22B | 141B | 39B | 2024.4 |

| DBRX | 132B | 36B | 2024.3 (Databricks) |

| DeepSeek-V3 | 671B | 37B | 2024.12 (DeepSeek) |

| DeepSeek-R1 | 671B | 37B | 2025.1 (推論強化版) |

| Qwen3-235B | 235B | 22B | 2025 |

**DeepSeek-V3** (2024.12) の衝撃は大きかった。総 671B、活性 37B、14.8T トークン学習、H800 で約 280 万 GPU 時間 — およそ 500 万ドルで GPT-4 級。MoE ルーティングでの **auxiliary-loss-free balancing** と **Multi-head Latent Attention (MLA)** が二大貢献。

**Mixture of A Million Experts** (DeepMind PEER, 2024.8)。He et al., "Mixture of A Million Experts", arXiv:2407.04153。product key memory で 1M 個のエキスパートを実質辞書ルックアップでルーティング。疎モデルの未来を示す研究。

19 章 · 長文脈 — Gemini 2M / Magic LTM-2-mini 100M

2024〜2026 年のもう一つの巨大潮流は **文脈長の爆発**。

2023: Claude 2: 100K, GPT-4: 32K

2024: Gemini 1.5 Pro: 1M, Claude 3: 200K

2024.8: Magic LTM-2-mini: 100M (1 億) トークン

2025: Gemini 2.5: 2M, Claude 4: 200K

2026: 多くのモデルで 1M+ が標準

長文脈を支える技術スタック:

- **アルゴリズム**: Flash Attention 3, Ring Attention, PagedAttention (vLLM), StreamingLLM。

- **位置埋め込み**: RoPE → YaRN → LongRoPE → NTK-aware scaling。

- **アーキテクチャ**: SSM ハイブリッド (Jamba, Hymba) の方がメモリ面で密 Transformer より有利。

- **データ**: 長文脈 fine-tuning、needle-in-a-haystack 評価。

**Magic LTM-2-mini** (2024.8) は少し別系統。100M 文脈のため attention ではない **新しいシーケンスアーキテクチャ (LTM, Long-Term Memory)** を発表。100M トークンの needle-in-a-haystack でほぼ完璧な再現率を報告。詳細は非公開だが、SSM とハッシュベース検索の組合せと見られる。

20 章 · 韓国 — Naver HyperCLOVA X / Kakao Brain / KAIST

韓国勢の追い上げは速い。

- **Naver HyperCLOVA X (HCX)**。2024 年 HCX-Seed 公開、2025 年は HCX-Speech、HCX-Vision などマルチモーダル拡張。社内では Llama 3 系 Transformer を韓国語・日本語チューニングしたものと自社学習を併用。HCX-3.5 (2025) は MoE を一部導入と公表。

- **Kakao Brain — KoGPT、mini.kanana**。韓国語 Stable Diffusion チューニングと KakaoTalk 統合。2024 年 KoChat 7B/30B、2025 年に社内マルチモーダルアシスタント Kanana。

- **KAIST AI**。Edward Choi グループの医療 LLM、Sung Ju Hwang グループの効率学習、Se-Young Yun グループの distillation。2025 年は KAIST 主導の SAIDA (Sparse Attention via Importance Distillation) など効率 attention 研究。

- **Upstage Solar**、**NCSOFT VARCO**、**LG AI Research EXAONE 3.5/4.0** — いずれも Transformer。

- **Sionic AI**、**Nota** — オンデバイス圧縮・量子化。

韓国勢の特徴は (1) 韓国語・日本語トークナイザの最適化、(2) オンデバイス・エッジ圧縮、(3) 医療・法務のドメイン特化 — の三つ。純粋な SSM 研究はまだ学界中心。

21 章 · 日本 — Sakana AI / NTT Tsuzumi / ELYZA / PFN

日本勢も独自の景色。

- **Sakana AI** (東京、2023、David Ha と Llion Jones)。進化アルゴリズムによる **evolutionary model merging** で有名。2024 年の EvoLLM-JP は日本語数学モデルの重みを進化的に混ぜて SOTA を作った。2025 年の The AI Scientist v2 はモデル自体より自律研究エージェント。

- **NTT つづみ (Tsuzumi)**。NTT が 2023 年に公開した日本語 LLM。7B/13B の軽量規模で日本企業のオンプレ普及にフォーカス。2025 年の Tsuzumi 2 はマルチモーダル拡張。

- **ELYZA** (東大発スピンアウト)。Llama ベース日本語チューニングの強豪。Llama-3-ELYZA-JP-8B、ELYZA-Tasks-100 評価セット。2024 年 KDDI 子会社化。

- **Preferred Networks (PFN)**。トヨタ自動運転、創薬など産業応用に注力。自前スパコン MN-3、モデル PLaMo 100B。2025 年の PLaMo Translate は日英韓翻訳で GPT-4 と競合。

- **AI Inside, Rinna, Stockmark, Karakuri**。ドメイン特化・中堅規模。

日本勢の特徴は (1) 進化・自律研究などメタレベルアプローチ (Sakana)、(2) 製造・自動車・創薬など産業直結 (PFN)、(3) 日本語データの質・量 — の三つ。東大・京大の情報系研究室も活発だ。

22 章 · 誰がどのアーキテクチャを選ぶべきか

三つのペルソナで整理する。

学術研究者

- **表現力の限界研究** — Transformer 本流。Anthropic の解釈性ツール、mechanistic interpretability コミュニティ。

- **効率的シーケンスモデル** — Mamba 2、RWKV-7、xLSTM、TTT を直接いじる。

- **理論** — SSD フレーム (Dao & Gu 2024)、線形 attention 系のサーベイ。

推論コストを下げたい本番チーム

- **クラウド高並行サービス** — Mixtral 8x22B、DeepSeek-V3、Jamba 1.6。MoE で活性パラメータを抑える。

- **オンデバイス / エッジ** — RWKV-7 1.5B/3B、RecurrentGemma、量子化した Falcon Mamba 7B。KV キャッシュが小さいかゼロ。

- **GPU コスト削減** — 同じ perplexity で SSM ハイブリッドはスループット 2〜3 倍。

長文脈が必要なチーム

- **1M+ 文脈** — Gemini 2.5、Magic LTM-2-mini。SaaS が現実的。

- **自前ホスト 256K〜1M** — Jamba 1.6、Hymba、Bamba — Mamba + Transformer ハイブリッド。

- **時系列・長期メモリ** — TTT、S5、TimeMixer。

画像・動画生成

- **画像** — DiT 系列 (Stable Diffusion 3、Flux、PixArt)。

- **動画** — Sora 2、Veo 2、MovieGen、CogVideoX、HunyuanVideo、Stable Video 2 — すべて DiT。

23 章 · 触ってみる — 30 分で SSM を体感

SSM の感触を最速で掴むなら Mamba 2 から。

1) 環境

conda create -n ssm python=3.11 -y

conda activate ssm

pip install torch==2.4.0 transformers accelerate

pip install mamba-ssm causal-conv1d

2) 最小コード

from transformers import AutoTokenizer, AutoModelForCausalLM

Mamba 2 130M (学習用ベイビー)

name = "state-spaces/mamba2-130m"

tok = AutoTokenizer.from_pretrained(name)

model = AutoModelForCausalLM.from_pretrained(name, torch_dtype=torch.float16).cuda()

prompt = "状態空間モデルは"

ids = tok(prompt, return_tensors="pt").input_ids.cuda()

out = model.generate(ids, max_new_tokens=128)

print(tok.decode(out[0]))

3) RWKV-7 も同じ感じ

pip install rwkv

あるいは HuggingFace の RWKV/rwkv-7-world-1.5B

4) Jamba 1.6 (大きな VRAM が必要、80GB H100 推奨)

pip install transformers>=4.42 mamba-ssm causal-conv1d

from transformers import AutoModelForCausalLM

AutoModelForCausalLM.from_pretrained("ai21labs/AI21-Jamba-1.6-Mini")

小モデルでも — 同じ長さで Transformer 比約 2〜3 倍速いトークン毎デコード、KV キャッシュがほぼ無いメモリパターンが実測できる。PyTorch の `torch.cuda.memory_allocated()` で比較すると差がはっきり見える。

24 章 · 結論 — 2026 年のモデルアーキテクチャの意味

7 年間、Transformer 一つがあらゆる系列問題を解いた。その時代は終わった — と言うのは言い過ぎ。Transformer は今も SOTA の中央にある。しかし 2026 年では次の五つが明確だ。

1. **巨大 LLM はますます MoE へ。** DeepSeek-V3、Qwen3、Mixtral、そして次の閉鎖モデルたち。

2. **オンデバイス・エッジは SSM とハイブリッドの天下。** RecurrentGemma、RWKV-7、Falcon Mamba。

3. **画像・動画は DiT 一色。** Sora 2、Veo 2、MovieGen。

4. **長文脈アルゴリズム** (Flash Attention 3、Ring Attention) が学習と推論の両方を書き換えた。

5. **韓国・日本勢**はドメイン特化・産業応用・進化メタ学習など独自色で定着。

エンジニアの仕事は — 一つのアーキテクチャに忠誠を誓わないこと。タスクに合った道具を選ぶこと。そして次の 5 年でどんなアーキテクチャが出てくるかを楽しむことだ。

参考 · References

- Vaswani et al., "Attention is All You Need", NeurIPS 2017. https://arxiv.org/abs/1706.03762

- Dao et al., "FlashAttention", NeurIPS 2022. https://arxiv.org/abs/2205.14135

- Dao, "FlashAttention-2", 2023. https://arxiv.org/abs/2307.08691

- Shah et al., "FlashAttention-3", 2024. https://arxiv.org/abs/2407.08608

- Liu et al., "Ring Attention", 2023. https://arxiv.org/abs/2310.01889

- Gu & Dao, "Mamba", 2023. https://arxiv.org/abs/2312.00752

- Dao & Gu, "Transformers are SSMs (Mamba 2 / SSD)", 2024. https://arxiv.org/abs/2405.21060

- Poli et al., "Hyena Hierarchy", 2023. https://arxiv.org/abs/2302.10866

- Peng et al., "RWKV", EMNLP 2023. https://arxiv.org/abs/2305.13048

- RWKV Foundation. https://rwkv.com

- Sun et al., "Retentive Network (RetNet)", 2023. https://arxiv.org/abs/2307.08621

- De et al., "Griffin", 2024. https://arxiv.org/abs/2402.19427

- Google RecurrentGemma. https://huggingface.co/google/recurrentgemma-2b

- Smith et al., "S5", ICLR 2023. https://arxiv.org/abs/2208.04933

- Katharopoulos et al., "Linear Transformers / Transformers are RNNs", 2020. https://arxiv.org/abs/2006.16236

- Schlag, Irie, Schmidhuber, "Linear Transformers as Fast Weight Programmers", 2021. https://arxiv.org/abs/2102.11174

- Beck et al., "xLSTM", 2024. https://arxiv.org/abs/2405.04517

- AI21 Labs, "Jamba", 2024. https://arxiv.org/abs/2403.19887

- TII Falcon Mamba 7B. https://huggingface.co/tiiuae/falcon-mamba-7b

- Sun et al., "Test-Time Training (TTT)", 2024. https://arxiv.org/abs/2407.04620

- Peebles & Xie, "DiT", 2022. https://arxiv.org/abs/2212.09748

- DeepSeek-V3 Tech Report. https://arxiv.org/abs/2412.19437

- He et al., "Mixture of A Million Experts (PEER)", 2024. https://arxiv.org/abs/2407.04153

- Mixtral of Experts. https://arxiv.org/abs/2401.04088

- Magic LTM-2-mini. https://magic.dev/blog/100m-token-context-windows

- Gemini 1.5 Technical Report. https://arxiv.org/abs/2403.05530

- Sakana AI EvoLLM. https://arxiv.org/abs/2403.13187

- NTT Tsuzumi. https://www.rd.ntt/e/research/JN202310_18075.html

- ELYZA Llama-JP. https://huggingface.co/elyza

- Preferred Networks PLaMo. https://www.preferred.jp/en/projects/llm/

- Naver HyperCLOVA X. https://clova.ai/en/ko-llm

- KAIST AI. https://gsai.kaist.ac.kr