- Published on
基盤モデルのアーキテクチャ 2026 — Transformer の次へ / Mamba 2 / Hyena / RWKV / RetNet / Griffin / Jamba / xLSTM / TTT / DiT / MoE / Flash Attention 3 徹底ガイド
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — 2026 年、モデルアーキテクチャが再び面白くなった理由
2017 年 6 月に Vaswani ほか 8 名が NeurIPS に投稿した「Attention is All You Need」は、RNN と CNN をほぼ一世代でシーケンスモデルの主役の座から追い落とした。その後の 7 年間、ほぼすべての LLM、ビジョン Transformer、音声モデル、タンパク質モデルまでが Transformer 一つのアーキテクチャの上で動いてきた。
しかし 2023 年 12 月、Albert Gu と Tri Dao が Mamba を発表してから風景が変わった。2024 年は Mamba 2、Jamba、xLSTM、Falcon Mamba 7B、Test-Time Training、Mixture of A Million Experts、Flash Attention 3 が立て続けに登場した。2025 年には DeepSeek-V3 の 671B MoE が現れ、「Transformer は終着点ではなく出発点だった」という認識が定着した。
この記事は 2026 年 5 月時点で、Transformer はなお標準ではあるが、その周辺に何が育ったかを地図にする。論文サーベイではなくエンジニアの目線で — 誰がどの問題を解き、誰がどのモデルを選ぶべきかに焦点を絞る。
1 章 · 2026 年のアーキテクチャ地図 — 四つの陣営
ざっくり四つに分けるとこうなる。
| 陣営 | 代表 | 中核アイデア |
|---|---|---|
| Transformer 本流 | GPT-4, Claude 4.7, Gemini 2.5, Llama 4 | Self-attention。表現力最強、コスト最高 |
| 状態空間 / 線形 RNN | Mamba, Mamba 2, RWKV, RetNet, Griffin, xLSTM | 系列長に対して線形。推論が安い |
| ハイブリッド | Jamba, Griffin, Zamba, RecurrentGemma | SSM と Attention を混ぜて双方の長所 |
| 疎 / MoE | Mixtral 8x7B, DeepSeek-V3 671B, Million Experts | パラメータは巨大、活性化は少ない |
加えて直交軸として二つ:
- DiT (Diffusion Transformer) — 画像・動画生成。OpenAI Sora の基盤。
- 長文脈アルゴリズム — Flash Attention 3, Ring Attention, Gemini 2M, Magic LTM-2-mini 100M。
表現力 高
│
Transformer ────┼──── DiT (画像/動画)
(GPT, Claude) │
│
ハイブリッド (Jamba, Griffin)
│
Mamba 2 ────────┼──── RWKV, RetNet
(線形時間) │
│
推論コスト 安
要点は — 「すべてを Transformer 一つで」という時代は 2026 年に終わった。 タスクごとに SSM・MoE・ハイブリッドを使い分ける。
2 章 · Transformer (Vaswani 2017) — 今も標準
論文: Vaswani et al., "Attention is All You Need", NeurIPS 2017. arXiv:1706.03762.
中核は scaled dot-product attention。入力 X から Query, Key, Value を線形射影し、Q と K の内積を正規化、softmax で重みを作り、V に適用する。
ブロック式:
長所:
- 全トークンが全トークンを直接見る。 距離に関係なく依存性を学習。
- 完全並列。 RNN のような逐次依存がない — TPU/GPU 向き。
- 帰納バイアスがほぼ無い。 十分なデータがあれば何でも学習。
短所:
- 系列長 N に対して 時間・メモリとも O(N2)**。32K でつらく、128K では爆発。
- KV キャッシュが推論を支配する。 各デコードで過去の K/V を全部読み直す。
- 帰納バイアスの無さは諸刃の剣。 低データ環境では SSM や CNN が勝る。
それでも 2026 年現在、GPT-4o、Claude 4.7、Gemini 2.5、Llama 4、Mistral Large 2、Qwen 3 — すべて Transformer ベース。中身は RoPE、Grouped Query Attention、SwiGLU、RMSNorm、Flash Attention 3 などで更新されているが、外殻は変わらない。
3 章 · Flash Attention 3 (Tri Dao 2024.7) — Transformer 加速の到達点
Flash Attention シリーズはスタンフォードの Tri Dao が主導している。
- Flash Attention 1 (May 2022, NeurIPS 2022): タイリングと再計算でメモリを O(N**2) から O(N) へ。
- Flash Attention 2 (Jul 2023): 作業分割を head/seq 軸で再構成、約 2 倍高速。
- Flash Attention 3 (Jul 2024): H100 の非同期 Tensor Core と FP8 を活用し、さらに 1.5〜2 倍。
レシピはずっと同じ — softmax(QK^T)V を巨大な一枚の行列にせず、ブロック単位で SRAM 上で処理し、オンライン累積する。 メモリ帯域がボトルネックという事実を受け入れる。
# 概念的擬似コード。実体は CUDA/CUTLASS
def flash_attention(Q, K, V, block_size=128):
out = zeros_like(Q)
row_max = full(Q.shape[:-1], -inf)
row_sum = zeros(Q.shape[:-1])
for j in range(0, K.shape[0], block_size):
Kj = K[j:j+block_size]
Vj = V[j:j+block_size]
# SRAM 上で部分 attention を計算
Sij = Q @ Kj.T / sqrt(d_k)
new_max = maximum(row_max, Sij.max(-1))
# online softmax 更新
...
return out
Flash Attention 3 は H100 で BF16 が約 740 TFLOPS、FP8 が約 1.2 PFLOPS — 理論ピークの 75% ほど。H200 と B200 でも同じパターンが効く。
エンジニアにとっての肝 — PyTorch 2.x の SDPA が Flash Attention 3 を自動で呼ぶ。 統合作業は不要。Llama 4 や Claude 4.7 はこの上に乗っている。
4 章 · Ring Attention — 長文脈の捌き方
Liu et al., "Ring Attention with Blockwise Transformers for Near-Infinite Context", 2023. arXiv:2310.01889.
問題: 1 枚の GPU に KV キャッシュが乗らない 1M+ トークン文脈をどう処理するか。
答え: 系列を GPU で分割し、K/V ブロックを GPU の輪上で回転させる。各 GPU は自分の Q を固定し、すべての K/V を順番に一度ずつ見る — ただし一度に 1 ブロックずつ。
GPU0 ──▶ GPU1 ──▶ GPU2 ──▶ GPU3
▲ │
└────────────────────────────┘
各 GPU は Q を据え置き、
K/V ブロックを時計回りに回す。
4 周で全 GPU が全 K/V を見る。
利点は文脈長が GPU 台数にほぼ線形にスケールすること。2024 年 2 月に Gemini 1.5 Pro が 1M を披露したとき、Ring Attention 系の分散戦略が中核と知られた。2025 年の Gemini 2.5 は 2M まで伸ばした。
関連技術:
- StreamingLLM (Xiao et al., 2023): attention sink で KV キャッシュ上限。
- YaRN (Peng et al., 2023): RoPE 補間で学習長を超える。
- LongRoPE (Microsoft, 2024): 2M トークンへの RoPE 拡張。
5 章 · Mamba (Albert Gu + Tri Dao 2023.12) — S6 状態空間モデル
論文: Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", Dec 2023. arXiv:2312.00752.
これが 2024 年の機械学習コミュニティを揺さぶった理由 — Transformer 級の言語モデル性能を 系列長に対して線形に出せると初めて明快に示したから。
状態空間モデル (SSM) の本質は、連続時間ダイナミクスから出発し、離散化すること。一行で:
定義上 RNN だが、S4/S6 は二つのトリックで GPU フレンドリーにした。
- A を特殊な構造 (HiPPO, diagonal-plus-low-rank) にとって安定性と表現力を確保。
- 系列方向に並列スキャン (parallel scan) で学習。
Mamba (S6) の決定的追加:
- 選択 (selection): A, B, C, ステップサイズを入力依存にする。トークンごとにダイナミクスが変わる。
- selective scan カーネル: 入力依存 SSM は通常の畳み込みに帰着できないので、Triton/CUDA で手書きカーネルを同梱。
# 概念擬似コード。実 API は mamba-ssm パッケージ
import torch
from mamba_ssm import Mamba
model = Mamba(
d_model=2560,
d_state=16, # SSM 状態次元
d_conv=4, # 1D convolution カーネル
expand=2,
).cuda()
x = torch.randn(2, 8192, 2560).cuda() # batch, seq, dim
y = model(x) # 8K トークンを線形時間で
Mamba が与えるもの:
- 学習 O(N)、推論 O(1)/トークン。
- KV キャッシュなし — 履歴は状態 h に圧縮。
- 1.4B 規模で Pythia-1.4B と同等以上の zero-shot 性能。
限界も明確:
- in-context 検索が弱い。「この表の X 行 Y 列の値は?」のような厳密マッチでは Transformer が強い。
- 70B 以上ではまだ検証が薄い。
6 章 · Mamba 2 (2024.5) — SSM と attention の統一
論文: Dao & Gu, "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality", May 2024. arXiv:2405.21060.
中心的洞察は 状態空間モデルと self-attention は同じ抽象の二つの顔ということ。著者は SSD (Structured State Space Duality) と呼ぶ。
数学的には:
- SSM は 1-semiseparable 行列によるシーケンス変換。
- 線形 attention は同じ族の別パラメータ化。
- どちらも SSD という大きな枠に入る。
実務上の帰結:
- 学習が 2〜8 倍速い。 A をより大きな head 次元にとり、matmul に親和的なアルゴリズム。
- Grouped Query Attention など Transformer 加速技と互換。
- 同パラメータで Mamba 1 より perplexity が 1〜3% 改善。
from mamba_ssm import Mamba2
model = Mamba2(
d_model=2560,
d_state=128, # Mamba 1 よりはるかに大きな状態
headdim=64, # head 次元を導入
expand=2,
).cuda()
Mamba 2 は線形 attention、RetNet、RWKV-6、Griffin、GLA がすべて SSD の特殊例だと整理した。陣営をそろえた重要論文だ。
7 章 · Hyena (Stanford) — 線形時間の代替案
論文: Poli et al., "Hyena Hierarchy: Towards Larger Convolutional Language Models", ICML 2023. arXiv:2302.10866.
スタンフォードのグループ (H3, Hyena, Mamba を同じ系列から輩出) が attention を 暗黙的な長畳み込みとゲーティングで置き換えた試み。FFT ベースで O(N log N) で計算する。
# x: (batch, seq, dim)
# v: value (x の線形射影)
# h: 学習可能な長フィルタ (チャネル毎)
# gates g1, g2, ...
def hyena_operator(x):
v = linear(x)
h = filter_mlp(positions) # 位置埋め込み → 長フィルタ
y = fft_conv(v, h) # FFT ベースの畳み込み O(N log N)
g = sigmoid(linear(x)) # ゲート
return g * y
長所: 非常に長い系列で attention より速い。 短所: Mamba のような選択機構がなく、情報ルーティングが柔軟性に欠ける。2024 年以降は Mamba 系に勢いを譲ったが、H3、Hyena Filter、Striped Hyena はハイブリッドで使い続けられている。
8 章 · RWKV (Bo Peng) — 再発見された RNN
サイト: rwkv.com。論文: Peng et al., "RWKV: Reinventing RNNs for the Transformer Era", EMNLP 2023. arXiv:2305.13048.
Bo Peng (Discord ハンドル BlinkDL) がほぼ一人で始めたモデル。名称は Receptance, Weight, Key, Value。中核は — 学習時は Transformer のように並列、推論時は RNN のように逐次で同じ関数を表現する。
ブロックは「time-mixing」と「channel-mixing」の二段構え。
入力 x_t
│
▼
time-mixing ──▶ R, W, K, V を決定。加重和 = RWKV。
│
▼
channel-mixing ──▶ チャネル間で混ぜる (1D conv ライク)
│
▼
出力 y_t
魅力:
- KV キャッシュなし — 状態が固定サイズ。
- 非常に速いトークン毎デコード。
- 完全オープン。重みも学習コードも公開。
ロードマップ 2024〜2025:
- RWKV-5 「Eagle」 — 行列値状態に拡張。
- RWKV-6 「Finch」 — Mamba 式の選択ダイナミクス導入。
- RWKV-7 「Goose」 — 7B 規模で Llama 3 と競合。
Linux Foundation 配下の RWKV Foundation がガバナンスを担う。韓国・日本コミュニティもとくに活発だ。
9 章 · RetNet (Microsoft) — Retentive Networks
論文: Sun et al., "Retentive Network: A Successor to Transformer for Large Language Models", Jul 2023. arXiv:2307.08621.
Microsoft Research Asia の答え。RetNet の魅力は retention 機構を三通りの表現で同時に書けること。
- Parallel form — 学習時。全トークン一気に処理。softmax の代わりに指数減衰マスク。
- Recurrent form — 推論時。固定サイズの状態 1 個でトークン毎。O(1)/トークン。
- Chunkwise form — 長文入力。チャンク単位で効率処理。
学習: parallel ──▶ GPU を埋め尽くす計算
推論: recurrent ──▶ トークンごとに状態 1 個
長い入力: chunkwise ──▶ ブロック単位で効率
この「三つの顔」は Mamba 2 の SSD と親戚関係にある。
後続: Microsoft の YOCO (You Only Cache Once, 2024) と DiffTransformer (2024) が RetNet の発想を取り込みつつ発展中。
10 章 · Griffin (DeepMind) — ゲーティング付き線形 RNN
論文: De et al., "Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models", Feb 2024. arXiv:2402.19427.
DeepMind の答え。Griffin の中核部品は RG-LRU (Real-Gated Linear Recurrent Unit) という RNN ブロックと ローカル attention (スライディングウィンドウ) の組合せ。
Griffin ブロック = RG-LRU (線形 RNN) + Local Attention (sliding window)
主張点:
- TPU/GPU で効率的に学習可能 (Mamba と同等)。
- 長文脈で Mamba より安定。
- 7B〜13B で Llama と perplexity・下流タスクとも同等以上。
同論文後半の Hawk は attention を完全に外し RG-LRU のみで構築した変種。
2024 年 4 月、DeepMind は Hugging Face と組んで Griffin ベースのオープンモデル RecurrentGemma を公開。2B パラメータで Gemma 2B と同等の品質、はるかに安い推論。
11 章 · S5 — 改良型状態空間
論文: Smith et al., "Simplified State Space Layers for Sequence Modeling", ICLR 2023. arXiv:2208.04933.
S4 (Albert Gu の 2021 年の博論研究) の後継。S4 が SISO の SSM をチャネル方向に積層していたのに対し、S5 は MIMO で全チャネルをまとめて扱う。
利点:
- 同じ表現力で隠れ状態が小さい。
- 並列スキャン一回で全チャネル処理 — GPU 親和。
- Long Range Arena ベンチで全タスク 90% 以上 (Path-X 含む)。
S5 (および LRU, GSS, MEGA) は Mamba 到来以前の 1〜2 年を支えた研究。2026 年でも時系列モデル (例: TimeMixer) は S5 系の核に乗ることが多い。
12 章 · 線形 Attention — Schmidhuber 系譜
Schlag, Irie, Schmidhuber, "Linear Transformers Are Secretly Fast Weight Programmers", ICML 2021. arXiv:2102.11174。そして Katharopoulos et al., "Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention", ICML 2020. arXiv:2006.16236。
softmax(QK^T)V を展開すると 2 つの正規化項。softmax を非負の特徴写像 phi に置き換えれば:
分子分母の総和を累積で持ち回せば、トークン毎 O(1) で更新可能。これは RNN — Katharopoulos 論文のタイトル通り「Transformer は実は RNN だった」。
後継: Gated Linear Attention (GLA, 2024)、DeltaNet、RWKV の行列値変種。Mamba 2 の SSD がこの一族を一つの傘の下にまとめた。
13 章 · xLSTM (Sepp Hochreiter 2024.5) — LSTM の復活
論文: Beck et al., "xLSTM: Extended Long Short-Term Memory", May 2024. arXiv:2405.04517.
Sepp Hochreiter は 1997 年 LSTM の原著者。xLSTM は彼のグループによる「LSTM を LLM 時代に蘇らせる」試み。
二つの新ブロック:
- sLSTM — スカラーメモリ、新しい指数ゲート。
- mLSTM — 行列メモリ、並列化可能な共分散更新。
鍵は exponential gating と memory mixing。LSTM の (1) 情報蓄積容量と (2) 並列学習の難しさ、両方を狙う。
xLSTM ブロック = mLSTM (行列メモリ、並列) + sLSTM (スカラー、指数ゲート)
Hochreiter グループは 7B xLSTM が Llama 2 7B / Mamba 1.4B と競合できると報告。EU 圏では NXAI/リンツが商用化を進めており、Sakana AI でも影響を受けた変種研究がある。
14 章 · Jamba (AI21 2024.3) — Mamba + Transformer ハイブリッド
論文: AI21 Labs, "Jamba: A Hybrid Transformer-Mamba Language Model", Mar 2024. arXiv:2403.19887.
イスラエルの AI21 Labs がリリースした 大規模ハイブリッドオープンモデル。意味は大きい — 52B パラメータ (12B active MoE) の規模で SSM と Transformer の結合を初めて本格的に示した。
ブロックパターン: 8 層に 1 層が attention、残りは Mamba。さらに 2 層に 1 つ MoE。
[Mamba] [Mamba] [Mamba] [Attn+MoE] [Mamba] [Mamba] [Mamba] [Attn+MoE] ...
利点:
- 80GB H100 単独で 256K トークン文脈 — 同サイズの密 Transformer では不可能。
- KV キャッシュが極小で推論スループット 3 倍。
- 同 perplexity で Llama 2 70B より約 2.5 倍速い。
後続: Jamba 1.5 Mini/Large (2024.8)、Jamba 1.6 (2025) — 洗練された後継。NVIDIA Hymba、IBM Bamba も同パターン。
15 章 · Falcon Mamba 7B (2024.8) — UAE 製の純 SSM
組織: TII (Technology Innovation Institute)、アブダビ。
2024 年 8 月公開。Mamba アーキテクチャで学習された初の 7B 級汎用言語モデル。それまで SSM 陣営は 1.5B / 2.7B で止まっていた規模を一段引き上げた。
特徴:
- Attention ゼロ、Mamba ブロックのみで学習。
- 5.5T トークン — Llama 3 級の学習予算。
- MMLU 等ベンチで Llama 3 7B、Mistral 7B と同等。
- Hugging Face で重み公開、Apache 2.0。
TII はその後、比較研究のため Falcon Mamba を Jamba 風ハイブリッドにも拡張。SSM が「おもちゃ」段階を抜けた信号。
16 章 · Test-Time Training (Sun et al 2024.7) — 推論中にも学習
論文: Sun et al., "Learning to (Learn at Test Time): RNNs with Expressive Hidden States", Jul 2024. arXiv:2407.04620.
TTT の中核は — 隠れ状態そのものを小さな学習可能モデルにし、推論中に系列を流しながらその重みを SGD で更新すること。
入力トークン ──▶ inner-loop SGD ──▶ 隠れ状態 MLP の重み更新
│
▼
出力トークン予測
長所:
- 非常に長い文脈で、RNN 状態よりはるかに良い情報圧縮。
- 明示的な inner update により in-context 学習が自然に発生。
- Mamba と同じ線形時間推論。
著者 (Yu Sun, Tatsunori Hashimoto ら Stanford/CMU 連合) は 7B まで学習し、Mamba 2 7B 並みの性能を報告。2025〜2026 年は TTT-MLP、TTT-Linear、TTT-Hash の変種が続出中。
17 章 · DiT (Diffusion Transformer) — Sora の背骨
論文: Peebles & Xie, "Scalable Diffusion Models with Transformers", ICCV 2023. arXiv:2212.09748.
UC Berkeley の William Peebles と Saining Xie が提案。拡散モデルのバックボーンを U-Net から Transformer に置き換えても (むしろ) より良く動くことを示した。要素:
- 画像をパッチでトークン化。
- AdaLN-Zero — 拡散タイムステップと条件を LayerNorm のスケール・シフトで注入。
- それ以外は標準的な Transformer。
画像 ──▶ patch embedder ──▶ [DiT block] × N ──▶ ノイズ予測
│
▼
条件 (timestep, class, text)
DiT の意義は OpenAI Sora (2024.2)、Stable Diffusion 3、Flux、Lumina-T2X など 2024〜2026 年のほぼ全 SOTA 動画・画像生成モデルが DiT 系列であること。動画では時空パッチをトークンにする。
2026 年の変種:
- PixArt-Σ — 効率的 DiT、モバイルまで。
- HunyuanDiT, CogVideoX — 中国系。
- MovieGen, Veo 2, Sora 2 — 米国大手。
- Stable Video Diffusion 2 — Stability AI。
18 章 · MoE — Mixtral / DeepSeek-V3 / Million Experts
MoE (Mixture of Experts) は 1991 年の Jacobs et al. "Adaptive Mixtures of Local Experts" まで遡る。2017 年 Shazeer ほかの Sparsely-Gated MoE で再生し、2023〜2025 年に LLM の主流となった。
要点 — パラメータは多く、活性化は少なく。 FFN を N 個のエキスパートに分け、トークンごとにそのうち k 個だけ点火する。
| モデル | 総パラメータ | 活性パラメータ | リリース |
|---|---|---|---|
| Switch Transformer | 1.6T | ~7B | 2021 (Google) |
| Mixtral 8x7B | 47B | 13B | 2023.12 (Mistral) |
| Mixtral 8x22B | 141B | 39B | 2024.4 |
| DBRX | 132B | 36B | 2024.3 (Databricks) |
| DeepSeek-V3 | 671B | 37B | 2024.12 (DeepSeek) |
| DeepSeek-R1 | 671B | 37B | 2025.1 (推論強化版) |
| Qwen3-235B | 235B | 22B | 2025 |
DeepSeek-V3 (2024.12) の衝撃は大きかった。総 671B、活性 37B、14.8T トークン学習、H800 で約 280 万 GPU 時間 — およそ 500 万ドルで GPT-4 級。MoE ルーティングでの auxiliary-loss-free balancing と Multi-head Latent Attention (MLA) が二大貢献。
Mixture of A Million Experts (DeepMind PEER, 2024.8)。He et al., "Mixture of A Million Experts", arXiv:2407.04153。product key memory で 1M 個のエキスパートを実質辞書ルックアップでルーティング。疎モデルの未来を示す研究。
19 章 · 長文脈 — Gemini 2M / Magic LTM-2-mini 100M
2024〜2026 年のもう一つの巨大潮流は 文脈長の爆発。
2023: Claude 2: 100K, GPT-4: 32K
2024: Gemini 1.5 Pro: 1M, Claude 3: 200K
2024.8: Magic LTM-2-mini: 100M (1 億) トークン
2025: Gemini 2.5: 2M, Claude 4: 200K
2026: 多くのモデルで 1M+ が標準
長文脈を支える技術スタック:
- アルゴリズム: Flash Attention 3, Ring Attention, PagedAttention (vLLM), StreamingLLM。
- 位置埋め込み: RoPE → YaRN → LongRoPE → NTK-aware scaling。
- アーキテクチャ: SSM ハイブリッド (Jamba, Hymba) の方がメモリ面で密 Transformer より有利。
- データ: 長文脈 fine-tuning、needle-in-a-haystack 評価。
Magic LTM-2-mini (2024.8) は少し別系統。100M 文脈のため attention ではない 新しいシーケンスアーキテクチャ (LTM, Long-Term Memory) を発表。100M トークンの needle-in-a-haystack でほぼ完璧な再現率を報告。詳細は非公開だが、SSM とハッシュベース検索の組合せと見られる。
20 章 · 韓国 — Naver HyperCLOVA X / Kakao Brain / KAIST
韓国勢の追い上げは速い。
- Naver HyperCLOVA X (HCX)。2024 年 HCX-Seed 公開、2025 年は HCX-Speech、HCX-Vision などマルチモーダル拡張。社内では Llama 3 系 Transformer を韓国語・日本語チューニングしたものと自社学習を併用。HCX-3.5 (2025) は MoE を一部導入と公表。
- Kakao Brain — KoGPT、mini.kanana。韓国語 Stable Diffusion チューニングと KakaoTalk 統合。2024 年 KoChat 7B/30B、2025 年に社内マルチモーダルアシスタント Kanana。
- KAIST AI。Edward Choi グループの医療 LLM、Sung Ju Hwang グループの効率学習、Se-Young Yun グループの distillation。2025 年は KAIST 主導の SAIDA (Sparse Attention via Importance Distillation) など効率 attention 研究。
- Upstage Solar、NCSOFT VARCO、LG AI Research EXAONE 3.5/4.0 — いずれも Transformer。
- Sionic AI、Nota — オンデバイス圧縮・量子化。
韓国勢の特徴は (1) 韓国語・日本語トークナイザの最適化、(2) オンデバイス・エッジ圧縮、(3) 医療・法務のドメイン特化 — の三つ。純粋な SSM 研究はまだ学界中心。
21 章 · 日本 — Sakana AI / NTT Tsuzumi / ELYZA / PFN
日本勢も独自の景色。
- Sakana AI (東京、2023、David Ha と Llion Jones)。進化アルゴリズムによる evolutionary model merging で有名。2024 年の EvoLLM-JP は日本語数学モデルの重みを進化的に混ぜて SOTA を作った。2025 年の The AI Scientist v2 はモデル自体より自律研究エージェント。
- NTT つづみ (Tsuzumi)。NTT が 2023 年に公開した日本語 LLM。7B/13B の軽量規模で日本企業のオンプレ普及にフォーカス。2025 年の Tsuzumi 2 はマルチモーダル拡張。
- ELYZA (東大発スピンアウト)。Llama ベース日本語チューニングの強豪。Llama-3-ELYZA-JP-8B、ELYZA-Tasks-100 評価セット。2024 年 KDDI 子会社化。
- Preferred Networks (PFN)。トヨタ自動運転、創薬など産業応用に注力。自前スパコン MN-3、モデル PLaMo 100B。2025 年の PLaMo Translate は日英韓翻訳で GPT-4 と競合。
- AI Inside, Rinna, Stockmark, Karakuri。ドメイン特化・中堅規模。
日本勢の特徴は (1) 進化・自律研究などメタレベルアプローチ (Sakana)、(2) 製造・自動車・創薬など産業直結 (PFN)、(3) 日本語データの質・量 — の三つ。東大・京大の情報系研究室も活発だ。
22 章 · 誰がどのアーキテクチャを選ぶべきか
三つのペルソナで整理する。
学術研究者
- 表現力の限界研究 — Transformer 本流。Anthropic の解釈性ツール、mechanistic interpretability コミュニティ。
- 効率的シーケンスモデル — Mamba 2、RWKV-7、xLSTM、TTT を直接いじる。
- 理論 — SSD フレーム (Dao & Gu 2024)、線形 attention 系のサーベイ。
推論コストを下げたい本番チーム
- クラウド高並行サービス — Mixtral 8x22B、DeepSeek-V3、Jamba 1.6。MoE で活性パラメータを抑える。
- オンデバイス / エッジ — RWKV-7 1.5B/3B、RecurrentGemma、量子化した Falcon Mamba 7B。KV キャッシュが小さいかゼロ。
- GPU コスト削減 — 同じ perplexity で SSM ハイブリッドはスループット 2〜3 倍。
長文脈が必要なチーム
- 1M+ 文脈 — Gemini 2.5、Magic LTM-2-mini。SaaS が現実的。
- 自前ホスト 256K〜1M — Jamba 1.6、Hymba、Bamba — Mamba + Transformer ハイブリッド。
- 時系列・長期メモリ — TTT、S5、TimeMixer。
画像・動画生成
- 画像 — DiT 系列 (Stable Diffusion 3、Flux、PixArt)。
- 動画 — Sora 2、Veo 2、MovieGen、CogVideoX、HunyuanVideo、Stable Video 2 — すべて DiT。
23 章 · 触ってみる — 30 分で SSM を体感
SSM の感触を最速で掴むなら Mamba 2 から。
# 1) 環境
conda create -n ssm python=3.11 -y
conda activate ssm
pip install torch==2.4.0 transformers accelerate
pip install mamba-ssm causal-conv1d
# 2) 最小コード
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# Mamba 2 130M (学習用ベイビー)
name = "state-spaces/mamba2-130m"
tok = AutoTokenizer.from_pretrained(name)
model = AutoModelForCausalLM.from_pretrained(name, torch_dtype=torch.float16).cuda()
prompt = "状態空間モデルは"
ids = tok(prompt, return_tensors="pt").input_ids.cuda()
out = model.generate(ids, max_new_tokens=128)
print(tok.decode(out[0]))
# 3) RWKV-7 も同じ感じ
pip install rwkv
# あるいは HuggingFace の RWKV/rwkv-7-world-1.5B
# 4) Jamba 1.6 (大きな VRAM が必要、80GB H100 推奨)
pip install transformers>=4.42 mamba-ssm causal-conv1d
# from transformers import AutoModelForCausalLM
# AutoModelForCausalLM.from_pretrained("ai21labs/AI21-Jamba-1.6-Mini")
小モデルでも — 同じ長さで Transformer 比約 2〜3 倍速いトークン毎デコード、KV キャッシュがほぼ無いメモリパターンが実測できる。PyTorch の torch.cuda.memory_allocated() で比較すると差がはっきり見える。
24 章 · 結論 — 2026 年のモデルアーキテクチャの意味
7 年間、Transformer 一つがあらゆる系列問題を解いた。その時代は終わった — と言うのは言い過ぎ。Transformer は今も SOTA の中央にある。しかし 2026 年では次の五つが明確だ。
- 巨大 LLM はますます MoE へ。 DeepSeek-V3、Qwen3、Mixtral、そして次の閉鎖モデルたち。
- オンデバイス・エッジは SSM とハイブリッドの天下。 RecurrentGemma、RWKV-7、Falcon Mamba。
- 画像・動画は DiT 一色。 Sora 2、Veo 2、MovieGen。
- 長文脈アルゴリズム (Flash Attention 3、Ring Attention) が学習と推論の両方を書き換えた。
- 韓国・日本勢はドメイン特化・産業応用・進化メタ学習など独自色で定着。
エンジニアの仕事は — 一つのアーキテクチャに忠誠を誓わないこと。タスクに合った道具を選ぶこと。そして次の 5 年でどんなアーキテクチャが出てくるかを楽しむことだ。
参考 · References
- Vaswani et al., "Attention is All You Need", NeurIPS 2017. https://arxiv.org/abs/1706.03762
- Dao et al., "FlashAttention", NeurIPS 2022. https://arxiv.org/abs/2205.14135
- Dao, "FlashAttention-2", 2023. https://arxiv.org/abs/2307.08691
- Shah et al., "FlashAttention-3", 2024. https://arxiv.org/abs/2407.08608
- Liu et al., "Ring Attention", 2023. https://arxiv.org/abs/2310.01889
- Gu & Dao, "Mamba", 2023. https://arxiv.org/abs/2312.00752
- Dao & Gu, "Transformers are SSMs (Mamba 2 / SSD)", 2024. https://arxiv.org/abs/2405.21060
- Poli et al., "Hyena Hierarchy", 2023. https://arxiv.org/abs/2302.10866
- Peng et al., "RWKV", EMNLP 2023. https://arxiv.org/abs/2305.13048
- RWKV Foundation. https://rwkv.com
- Sun et al., "Retentive Network (RetNet)", 2023. https://arxiv.org/abs/2307.08621
- De et al., "Griffin", 2024. https://arxiv.org/abs/2402.19427
- Google RecurrentGemma. https://huggingface.co/google/recurrentgemma-2b
- Smith et al., "S5", ICLR 2023. https://arxiv.org/abs/2208.04933
- Katharopoulos et al., "Linear Transformers / Transformers are RNNs", 2020. https://arxiv.org/abs/2006.16236
- Schlag, Irie, Schmidhuber, "Linear Transformers as Fast Weight Programmers", 2021. https://arxiv.org/abs/2102.11174
- Beck et al., "xLSTM", 2024. https://arxiv.org/abs/2405.04517
- AI21 Labs, "Jamba", 2024. https://arxiv.org/abs/2403.19887
- TII Falcon Mamba 7B. https://huggingface.co/tiiuae/falcon-mamba-7b
- Sun et al., "Test-Time Training (TTT)", 2024. https://arxiv.org/abs/2407.04620
- Peebles & Xie, "DiT", 2022. https://arxiv.org/abs/2212.09748
- DeepSeek-V3 Tech Report. https://arxiv.org/abs/2412.19437
- He et al., "Mixture of A Million Experts (PEER)", 2024. https://arxiv.org/abs/2407.04153
- Mixtral of Experts. https://arxiv.org/abs/2401.04088
- Magic LTM-2-mini. https://magic.dev/blog/100m-token-context-windows
- Gemini 1.5 Technical Report. https://arxiv.org/abs/2403.05530
- Sakana AI EvoLLM. https://arxiv.org/abs/2403.13187
- NTT Tsuzumi. https://www.rd.ntt/e/research/JN202310_18075.html
- ELYZA Llama-JP. https://huggingface.co/elyza
- Preferred Networks PLaMo. https://www.preferred.jp/en/projects/llm/
- Naver HyperCLOVA X. https://clova.ai/en/ko-llm
- KAIST AI. https://gsai.kaist.ac.kr