基盤モデルのアーキテクチャ 2026 — Transformer の次へ / Mamba 2 / Hyena / RWKV / RetNet / Griffin / Jamba / xLSTM / TTT / DiT / MoE / Flash Attention 3 徹底ガイド

プロローグ — 2026 年、モデルアーキテクチャが再び面白くなった理由

2017 年 6 月に Vaswani ほか 8 名が NeurIPS に投稿した「Attention is All You Need」は、RNN と CNN をほぼ一世代でシーケンスモデルの主役の座から追い落とした。その後の 7 年間、ほぼすべての LLM、ビジョン Transformer、音声モデル、タンパク質モデルまでが Transformer 一つのアーキテクチャの上で動いてきた。

しかし 2023 年 12 月、Albert Gu と Tri Dao が Mamba を発表してから風景が変わった。2024 年は Mamba 2、Jamba、xLSTM、Falcon Mamba 7B、Test-Time Training、Mixture of A Million Experts、Flash Attention 3 が立て続けに登場した。2025 年には DeepSeek-V3 の 671B MoE が現れ、「Transformer は終着点ではなく出発点だった」という認識が定着した。

この記事は 2026 年 5 月時点で、Transformer はなお標準ではあるが、その周辺に何が育ったかを地図にする。論文サーベイではなくエンジニアの目線で — 誰がどの問題を解き、誰がどのモデルを選ぶべきかに焦点を絞る。

1 章 · 2026 年のアーキテクチャ地図 — 四つの陣営

ざっくり四つに分けるとこうなる。

陣営	代表	中核アイデア
Transformer 本流	GPT-4, Claude 4.7, Gemini 2.5, Llama 4	Self-attention。表現力最強、コスト最高
状態空間 / 線形 RNN	Mamba, Mamba 2, RWKV, RetNet, Griffin, xLSTM	系列長に対して線形。推論が安い
ハイブリッド	Jamba, Griffin, Zamba, RecurrentGemma	SSM と Attention を混ぜて双方の長所
疎 / MoE	Mixtral 8x7B, DeepSeek-V3 671B, Million Experts	パラメータは巨大、活性化は少ない

加えて直交軸として二つ:

DiT (Diffusion Transformer) — 画像・動画生成。OpenAI Sora の基盤。
長文脈アルゴリズム — Flash Attention 3, Ring Attention, Gemini 2M, Magic LTM-2-mini 100M。

                   表現力 高
                       │
       Transformer ────┼──── DiT (画像/動画)
       (GPT, Claude)   │
                       │
               ハイブリッド (Jamba, Griffin)
                       │
       Mamba 2 ────────┼──── RWKV, RetNet
       (線形時間)       │
                       │
                  推論コスト 安

要点は — 「すべてを Transformer 一つで」という時代は 2026 年に終わった。 タスクごとに SSM・MoE・ハイブリッドを使い分ける。

2 章 · Transformer (Vaswani 2017) — 今も標準

論文: Vaswani et al., "Attention is All You Need", NeurIPS 2017. arXiv:1706.03762.

中核は scaled dot-product attention。入力 X から Query, Key, Value を線形射影し、Q と K の内積を正規化、softmax で重みを作り、V に適用する。

ブロック式:

\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right) V

長所:

全トークンが全トークンを直接見る。 距離に関係なく依存性を学習。
完全並列。 RNN のような逐次依存がない — TPU/GPU 向き。
帰納バイアスがほぼ無い。 十分なデータがあれば何でも学習。

短所:

系列長 N に対して 時間・メモリとも O(N2)**。32K でつらく、128K では爆発。
KV キャッシュが推論を支配する。 各デコードで過去の K/V を全部読み直す。
帰納バイアスの無さは諸刃の剣。 低データ環境では SSM や CNN が勝る。

それでも 2026 年現在、GPT-4o、Claude 4.7、Gemini 2.5、Llama 4、Mistral Large 2、Qwen 3 — すべて Transformer ベース。中身は RoPE、Grouped Query Attention、SwiGLU、RMSNorm、Flash Attention 3 などで更新されているが、外殻は変わらない。

3 章 · Flash Attention 3 (Tri Dao 2024.7) — Transformer 加速の到達点

Flash Attention シリーズはスタンフォードの Tri Dao が主導している。

Flash Attention 1 (May 2022, NeurIPS 2022): タイリングと再計算でメモリを O(N**2) から O(N) へ。
Flash Attention 2 (Jul 2023): 作業分割を head/seq 軸で再構成、約 2 倍高速。
Flash Attention 3 (Jul 2024): H100 の非同期 Tensor Core と FP8 を活用し、さらに 1.5〜2 倍。

レシピはずっと同じ — softmax(QK^T)V を巨大な一枚の行列にせず、ブロック単位で SRAM 上で処理し、オンライン累積する。 メモリ帯域がボトルネックという事実を受け入れる。

# 概念的擬似コード。実体は CUDA/CUTLASS
def flash_attention(Q, K, V, block_size=128):
    out = zeros_like(Q)
    row_max = full(Q.shape[:-1], -inf)
    row_sum = zeros(Q.shape[:-1])
    for j in range(0, K.shape[0], block_size):
        Kj = K[j:j+block_size]
        Vj = V[j:j+block_size]
        # SRAM 上で部分 attention を計算
        Sij = Q @ Kj.T / sqrt(d_k)
        new_max = maximum(row_max, Sij.max(-1))
        # online softmax 更新
        ...
    return out

Flash Attention 3 は H100 で BF16 が約 740 TFLOPS、FP8 が約 1.2 PFLOPS — 理論ピークの 75% ほど。H200 と B200 でも同じパターンが効く。

エンジニアにとっての肝 — PyTorch 2.x の SDPA が Flash Attention 3 を自動で呼ぶ。 統合作業は不要。Llama 4 や Claude 4.7 はこの上に乗っている。

4 章 · Ring Attention — 長文脈の捌き方

Liu et al., "Ring Attention with Blockwise Transformers for Near-Infinite Context", 2023. arXiv:2310.01889.

問題: 1 枚の GPU に KV キャッシュが乗らない 1M+ トークン文脈をどう処理するか。

答え: 系列を GPU で分割し、K/V ブロックを GPU の輪上で回転させる。各 GPU は自分の Q を固定し、すべての K/V を順番に一度ずつ見る — ただし一度に 1 ブロックずつ。

GPU0 ──▶ GPU1 ──▶ GPU2 ──▶ GPU3
  ▲                            │
  └────────────────────────────┘

  各 GPU は Q を据え置き、
  K/V ブロックを時計回りに回す。
  4 周で全 GPU が全 K/V を見る。

利点は文脈長が GPU 台数にほぼ線形にスケールすること。2024 年 2 月に Gemini 1.5 Pro が 1M を披露したとき、Ring Attention 系の分散戦略が中核と知られた。2025 年の Gemini 2.5 は 2M まで伸ばした。

5 章 · Mamba (Albert Gu + Tri Dao 2023.12) — S6 状態空間モデル

論文: Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", Dec 2023. arXiv:2312.00752.

これが 2024 年の機械学習コミュニティを揺さぶった理由 — Transformer 級の言語モデル性能を 系列長に対して線形に出せると初めて明快に示したから。

状態空間モデル (SSM) の本質は、連続時間ダイナミクスから出発し、離散化すること。一行で:

h_t = A h_{t-1} + B x_t, \quad y_t = C h_t

定義上 RNN だが、S4/S6 は二つのトリックで GPU フレンドリーにした。

A を特殊な構造 (HiPPO, diagonal-plus-low-rank) にとって安定性と表現力を確保。
系列方向に並列スキャン (parallel scan) で学習。

Mamba (S6) の決定的追加:

選択 (selection): A, B, C, ステップサイズを入力依存にする。トークンごとにダイナミクスが変わる。
selective scan カーネル: 入力依存 SSM は通常の畳み込みに帰着できないので、Triton/CUDA で手書きカーネルを同梱。

# 概念擬似コード。実 API は mamba-ssm パッケージ
import torch
from mamba_ssm import Mamba

model = Mamba(
    d_model=2560,
    d_state=16,    # SSM 状態次元
    d_conv=4,      # 1D convolution カーネル
    expand=2,
).cuda()

x = torch.randn(2, 8192, 2560).cuda()  # batch, seq, dim
y = model(x)                            # 8K トークンを線形時間で

Mamba が与えるもの:

学習 O(N)、推論 O(1)/トークン。
KV キャッシュなし — 履歴は状態 h に圧縮。
1.4B 規模で Pythia-1.4B と同等以上の zero-shot 性能。

限界も明確:

in-context 検索が弱い。「この表の X 行 Y 列の値は?」のような厳密マッチでは Transformer が強い。
70B 以上ではまだ検証が薄い。

6 章 · Mamba 2 (2024.5) — SSM と attention の統一

論文: Dao & Gu, "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality", May 2024. arXiv:2405.21060.

中心的洞察は 状態空間モデルと self-attention は同じ抽象の二つの顔ということ。著者は SSD (Structured State Space Duality) と呼ぶ。

数学的には:

SSM は 1-semiseparable 行列によるシーケンス変換。
線形 attention は同じ族の別パラメータ化。
どちらも SSD という大きな枠に入る。

実務上の帰結:

学習が 2〜8 倍速い。 A をより大きな head 次元にとり、matmul に親和的なアルゴリズム。
Grouped Query Attention など Transformer 加速技と互換。
同パラメータで Mamba 1 より perplexity が 1〜3% 改善。

from mamba_ssm import Mamba2

model = Mamba2(
    d_model=2560,
    d_state=128,    # Mamba 1 よりはるかに大きな状態
    headdim=64,     # head 次元を導入
    expand=2,
).cuda()

Mamba 2 は線形 attention、RetNet、RWKV-6、Griffin、GLA がすべて SSD の特殊例だと整理した。陣営をそろえた重要論文だ。

7 章 · Hyena (Stanford) — 線形時間の代替案

論文: Poli et al., "Hyena Hierarchy: Towards Larger Convolutional Language Models", ICML 2023. arXiv:2302.10866.

スタンフォードのグループ (H3, Hyena, Mamba を同じ系列から輩出) が attention を 暗黙的な長畳み込みとゲーティングで置き換えた試み。FFT ベースで O(N log N) で計算する。

# x: (batch, seq, dim)
# v: value (x の線形射影)
# h: 学習可能な長フィルタ (チャネル毎)
# gates g1, g2, ...

def hyena_operator(x):
    v = linear(x)
    h = filter_mlp(positions)        # 位置埋め込み → 長フィルタ
    y = fft_conv(v, h)                # FFT ベースの畳み込み O(N log N)
    g = sigmoid(linear(x))            # ゲート
    return g * y

長所: 非常に長い系列で attention より速い。短所: Mamba のような選択機構がなく、情報ルーティングが柔軟性に欠ける。2024 年以降は Mamba 系に勢いを譲ったが、H3、Hyena Filter、Striped Hyena はハイブリッドで使い続けられている。

8 章 · RWKV (Bo Peng) — 再発見された RNN

サイト: rwkv.com。論文: Peng et al., "RWKV: Reinventing RNNs for the Transformer Era", EMNLP 2023. arXiv:2305.13048.

Bo Peng (Discord ハンドル BlinkDL) がほぼ一人で始めたモデル。名称は Receptance, Weight, Key, Value。中核は — 学習時は Transformer のように並列、推論時は RNN のように逐次で同じ関数を表現する。

ブロックは「time-mixing」と「channel-mixing」の二段構え。

入力 x_t
   │
   ▼
time-mixing  ──▶  R, W, K, V を決定。加重和 = RWKV。
   │
   ▼
channel-mixing ──▶ チャネル間で混ぜる (1D conv ライク)
   │
   ▼
出力 y_t

魅力:

KV キャッシュなし — 状態が固定サイズ。
非常に速いトークン毎デコード。
完全オープン。重みも学習コードも公開。

ロードマップ 2024〜2025:

RWKV-5 「Eagle」 — 行列値状態に拡張。
RWKV-6 「Finch」 — Mamba 式の選択ダイナミクス導入。
RWKV-7 「Goose」 — 7B 規模で Llama 3 と競合。

Linux Foundation 配下の RWKV Foundation がガバナンスを担う。韓国・日本コミュニティもとくに活発だ。

9 章 · RetNet (Microsoft) — Retentive Networks

論文: Sun et al., "Retentive Network: A Successor to Transformer for Large Language Models", Jul 2023. arXiv:2307.08621.

Microsoft Research Asia の答え。RetNet の魅力は retention 機構を三通りの表現で同時に書けること。

Parallel form — 学習時。全トークン一気に処理。softmax の代わりに指数減衰マスク。
Recurrent form — 推論時。固定サイズの状態 1 個でトークン毎。O(1)/トークン。
Chunkwise form — 長文入力。チャンク単位で効率処理。

学習:     parallel    ──▶  GPU を埋め尽くす計算
推論:     recurrent   ──▶  トークンごとに状態 1 個
長い入力:  chunkwise   ──▶  ブロック単位で効率

この「三つの顔」は Mamba 2 の SSD と親戚関係にある。

後続: Microsoft の YOCO (You Only Cache Once, 2024) と DiffTransformer (2024) が RetNet の発想を取り込みつつ発展中。

10 章 · Griffin (DeepMind) — ゲーティング付き線形 RNN

論文: De et al., "Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models", Feb 2024. arXiv:2402.19427.

DeepMind の答え。Griffin の中核部品は RG-LRU (Real-Gated Linear Recurrent Unit) という RNN ブロックと ローカル attention (スライディングウィンドウ) の組合せ。

Griffin ブロック = RG-LRU (線形 RNN) + Local Attention (sliding window)

主張点:

TPU/GPU で効率的に学習可能 (Mamba と同等)。
長文脈で Mamba より安定。
7B〜13B で Llama と perplexity・下流タスクとも同等以上。

同論文後半の Hawk は attention を完全に外し RG-LRU のみで構築した変種。

2024 年 4 月、DeepMind は Hugging Face と組んで Griffin ベースのオープンモデル RecurrentGemma を公開。2B パラメータで Gemma 2B と同等の品質、はるかに安い推論。

11 章 · S5 — 改良型状態空間

論文: Smith et al., "Simplified State Space Layers for Sequence Modeling", ICLR 2023. arXiv:2208.04933.

S4 (Albert Gu の 2021 年の博論研究) の後継。S4 が SISO の SSM をチャネル方向に積層していたのに対し、S5 は MIMO で全チャネルをまとめて扱う。

利点:

同じ表現力で隠れ状態が小さい。
並列スキャン一回で全チャネル処理 — GPU 親和。
Long Range Arena ベンチで全タスク 90% 以上 (Path-X 含む)。

S5 (および LRU, GSS, MEGA) は Mamba 到来以前の 1〜2 年を支えた研究。2026 年でも時系列モデル (例: TimeMixer) は S5 系の核に乗ることが多い。

12 章 · 線形 Attention — Schmidhuber 系譜

Schlag, Irie, Schmidhuber, "Linear Transformers Are Secretly Fast Weight Programmers", ICML 2021. arXiv:2102.11174。そして Katharopoulos et al., "Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention", ICML 2020. arXiv:2006.16236。

softmax(QK^T)V を展開すると 2 つの正規化項。softmax を非負の特徴写像 phi に置き換えれば:

\text{Attention}(Q, K, V)_i = \frac{\phi(Q_i)^{\top} \sum_j \phi(K_j) V_j^{\top}}{\phi(Q_i)^{\top} \sum_j \phi(K_j)}

分子分母の総和を累積で持ち回せば、トークン毎 O(1) で更新可能。これは RNN — Katharopoulos 論文のタイトル通り「Transformer は実は RNN だった」。

後継: Gated Linear Attention (GLA, 2024)、DeltaNet、RWKV の行列値変種。Mamba 2 の SSD がこの一族を一つの傘の下にまとめた。

13 章 · xLSTM (Sepp Hochreiter 2024.5) — LSTM の復活

論文: Beck et al., "xLSTM: Extended Long Short-Term Memory", May 2024. arXiv:2405.04517.

Sepp Hochreiter は 1997 年 LSTM の原著者。xLSTM は彼のグループによる「LSTM を LLM 時代に蘇らせる」試み。

二つの新ブロック:

sLSTM — スカラーメモリ、新しい指数ゲート。
mLSTM — 行列メモリ、並列化可能な共分散更新。

鍵は exponential gating と memory mixing。LSTM の (1) 情報蓄積容量と (2) 並列学習の難しさ、両方を狙う。

xLSTM ブロック = mLSTM (行列メモリ、並列) + sLSTM (スカラー、指数ゲート)

Hochreiter グループは 7B xLSTM が Llama 2 7B / Mamba 1.4B と競合できると報告。EU 圏では NXAI/リンツが商用化を進めており、Sakana AI でも影響を受けた変種研究がある。

14 章 · Jamba (AI21 2024.3) — Mamba + Transformer ハイブリッド

論文: AI21 Labs, "Jamba: A Hybrid Transformer-Mamba Language Model", Mar 2024. arXiv:2403.19887.

イスラエルの AI21 Labs がリリースした 大規模ハイブリッドオープンモデル。意味は大きい — 52B パラメータ (12B active MoE) の規模で SSM と Transformer の結合を初めて本格的に示した。

ブロックパターン: 8 層に 1 層が attention、残りは Mamba。さらに 2 層に 1 つ MoE。

[Mamba] [Mamba] [Mamba] [Attn+MoE] [Mamba] [Mamba] [Mamba] [Attn+MoE] ...

利点:

80GB H100 単独で 256K トークン文脈 — 同サイズの密 Transformer では不可能。
KV キャッシュが極小で推論スループット 3 倍。
同 perplexity で Llama 2 70B より約 2.5 倍速い。

後続: Jamba 1.5 Mini/Large (2024.8)、Jamba 1.6 (2025) — 洗練された後継。NVIDIA Hymba、IBM Bamba も同パターン。

15 章 · Falcon Mamba 7B (2024.8) — UAE 製の純 SSM

組織: TII (Technology Innovation Institute)、アブダビ。

2024 年 8 月公開。Mamba アーキテクチャで学習された初の 7B 級汎用言語モデル。それまで SSM 陣営は 1.5B / 2.7B で止まっていた規模を一段引き上げた。

特徴:

Attention ゼロ、Mamba ブロックのみで学習。
5.5T トークン — Llama 3 級の学習予算。
MMLU 等ベンチで Llama 3 7B、Mistral 7B と同等。
Hugging Face で重み公開、Apache 2.0。

TII はその後、比較研究のため Falcon Mamba を Jamba 風ハイブリッドにも拡張。SSM が「おもちゃ」段階を抜けた信号。

16 章 · Test-Time Training (Sun et al 2024.7) — 推論中にも学習

論文: Sun et al., "Learning to (Learn at Test Time): RNNs with Expressive Hidden States", Jul 2024. arXiv:2407.04620.

TTT の中核は — 隠れ状態そのものを小さな学習可能モデルにし、推論中に系列を流しながらその重みを SGD で更新すること。

入力トークン ──▶ inner-loop SGD ──▶ 隠れ状態 MLP の重み更新
                                          │
                                          ▼
                                  出力トークン予測

長所:

非常に長い文脈で、RNN 状態よりはるかに良い情報圧縮。
明示的な inner update により in-context 学習が自然に発生。
Mamba と同じ線形時間推論。

著者 (Yu Sun, Tatsunori Hashimoto ら Stanford/CMU 連合) は 7B まで学習し、Mamba 2 7B 並みの性能を報告。2025〜2026 年は TTT-MLP、TTT-Linear、TTT-Hash の変種が続出中。

17 章 · DiT (Diffusion Transformer) — Sora の背骨

論文: Peebles & Xie, "Scalable Diffusion Models with Transformers", ICCV 2023. arXiv:2212.09748.

UC Berkeley の William Peebles と Saining Xie が提案。拡散モデルのバックボーンを U-Net から Transformer に置き換えても (むしろ) より良く動くことを示した。要素:

画像をパッチでトークン化。
AdaLN-Zero — 拡散タイムステップと条件を LayerNorm のスケール・シフトで注入。
それ以外は標準的な Transformer。

画像 ──▶ patch embedder ──▶ [DiT block] × N ──▶ ノイズ予測
                                  │
                                  ▼
                          条件 (timestep, class, text)

DiT の意義は OpenAI Sora (2024.2)、Stable Diffusion 3、Flux、Lumina-T2X など 2024〜2026 年のほぼ全 SOTA 動画・画像生成モデルが DiT 系列であること。動画では時空パッチをトークンにする。

2026 年の変種:

PixArt-Σ — 効率的 DiT、モバイルまで。
HunyuanDiT, CogVideoX — 中国系。
MovieGen, Veo 2, Sora 2 — 米国大手。
Stable Video Diffusion 2 — Stability AI。

18 章 · MoE — Mixtral / DeepSeek-V3 / Million Experts

MoE (Mixture of Experts) は 1991 年の Jacobs et al. "Adaptive Mixtures of Local Experts" まで遡る。2017 年 Shazeer ほかの Sparsely-Gated MoE で再生し、2023〜2025 年に LLM の主流となった。

要点 — パラメータは多く、活性化は少なく。 FFN を N 個のエキスパートに分け、トークンごとにそのうち k 個だけ点火する。

モデル	総パラメータ	活性パラメータ	リリース
Switch Transformer	1.6T	~7B	2021 (Google)
Mixtral 8x7B	47B	13B	2023.12 (Mistral)
Mixtral 8x22B	141B	39B	2024.4
DBRX	132B	36B	2024.3 (Databricks)
DeepSeek-V3	671B	37B	2024.12 (DeepSeek)
DeepSeek-R1	671B	37B	2025.1 (推論強化版)
Qwen3-235B	235B	22B	2025

DeepSeek-V3 (2024.12) の衝撃は大きかった。総 671B、活性 37B、14.8T トークン学習、H800 で約 280 万 GPU 時間 — およそ 500 万ドルで GPT-4 級。MoE ルーティングでの auxiliary-loss-free balancing と Multi-head Latent Attention (MLA) が二大貢献。

Mixture of A Million Experts (DeepMind PEER, 2024.8)。He et al., "Mixture of A Million Experts", arXiv:2407.04153。product key memory で 1M 個のエキスパートを実質辞書ルックアップでルーティング。疎モデルの未来を示す研究。

19 章 · 長文脈 — Gemini 2M / Magic LTM-2-mini 100M

2024〜2026 年のもう一つの巨大潮流は 文脈長の爆発。

2023:   Claude 2: 100K, GPT-4: 32K
2024:   Gemini 1.5 Pro: 1M, Claude 3: 200K
2024.8: Magic LTM-2-mini: 100M (1 億) トークン
2025:   Gemini 2.5: 2M, Claude 4: 200K
2026:   多くのモデルで 1M+ が標準

長文脈を支える技術スタック:

アルゴリズム: Flash Attention 3, Ring Attention, PagedAttention (vLLM), StreamingLLM。
位置埋め込み: RoPE → YaRN → LongRoPE → NTK-aware scaling。
アーキテクチャ: SSM ハイブリッド (Jamba, Hymba) の方がメモリ面で密 Transformer より有利。
データ: 長文脈 fine-tuning、needle-in-a-haystack 評価。

Magic LTM-2-mini (2024.8) は少し別系統。100M 文脈のため attention ではない 新しいシーケンスアーキテクチャ (LTM, Long-Term Memory) を発表。100M トークンの needle-in-a-haystack でほぼ完璧な再現率を報告。詳細は非公開だが、SSM とハッシュベース検索の組合せと見られる。

20 章 · 韓国 — Naver HyperCLOVA X / Kakao Brain / KAIST

韓国勢の追い上げは速い。

Naver HyperCLOVA X (HCX)。2024 年 HCX-Seed 公開、2025 年は HCX-Speech、HCX-Vision などマルチモーダル拡張。社内では Llama 3 系 Transformer を韓国語・日本語チューニングしたものと自社学習を併用。HCX-3.5 (2025) は MoE を一部導入と公表。
Kakao Brain — KoGPT、mini.kanana。韓国語 Stable Diffusion チューニングと KakaoTalk 統合。2024 年 KoChat 7B/30B、2025 年に社内マルチモーダルアシスタント Kanana。
KAIST AI。Edward Choi グループの医療 LLM、Sung Ju Hwang グループの効率学習、Se-Young Yun グループの distillation。2025 年は KAIST 主導の SAIDA (Sparse Attention via Importance Distillation) など効率 attention 研究。
Upstage Solar、NCSOFT VARCO、LG AI Research EXAONE 3.5/4.0 — いずれも Transformer。
Sionic AI、Nota — オンデバイス圧縮・量子化。

韓国勢の特徴は (1) 韓国語・日本語トークナイザの最適化、(2) オンデバイス・エッジ圧縮、(3) 医療・法務のドメイン特化 — の三つ。純粋な SSM 研究はまだ学界中心。

21 章 · 日本 — Sakana AI / NTT Tsuzumi / ELYZA / PFN

日本勢も独自の景色。

Sakana AI (東京、2023、David Ha と Llion Jones)。進化アルゴリズムによる evolutionary model merging で有名。2024 年の EvoLLM-JP は日本語数学モデルの重みを進化的に混ぜて SOTA を作った。2025 年の The AI Scientist v2 はモデル自体より自律研究エージェント。
NTT つづみ (Tsuzumi)。NTT が 2023 年に公開した日本語 LLM。7B/13B の軽量規模で日本企業のオンプレ普及にフォーカス。2025 年の Tsuzumi 2 はマルチモーダル拡張。
ELYZA (東大発スピンアウト)。Llama ベース日本語チューニングの強豪。Llama-3-ELYZA-JP-8B、ELYZA-Tasks-100 評価セット。2024 年 KDDI 子会社化。
Preferred Networks (PFN)。トヨタ自動運転、創薬など産業応用に注力。自前スパコン MN-3、モデル PLaMo 100B。2025 年の PLaMo Translate は日英韓翻訳で GPT-4 と競合。
AI Inside, Rinna, Stockmark, Karakuri。ドメイン特化・中堅規模。

日本勢の特徴は (1) 進化・自律研究などメタレベルアプローチ (Sakana)、(2) 製造・自動車・創薬など産業直結 (PFN)、(3) 日本語データの質・量 — の三つ。東大・京大の情報系研究室も活発だ。

22 章 · 誰がどのアーキテクチャを選ぶべきか

三つのペルソナで整理する。

学術研究者

表現力の限界研究 — Transformer 本流。Anthropic の解釈性ツール、mechanistic interpretability コミュニティ。
効率的シーケンスモデル — Mamba 2、RWKV-7、xLSTM、TTT を直接いじる。
理論 — SSD フレーム (Dao & Gu 2024)、線形 attention 系のサーベイ。

推論コストを下げたい本番チーム

クラウド高並行サービス — Mixtral 8x22B、DeepSeek-V3、Jamba 1.6。MoE で活性パラメータを抑える。
オンデバイス / エッジ — RWKV-7 1.5B/3B、RecurrentGemma、量子化した Falcon Mamba 7B。KV キャッシュが小さいかゼロ。
GPU コスト削減 — 同じ perplexity で SSM ハイブリッドはスループット 2〜3 倍。

長文脈が必要なチーム

1M+ 文脈 — Gemini 2.5、Magic LTM-2-mini。SaaS が現実的。
自前ホスト 256K〜1M — Jamba 1.6、Hymba、Bamba — Mamba + Transformer ハイブリッド。
時系列・長期メモリ — TTT、S5、TimeMixer。

画像・動画生成

画像 — DiT 系列 (Stable Diffusion 3、Flux、PixArt)。
動画 — Sora 2、Veo 2、MovieGen、CogVideoX、HunyuanVideo、Stable Video 2 — すべて DiT。

23 章 · 触ってみる — 30 分で SSM を体感

SSM の感触を最速で掴むなら Mamba 2 から。

# 1) 環境
conda create -n ssm python=3.11 -y
conda activate ssm
pip install torch==2.4.0 transformers accelerate
pip install mamba-ssm causal-conv1d

# 2) 最小コード
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Mamba 2 130M (学習用ベイビー)
name = "state-spaces/mamba2-130m"
tok = AutoTokenizer.from_pretrained(name)
model = AutoModelForCausalLM.from_pretrained(name, torch_dtype=torch.float16).cuda()

prompt = "状態空間モデルは"
ids = tok(prompt, return_tensors="pt").input_ids.cuda()
out = model.generate(ids, max_new_tokens=128)
print(tok.decode(out[0]))

# 3) RWKV-7 も同じ感じ
pip install rwkv
# あるいは HuggingFace の RWKV/rwkv-7-world-1.5B

# 4) Jamba 1.6 (大きな VRAM が必要、80GB H100 推奨)
pip install transformers>=4.42 mamba-ssm causal-conv1d
# from transformers import AutoModelForCausalLM
# AutoModelForCausalLM.from_pretrained("ai21labs/AI21-Jamba-1.6-Mini")

小モデルでも — 同じ長さで Transformer 比約 2〜3 倍速いトークン毎デコード、KV キャッシュがほぼ無いメモリパターンが実測できる。PyTorch の torch.cuda.memory_allocated() で比較すると差がはっきり見える。

24 章 · 結論 — 2026 年のモデルアーキテクチャの意味

7 年間、Transformer 一つがあらゆる系列問題を解いた。その時代は終わった — と言うのは言い過ぎ。Transformer は今も SOTA の中央にある。しかし 2026 年では次の五つが明確だ。

巨大 LLM はますます MoE へ。 DeepSeek-V3、Qwen3、Mixtral、そして次の閉鎖モデルたち。
オンデバイス・エッジは SSM とハイブリッドの天下。 RecurrentGemma、RWKV-7、Falcon Mamba。
画像・動画は DiT 一色。 Sora 2、Veo 2、MovieGen。
長文脈アルゴリズム (Flash Attention 3、Ring Attention) が学習と推論の両方を書き換えた。
韓国・日本勢はドメイン特化・産業応用・進化メタ学習など独自色で定着。

エンジニアの仕事は — 一つのアーキテクチャに忠誠を誓わないこと。タスクに合った道具を選ぶこと。そして次の 5 年でどんなアーキテクチャが出てくるかを楽しむことだ。

参考 · References

Vaswani et al., "Attention is All You Need", NeurIPS 2017. https://arxiv.org/abs/1706.03762
Dao et al., "FlashAttention", NeurIPS 2022. https://arxiv.org/abs/2205.14135
Dao, "FlashAttention-2", 2023. https://arxiv.org/abs/2307.08691
Shah et al., "FlashAttention-3", 2024. https://arxiv.org/abs/2407.08608
Liu et al., "Ring Attention", 2023. https://arxiv.org/abs/2310.01889
Gu & Dao, "Mamba", 2023. https://arxiv.org/abs/2312.00752
Dao & Gu, "Transformers are SSMs (Mamba 2 / SSD)", 2024. https://arxiv.org/abs/2405.21060
Poli et al., "Hyena Hierarchy", 2023. https://arxiv.org/abs/2302.10866
Peng et al., "RWKV", EMNLP 2023. https://arxiv.org/abs/2305.13048
RWKV Foundation. https://rwkv.com
Sun et al., "Retentive Network (RetNet)", 2023. https://arxiv.org/abs/2307.08621
De et al., "Griffin", 2024. https://arxiv.org/abs/2402.19427
Google RecurrentGemma. https://huggingface.co/google/recurrentgemma-2b
Smith et al., "S5", ICLR 2023. https://arxiv.org/abs/2208.04933
Katharopoulos et al., "Linear Transformers / Transformers are RNNs", 2020. https://arxiv.org/abs/2006.16236
Schlag, Irie, Schmidhuber, "Linear Transformers as Fast Weight Programmers", 2021. https://arxiv.org/abs/2102.11174
Beck et al., "xLSTM", 2024. https://arxiv.org/abs/2405.04517
AI21 Labs, "Jamba", 2024. https://arxiv.org/abs/2403.19887
TII Falcon Mamba 7B. https://huggingface.co/tiiuae/falcon-mamba-7b
Sun et al., "Test-Time Training (TTT)", 2024. https://arxiv.org/abs/2407.04620
Peebles & Xie, "DiT", 2022. https://arxiv.org/abs/2212.09748
DeepSeek-V3 Tech Report. https://arxiv.org/abs/2412.19437
He et al., "Mixture of A Million Experts (PEER)", 2024. https://arxiv.org/abs/2407.04153
Mixtral of Experts. https://arxiv.org/abs/2401.04088
Magic LTM-2-mini. https://magic.dev/blog/100m-token-context-windows
Gemini 1.5 Technical Report. https://arxiv.org/abs/2403.05530
Sakana AI EvoLLM. https://arxiv.org/abs/2403.13187
NTT Tsuzumi. https://www.rd.ntt/e/research/JN202310_18075.html
ELYZA Llama-JP. https://huggingface.co/elyza
Preferred Networks PLaMo. https://www.preferred.jp/en/projects/llm/
Naver HyperCLOVA X. https://clova.ai/en/ko-llm
KAIST AI. https://gsai.kaist.ac.kr