Skip to content
Published on

Groq と SambaNova — 推論に全振りしたチップたち

Authors

はじめに

過去10年、AIハードウェアの話は事実上「学習用GPU」の話でした。より大きなモデルをより速く学習させる競争が市場を引っ張ってきました。ところが2026年、重心が移りつつあります。モデルはすでに十分賢くなり、いまや問題はそのモデルを「どれだけ安く速くサービングするか」です。

この流れを数字で言えば、2026年は推論capexが学習capexを初めて上回る転換点として語られます。クラウド事業者が自社の推論ASICを次々に投入し、推論専用チップの市場シェアが急速に上がる背景です。

学習が「モデルを作る一回限りの投資」なら、推論は「そのモデルを使う間、毎日発生する運用費」です。モデルが広く使われるほど推論コストが累積し、だから推論効率のひとつかみが巨大なコスト削減につながります。この経済学が推論専用チップの登場を支えます。

本稿の主役は、その流れの先頭に立つ2社です。Groqは LPU(Language Processing Unit)で「決定的で極端に低い遅延」を、SambaNovaは RDU(Reconfigurable Dataflow Unit)で「データフローの再構成」を武器にします。どちらもGPUとは根本的に異なる設計哲学を持ちます。

本稿はこの2つのチップの動作原理を可能な限り直感的に解きほぐし、GPUに対しどこで勝ちどこで負けるかをバランスよく押さえることを目標とします。マーケティングの文句ではなく設計の論理をたどっていけば、「なぜこうしたチップが今、現れるのか」が自然に理解できるはずです。


0. 用語を先に — LPU、RDU、そしてASIC

本文に入る前に、よく出る略語を先に整理すると読みやすくなります。

略語展開一言説明
LPULanguage Processing UnitGroqの推論特化チップ。決定的実行が特徴
RDUReconfigurable Dataflow UnitSambaNovaのチップ。データフローを再構成
ASICApplication-Specific IC特定用途に合わせたカスタムチップ
HBMHigh Bandwidth Memoryチップの隣に積む高帯域メモリ
SRAMStatic RAM速いオンチップメモリ
decode(推論段階)トークンを1つずつ順次生成する段階

表の最後の行に置いたdecodeはチップではなく推論の1段階ですが、推論チップを理解するうえで非常に重要なので一緒に記しておきました。後ほど再び詳しく扱います。

LPUとRDUはどちらも広い意味で推論に特化したASICの一種です。GPUが「何でも処理する汎用チップ」なら、これらは「推論、特にLLMサービングをうまくこなすよう絞ったチップ」です。絞る代わりにその領域でより良くこなすこと、これが特化チップの基本的な取引です。

この取引の損益を理解することがこの記事の目標です。何を手放し(汎用性、エコシステム)、何を得るか(遅延、効率)。その均衡を知れば、「自分のワークロードにこのチップが合うか」を自分で判断できるようになります。


1. なぜ推論専用チップか

学習と推論は似て見えますが、ワークロード特性が異なります。

特性学習推論(サービング)
バッチサイズ大きくできる小さいか1(リアルタイム)
重要指標スループット、時間あたりコスト遅延、トークン/秒
データ再利用高い低い(トークンごとに重み1回読み)
精度高めから開始量子化を積極活用

特にリアルタイムLLMサービングはバッチが小さく、トークンを1つ作るたびにモデルの重みを一度読む必要があるためメモリ帯域に縛られます。GPUは学習向けにスループットを最大化するよう設計されているため、この「小バッチ・低遅延」領域では潜在力を使い切れないことが多いのです。推論専用チップはまさにこの隙間を狙います。

たとえるなら、学習は貨物トラックで一度に多くの荷物を運ぶことに近く、リアルタイム推論は配達バイクで1件を速く届けることに近いのです。貨物トラック(GPU)はスループットが圧倒的ですが、たった1件を最も速く届けるにはバイク(推論チップ)が有利になり得ます。両者は競争するというより、それぞれ異なる仕事を得意とします。


2. Groq LPU — 決定的実行という発想

キャッシュも投機もない

一般的なプロセッサは性能のためにキャッシュ、分岐予測、アウトオブオーダー実行などの「動的」技法を多用します。これらは平均性能を上げますが、実行時間が入力と状態によってばらつきます。同じ演算でもキャッシュヒットなら速く、ミスなら遅いのです。

Groqの LPU はこの動的要素を取り除きます。実行が決定的(deterministic)です。どの演算が正確に何サイクル目にどこで実行されるかが、コンパイル時点ですべて決まります。ハードウェアにキャッシュミスや予測失敗のような「運による変動」がありません。

一般プロセッサ                   Groq LPU
-----------------               -----------------
ランタイムにスケジューリング     コンパイル時にスケジューリング
キャッシュヒット/ミスで時間変動  サイクル単位で時間確定
ハードウェアが順序を決定         コンパイラが順序を決定
遅延が予測不能                   遅延が予測可能

コンパイラがすべてを決める

この決定性はコンパイラに莫大な責任を負わせます。どのデータがいつどの演算ユニットに届くべきか、メモリからいつ読むべきかを、コンパイラがサイクル単位で前もって配置します。ハードウェアはその計画をそのまま実行するだけです。

利点は明確です。遅延が予測可能で非常に低いのです。トークン生成速度が一貫して速く、テール遅延(tail latency)が跳ねません。オンチップSRAM中心に重みを置き、HBMの変動性に頼らない構造がこれを支えます。

# 概念的な流れ(実際のAPIとは異なる場合がある)
import groq_compiler as gc

model = load_transformer("my-llm")

# コンパイラが演算をサイクル単位でスケジューリング。
# 生成されたバイナリは決定的に実行される。
plan = gc.compile(model, target="lpu", seq_len=2048)

# サービング:遅延が一貫して低い。
for prompt in requests:
    tokens = plan.generate(prompt, max_tokens=256)

トレードオフ

代わりに単一LPUのオンチップメモリは小さいです。大きなモデルをサービングするには複数のLPUを束ねてモデルを展開する必要があり、このシステム構成がコストと複雑度を生みます。決定的設計は遅延で勝ちますが、「大きなモデルを1枚に収める」では不利です。


3. SambaNova RDU — データフローを再構成する

命令を流す代わりに、回路を変える

GPUとCPUは「命令をメモリから取り出して実行」するフォンノイマン方式です。SambaNovaの RDU は別の道を行きます。演算グラフそのものをチップ上に「空間的に配置」する reconfigurable dataflow 方式です。

平たく言えば、モデルのレイヤーたちをチップ上にパイプラインのように敷いておき、データがそのパイプラインを流れ通り過ぎながら結果が出るようにします。命令を毎回取り出すオーバーヘッドが減り、あるレイヤーの出力がメモリを経ずに次のレイヤーへ直接流れます。

フォンノイマン (GPU/CPU)         データフロー (RDU)
-----------------               -----------------
fetch -> 実行 の繰り返し         演算グラフをチップに配置
中間結果をメモリに保存           結果がユニット間を流れる
汎用的、柔軟                     グラフに特化、効率的

再構成可能性

「reconfigurable」の核心は、同じチップを別のモデル/演算グラフに合わせて再配置できる点です。FPGAのように回路を丸ごと変えるわけではありませんが、粗粒度(coarse-grained)単位でデータフロー構成を変えて多様なモデルに適応します。おかげでGPUほどではないものの一定の柔軟性を保ちます。

SambaNovaはまた、大きなモデルを扱うためにメモリを階層的に置き(オンチップ + 大容量外部)、数千億〜兆規模のパラメータモデルも少数のシステムでサービングすることを強調してきました。データフロー配置とメモリ階層が結びつき、モデルを細かく刻まずにサービングするアプローチです。


4. GPUとの比較 — 遅延、スループット、コスト

3つのチップをざっくり比較するとこうなります。

項目GPUGroq LPUSambaNova RDU
設計哲学汎用スループット決定的低遅延データフロー
強み学習 + 推論の両方リアルタイム トークン/秒大モデルの効率サービング
単一チップメモリHBMが大きいオンチップSRAMが小さい階層的
柔軟性最上推論特化中程度
エコシステムCUDA、圧倒的成長中成長中

核心の直感を1つ。GPUは「何でもそこそこうまく」こなし、推論専用チップは「特定領域でより良く」こなします。リアルタイムの単一リクエストのトークン生成でGroqは印象的なトークン/秒を見せ、モデルを少数のシステムで効率的にサービングする点でSambaNovaが強みを主張します。一方、多様なワークロード、急速に変わるモデルアーキテクチャ、豊富なライブラリが必要ならGPUが依然として安全です。


4.5. 同じ推論、異なるチップ — 1枚で見る

ここまでの比較を1つの図に整理すると、同じLLM推論リクエストが各チップでどう処理されるかが見えます。

同じ推論リクエスト、異なる処理方式
-----------------------------------
GPU      : 重みをHBMから読む、大バッチでスループット最大化
LPU(Groq): 重みをオンチップSRAM、決定的にトークンを速く
RDU(Samba): グラフをチップに広げる、大モデルを効率サービング

核心は「正解が1つではない」ことです。同じリクエストでも、何を最適化するかによって異なるチップが答えになります。スループットと柔軟性が欲しければGPU、単一リクエストの一貫した低遅延が欲しければLPU、大きなモデルを少ないシステムで効率的に回したければRDUが候補になります。ハードウェア選択とは「自分が何を最適化したいか」を決めることです。


5. ソフトウェアとコンパイラ

推論専用チップの運命はコンパイラが握っています。ハードウェアがどれだけ速くても、開発者の標準モデルをチップに効率よくマッピングできなければ役に立ちません。

  • Groq: 決定的実行ゆえコンパイラがサイクル単位のスケジュールを組む必要があります。コンパイルがうまくいけば遅延は素晴らしいですが、新しい演算子やモデル構造をサポートするにはコンパイラ作業が必要です。
  • SambaNova: 演算グラフをデータフローとして配置するコンパイラが中心です。PyTorchなどから受けたグラフをRDU構成に変換します。

両社ともPyTorchのような標準フロントエンドを受け入れ、その背後で自社チップ向けの変換を処理する構造を目指します。開発者にとって重要な問いは「自分が使うモデル/演算子がこのチップのコンパイラで1級市民として支援されるか」です。支援されれば滑らか、されなければ苦痛です。

[ PyTorch モデル定義 ]
          |
   [ ベンダーコンパイラ ]  <- ここでチップに合わせ変換/スケジューリング
          |
   [ チップ実行バイナリ ]

6. どのワークロードに合うか、そして限界

よく合うところ

  • 低遅延が重要なLLMサービング:対話型チャットボット、音声アシスタント、reasoningチェーンの長いモデル
  • 一貫したテール遅延が必要な本番サービス(特にGroqの決定的実行)
  • モデルを頻繁に変えず、安定して大量サービングする環境

限界

  • メモリとモデルサイズ: 単一チップメモリが小さいと大きなモデルを複数チップに展開する必要があり、システムコストと複雑度が上がります。
  • 柔軟性: モデルアーキテクチャが急速に進化する時期に、特化チップのコンパイラが最新の演算子に追いつけないと採用が遅れます。
  • エコシステム: CUDAのライブラリ・コミュニティ・人材プールという堀は依然として大きいです。

6.5. トークン/秒がなぜ重要か — 直感的な計算

推論チップの核心指標である「トークン/秒」が実際に何を意味するのか、概念的にたどってみましょう。

LLMが答えを生成するとき、decode段階はトークンを1つずつ順次作ります。各トークンを作るにはモデルの重みを一度読む必要があります。したがってトークン生成速度はおおよそ「重み全体をどれだけ速く読むか」に比例します。

トークン生成速度 ~ 重み読み出し速度
-----------------------------------
重みがHBMにある -> HBM帯域が上限
重みがオンチップSRAMに -> オンチップ帯域が上限
オンチップ帯域が桁違いに速い -> トークン/秒が大きく向上

直感的に解くとこうです。あるモデルの重みを一度読むのにかかる時間が、トークン1つの最小生成時間を決めます。重みをHBMではなく桁違いに速いオンチップSRAMから読めば、同じモデルでもトークンをはるかに速く出せます。これが推論専用チップが単一リクエストのトークン/秒でGPUを上回る核心原理です。

なぜ単一リクエストが重要なのでしょうか。ユーザーがチャットボットと対話するとき、そのユーザーは自分のリクエスト1つの速さを体感します。バッチで100個のリクエストをまとめてスループットを上げるのはサーバー効率には良いですが、そのユーザー1人の体感速度を速くはしません。リアルタイムの対話では、単一リクエストの遅延がそのままユーザー体験です。


7. 市場ポジショニング — 2026年の絵

2026年のアクセラレータ市場でNVIDIAは依然として約75〜80%を占め、Blackwell世代で学習と推論の両方を押さえます。次世代Vera Rubinが年末ごろ、より高いperf/wattを目標に語られ、Google TPU(Trillium、推論特化Ironwood)とAMD MI350Xが競争を形成します。

この巨大な陰の下で、GroqとSambaNovaが狙う場所は「すべて」ではなく「推論遅延」という一点です。推論ASICの市場シェアが2024年の約15%から2026年の約40%へと見込まれるほど急速に拡大する流れは、こうした特化チップに追い風です。推論capexが学習capexを上回る時代に、「安く速いサービング」はそのままお金になる能力だからです。


8. 開発者の視点 — 何を見て判断するか

特化チップの導入を検討する開発者なら次を点検するとよいでしょう。

  • 自分のモデルが支援されるか: 使うアーキテクチャと演算子がベンダーコンパイラで1級支援されるか確認します。
  • 本当のボトルネックが遅延か: ワークロードがバッチスループット中心ならGPUが良いかもしれません。単一リクエスト遅延が核心なら特化チップが輝きます。
  • 総所有コスト(TCO): チップ単価だけでなく、大モデルを展開するのに必要なシステム数、電力、運用複雑度も合わせて見ます。
  • ロックイン リスク: ベンダー依存とエコシステム成熟度を評価します。移行経路があるか確認します。

8.5. より大きな流れ — なぜ今、推論チップか

推論専用チップの台頭を一歩引いて見ると、いくつかの構造的な力が同時に働いていることが分かります。

  • モデルの成熟: 巨大モデル学習の競争がある程度安定するにつれ、価値の重心が「より良いモデルを作る」から「あるモデルをうまく使う」へ移ります。推論がそのままビジネスです。
  • 電力上限: データセンター電力が実質的な上限になるにつれ、同じ仕事をより少ない電力でこなす効率が直接の競争力になります。
  • コスト圧力: モデルをサービングするコストが運用費の大きな部分を占めるにつれ、推論あたりコストを下げるハードウェアがそのままマージンにつながります。
  • ワークロードの分化: reasoningのように推論過程を長く展開するモデルが増えるにつれ、decode段階の低遅延がより重要になります。

これらの力が合わさり、推論ASICの市場シェアが2024年の約15%から2026年の約40%へと見込まれる急成長を生みます。NVIDIAが約75〜80%で依然として支配的ですが、クラウド事業者の自社推論ASICやGroq・SambaNovaのような特化チップがその隙間を素早く埋めています。

2024 -> 2026 推論ASICシェアの流れ
-----------------------------------
2024: 約15% (大部分がGPU)
2026: 約40% (自社ASIC + 特化チップが急増)
背景: 推論capexが学習capexを初めて上回る

核心は、この流れが一時的な流行ではなく構造的な転換である点です。モデルが成熟し、電力が上限になり、推論がビジネスになる限り、推論効率を武器にするチップの場所は広がり続けます。


9. LLM推論の2段階 — prefill と decode

推論専用チップを正しく理解するには、LLM推論が2段階に分かれることを知る必要があります。

  • prefill段階: 入力プロンプト全体を一度に処理し、最初のトークンを作る準備をします。トークンが多く並列性が高く、演算(compute)に縛られる傾向があります。
  • decode段階: トークンを1つずつ順次生成します。トークンごとにモデルの重みを一度読む必要があり、メモリ帯域に縛られます。
prefill (並列, compute-bound)     decode (順次, bandwidth-bound)
-----------------               -----------------
プロンプト全体を一度に            トークンを1個ずつ生成
演算量が大きい                    トークンごとに重み1回読み
スループットが重要                遅延が重要

推論専用チップが輝くのは主にdecode段階です。ユーザーが体感する「打ち込まれる速さ」はdecode速度であり、これがメモリ帯域に縛られているからです。GroqがオンチップSRAMで重み読み出しを加速し、決定的実行でトークンごとの時間を確定するのは、まさにこのdecode段階の一貫した低遅延を狙った設計です。この2段階の区別を知ると、なぜ「トークン/秒」が推論チップの核心指標なのかが明確になります。


10. 決定的実行が運用に与える意味

Groqの決定的実行は単に「速い」を超えて、本番運用に実質的な価値を与えます。

本番サービスで最も扱いにくいのは平均遅延ではなくテール遅延(tail latency)です。1000回のリクエストのうち999回が速くても、1回跳ねればそのユーザーは悪い体験をします。SLA(サービスレベル合意)は通常、平均ではなくp99のようなテール指標で定義されます。

変動の大きいシステム              決定的システム
-----------------               -----------------
平均は速い                        平均も速い
時々遅延が跳ねる(p99が悪い)       テールも安定(p99が良い)
キャッシュミスなど運に左右         サイクル単位で確定
容量算定が難しい                  容量算定が容易

キャッシュミスやスケジューリング変動のない決定的システムはテール遅延が安定します。これは2つの運用上の利点につながります。第1にSLAを守りやすいこと。第2に容量算定が容易なことです。各リクエストが正確にどれだけかかるか予測できるので、何台のシステムが必要か精密に計算できます。変動の大きいシステムは最悪の場合に備えて過剰プロビジョニングしがちですが、決定的システムはこの無駄を減らします。


11. データフロー vs フォンノイマン — より深い対比

SambaNovaのデータフローアプローチをより深く理解するため、2つのパラダイムを並べて見ましょう。

フォンノイマン機械(CPU、GPU)は「命令ストリーム」を中心に動作します。メモリから命令を取り出し、解釈し、実行するサイクルを繰り返します。柔軟ですが、命令を取り出すオーバーヘッドと中間結果をメモリに保存するコストが伴います。

データフロー機械(RDU)は「データ依存性」を中心に動作します。演算グラフをチップ上に広げておき、データが揃うと該当する演算が自動的に実行されます。ある演算の出力が次の演算の入力として直接流れ、中間結果をメモリに保存して読み直す往復が減ります。

フォンノイマン                    データフロー
-----------------               -----------------
命令が流れの中心                  データが流れの中心
fetch-decode-execute の繰り返し   グラフを空間に広げる
中間結果のメモリ往復              結果がユニット間を直接流れる
柔軟だがオーバーヘッド            グラフに特化、効率的

ニューラルネット推論は本質的に決まった演算グラフ(レイヤーの連鎖)を繰り返し実行することです。グラフが固定的なら、毎回命令を取り出すフォンノイマン方式より、グラフをチップに広げるデータフロー方式が自然に効率的です。RDUの「reconfigurable」はこの広げ方を別のグラフに合わせてやり直せることを意味し、だから多様なモデルに適応しつつデータフローの効率を享受します。


12. 量子化と精度 — 推論チップの共通の武器

推論専用チップが共通して頼る技法が量子化(quantization)です。学習は通常高い精度(FP16、BF16など)で行いますが、推論は低い精度(INT8、FP8、さらに低いビット)でも十分に正確な場合が多いのです。

低い精度は推論チップに3つの利得を与えます。

  • メモリ節約: 重みを少ないビットで保存すると、同じSRAMにより大きなモデルが入ります。
  • 帯域節約: トークンごとに読む重み量が減り、decode速度が速くなります。
  • 演算効率: 低ビット演算ユニットはより小さく速く、同じ面積により多く入れられます。
精度          メモリ/帯域      精度リスク
-----------------------------------------
FP16/BF16     基準            安全
INT8/FP8      半分程度        ほぼ安全
より低いビット  より節約        モデル/レイヤーにより危険

もちろん精度を下げると正確さが落ちるリスクがあり、どこまで下げてよいかを見つけることが核心です。推論チップとそのコンパイラは通常、こうした量子化経路をよく支援するよう設計されます。開発者にとっては「自分のモデルがこのチップでどの精度まで正確さを保つか」が実務的に重要な問いです。


13. 2社の戦略の違いを整理する

GroqとSambaNovaは同じ「推論」市場を狙いますが、強調点が異なります。

側面GroqSambaNova
核心の武器決定的実行、超低遅延データフロー、大モデル効率
メモリ哲学オンチップSRAM中心オンチップ + 大容量外部階層
主力シナリオ一貫した低遅延トークン生成少数システムで大型モデルサービング
強調する指標トークン/秒、p99遅延モデルあたりシステム数、効率

ざっくり言えば、Groqは「1リクエストを最も速く一貫して」に近く、SambaNovaは「大きなモデルを最も効率的に」に近いのです。どちらが合うかは、再びワークロード次第です。超低遅延の対話型サービスならGroqの強みが、数千億パラメータ級の大型モデルを少ないインフラでサービングするならSambaNovaの強みが際立ちます。


14. よくある質問

Q. 推論専用チップはGPUを置き換えますか? いいえ。学習と多様なワークロードはGPUが中心であり続けます。推論チップは低遅延サービングという特定領域を狙う補完材です。

Q. 決定的実行がなぜそれほど重要なのですか? テール遅延が安定してSLAを守りやすく、容量算定が容易になるからです。本番運用で予測可能性は大きな価値です。

Q. 自分のモデルをすぐ載せられますか? コンパイラが支援する演算子とモデル構造なら比較的滑らかです。支援されない最新の演算子があれば作業が必要かもしれません。

Q. どの指標を見るべきですか? 単一リクエストのトークン/秒、p99遅延、そして大きなモデルを広げるのに必要なシステム数と電力を合わせて見ます。平均スループットだけ見ると推論チップの強みを見落とすことがあります。


15. 一目で分かる核心まとめ

  • 2026年は推論capexが学習capexを初めて上回る転換点で、推論専用チップに追い風の時代です。
  • Groq LPUは決定的実行で予測可能で低い遅延を提供します。コンパイラがサイクル単位でスケジュールを組みます。
  • SambaNova RDUはデータフローをチップに広げ、大きなモデルを少数システムで効率的にサービングします。
  • 両チップともコンパイラが運命を握り、自分のモデル/演算子の支援可否が導入の鍵です。
  • GPUを置き換えるより、低遅延推論という特定領域を狙う補完材として位置します。

おわりに

GroqとSambaNovaはGPUを正面から打ち負かそうとはしません。代わりにGPUが構造的に不利な「推論、特に低遅延サービング」という一点を深く掘り下げます。Groqは決定的実行で予測可能で低い遅延を、SambaNovaはreconfigurable dataflowで効率的な大モデルサービングを武器にします。

彼らの成否は結局2つにかかっています。1つはコンパイラが開発者のモデルをどれだけ滑らかに受け止めるか、もう1つは推論中心の時代への移行がどれだけ速く深く進むかです。明らかなのは、「1つのチップがすべてをうまくこなす」時代が暮れ、ワークロードごとに最適なハードウェアを選ぶ時代が来つつあることです。その選択肢が増えることは、開発者にとって良い知らせです。

最後に1つ強調したいことがあります。良いハードウェア選択はベンチマークの数字を比較することから始まりません。「自分のワークロードの本当のボトルネックは何か」をまず測定することから始まります。その問いに答えられれば、GroqでもSambaNovaでもGPUでも、道具は自然について来ます。


参考資料