エッジ AI と TinyML 2026 — LiteRT / ExecuTorch / Edge Impulse / Jetson / Coral / Hailo / Sipeed K230 / llama.cpp / Phi-4 徹底ガイド

1. 2026 年エッジ AI 地図 — MCU / SBC / スマホ / 自動車の 4 分類
2. TFLite Micro → LiteRT(2024 年のリブランド)
3. ExecuTorch(PyTorch)GA — LiteRT の正面からの代替
4. Edge Impulse — 最大の TinyML プラットフォーム
5. NVIDIA Jetson Orin Nano / NX / Thor / AGX
6. Coral Dev Board(Google TPU) — 4 TOPS、2 W
7. Hailo-15 / Hailo-8 NPU — イスラエル発のダークホース
8. Sipeed K230 — RISC-V + NPU 初のメインストリーム
9. Rockchip RK3588 — SBC NPU の事実上の標準
10. MaixPy / Arduino Nano 33 BLE Sense / Seeed Wio AI
11. ONNX Runtime Mobile / Core ML / TensorRT / Apache TVM
12. スマホで LLM — MLC LLM / llama.cpp / Whisper.cpp / GGUF
13. 小さなモデル — Phi-3 / 3.5 / 4(MS) / Gemma 2 / 3(Google) / Llama 3.2 1B / 3B
14. Always-on AI — センサー + ML の時代
15. 韓国 / 日本のエッジ AI — ETRI / Samsung / LG / Sony AI / NTT
16. エッジ AI を学ぶべきは誰か — IoT / モバイル / 自動車
17. 参考 / References

1. 2026 年エッジ AI 地図 — MCU / SBC / スマホ / 自動車の 4 分類

2026 年のエッジ AI(Edge AI)は単一カテゴリではありません。「エッジ」という言葉一つの中に、消費電力 100 mW のマイコンから 100 W を超える自動運転コンピューターまでが同居しており、そこで動くモデルも 1KB 未満のキーワード検出から 4-bit 量子化された 70B LLM まで多種多様です。

まずは 2026 年のエッジ AI デバイスを大きく 4 つに分類します。

MCU(マイコン)クラス — 消費電力 1-100 mW、メモリ 16KB-2MB、モデル 1KB-1MB。Arduino Nano 33 BLE Sense、Seeed XIAO ESP32-S3、STMicro STM32H7、Nordic nRF52840。キーワード検出(Hey Siri)、振動異常検知、ジェスチャー認識
SBC(シングルボードコンピュータ)クラス — 1-15 W、4-16 GB メモリ、1MB-1GB モデル。Raspberry Pi 5、Rockchip RK3588 ボード、NVIDIA Jetson Orin Nano、Coral Dev Board、Sipeed K230。物体検出、姿勢推定、音声認識
モバイル / スマホクラス — 5-15 W、8-16 GB メモリ、1-8 GB モデル。iPhone(A17/A18 Bionic + Neural Engine)、Galaxy S24/S25(Snapdragon 8 Gen 3/4 + Hexagon NPU)、Pixel 9(Tensor G4 + Edge TPU)。1B-7B 量子化 LLM、オンデバイス Whisper、Stable Diffusion(LCM)
自動車 / ロボティクス / 産業クラス — 30-130 W、32-64 GB メモリ、1B-70B モデル。NVIDIA Jetson AGX Orin、Jetson Thor(2026 新製品)、Tesla FSD HW4、Mobileye EyeQ7。自動運転、ヒューマノイドロボット、産業用ビジョン

2024 年で最も大きな出来事は二つあります。第一に、Google が TensorFlow Lite のモバイル / 組込ランタイムを LiteRT にリブランド — TFLite の正式名称は LiteRT、TFLite Micro は LiteRT Micro になりました。第二に、Meta が ExecuTorch を GA として発表 — PyTorch 陣営のモバイル / 組込ランタイムが TFLite / LiteRT の直接的な代替として登場しました。

それ以前は「エッジで PyTorch を動かすには ONNX 経由で TFLite に変換」が定石でしたが、今は PyTorch → ExecuTorch という直線ルートが用意されました。したがって 2026 年のエッジ AI の最初の分岐点は、LiteRT(Google)陣営と ExecuTorch(Meta / PyTorch)陣営のどちらに進むかです。

本稿はそのすべての分岐点を 1 枚の地図に整理します。MCU からスマホまで、Google から Meta まで、ONNX Runtime から Core ML まで、小さなモデル(Phi-3、Gemma 3、Llama 3.2)から大きなモデル(70B GGUF)まで、韓国 / 日本のエッジ AI 事例も含めて取り扱います。

2. TFLite Micro → LiteRT(2024 年のリブランド)

まずは TFLite Micro が LiteRT に変わった話から始めます。

Google が 2017 年に TensorFlow Lite を発表して以来、TFLite はモバイル / 組込 ML の事実上の標準になりました。さらに 2018 年に TFLite Micro — 数十 KB の RAM しか持たない MCU でも動く軽量ランタイム — が追加され、両者は約 7 年間 Google のエッジ ML 戦略の中核でした。

そして 2024 年 5 月の Google I/O で、Google は二つの変更を同時に発表しました。

TensorFlow Lite を LiteRT に改名
LiteRT はもう TensorFlow 専用ではない — PyTorch、JAX、Keras のいずれからも変換可能

リブランドの理由は明白です。「TFLite」という名前は TensorFlow に縛られすぎていて、実際 2023-2024 年の ML エコシステムは PyTorch が圧倒的なシェアを持っていました。Google としては「TFLite のランタイムは良いが PyTorch モデルは動かない」という認識を打ち破る必要がありました。

LiteRT の主な変更点:

全フレームワーク(TF、PyTorch、JAX)からのモデル変換対応
PyTorch 変換ルート — torch.export → LiteRT(従来の .tflite ファイル形式を維持)
既存の TFLite コードはそのまま動作 — 移行コストなし
ai_edge_torch パッケージで PyTorch からの直接変換に対応
MediaPipe の上に LLM Inference API が同梱(Gemma 2B のようなモデルをスマホで動かす標準パス)

LiteRT Micro(旧 TFLite Micro)も同じ流れです。C++ ヘッダオンリーのランタイムはそのままで、これからは PyTorch でも直接モデルを作成して LiteRT Micro に送れます。

簡単な PyTorch → LiteRT 変換の例:

# PyTorch モデル -> LiteRT (旧 .tflite) への変換
import torch
import ai_edge_torch

class TinyClassifier(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.conv = torch.nn.Conv2d(1, 8, 3)
        self.fc = torch.nn.Linear(8 * 26 * 26, 10)
    def forward(self, x):
        x = self.conv(x)
        x = torch.relu(x)
        x = x.flatten(1)
        return self.fc(x)

model = TinyClassifier().eval()
sample_input = (torch.randn(1, 1, 28, 28),)

# torch.export ベースの変換
edge_model = ai_edge_torch.convert(model, sample_input)
edge_model.export("tiny_classifier.tflite")

この .tflite ファイルはそのまま Android、iOS、Raspberry Pi、Coral、ESP32-S3 上で同一に実行できます。

LiteRT のより大きな意義は ExecuTorch との市場競争です。Google が PyTorch 互換性を取り込んでいなければ、PyTorch 陣営は 100% ExecuTorch に流れたはずですが、いまや二つの標準が併存するようになりました。エッジ ML エンジニアにとっては「同じモデルを両方のランタイムで動かして、速い方を選ぶ」時代になったわけです。

3. ExecuTorch(PyTorch)GA — LiteRT の正面からの代替

ExecuTorch は Meta(PyTorch)が 2023 年の PyTorch Conference で初公開したモバイル / 組込向け PyTorch ランタイムです。2024 年に 1.0 GA となり、本格的に LiteRT の競合になりました。

ExecuTorch の中核アイデアは二つ:

PyTorch の torch.export グラフをそのままモバイル / 組込で実行
バックエンドの抽象化により CPU / GPU / NPU / DSP を統一的にサポート

従来の PyTorch Mobile は TorchScript という別の IR(中間表現)を使用していて、PyTorch の動的グラフとの相性が悪く変換失敗が頻発していました。ExecuTorch は torch.export(2.x の新しい静的グラフ API)を標準採用し、変換成功率を大きく引き上げました。

ExecuTorch のバックエンド一覧を見ると、その本気度がわかります。

XNNPACK — ARM CPU 最適化。デフォルトバックエンド
CoreML Delegate — iOS / macOS Neural Engine
MPS Delegate — Apple Metal Performance Shaders(GPU)
Vulkan Delegate — Android GPU
Qualcomm QNN Delegate — Snapdragon Hexagon NPU
MediaTek Neuron Delegate — Dimensity NPU
ARM Ethos-U Delegate — Cortex-M NPU
Cadence DSP、NXP、XTensa — 組込 DSP

1 つの ExecuTorch グラフから、iPhone Neural Engine も Snapdragon Hexagon も Cortex-M Ethos-U も同じソースで動かせます。

簡単な変換例:

# PyTorch -> ExecuTorch 変換
import torch
from torch.export import export
from executorch.exir import to_edge

class MyModel(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.lin = torch.nn.Linear(10, 1)
    def forward(self, x):
        return self.lin(x)

model = MyModel().eval()
example_args = (torch.randn(1, 10),)

# torch.export
exported = export(model, example_args)

# ExecuTorch 変換
edge_program = to_edge(exported)
et_program = edge_program.to_executorch()

# .pte (PyTorch Edge format) として保存
with open("my_model.pte", "wb") as f:
    f.write(et_program.buffer)

Android / iOS の ExecuTorch SDK でこの .pte を読み込めば、元の PyTorch 動的グラフと同じ意味で同じモデルが実行されます。

LiteRT と ExecuTorch の比較:

ライセンス — どちらも Apache 2.0
モデル変換 — LiteRT は PyTorch/TF/JAX、ExecuTorch は PyTorch
ファイル形式 — LiteRT は .tflite、ExecuTorch は .pte
陣営 — Google 対 Meta(PyTorch)
マーケット — LiteRT は Android 標準、ExecuTorch は PyTorch 寄りのモバイル / MCU
ツール — LiteRT は MediaPipe + ai_edge_torch、ExecuTorch は torch.export + delegate

2026 年時点で ExecuTorch は Llama 3.2 1B / 3B の公式モバイル実行パスとして採用されています。Meta が自社 LLM を自社ランタイムで推すのは自然で、Llama 3.2 のモバイルデモはほぼ ExecuTorch + iOS / Android の組み合わせです。

4. Edge Impulse — 最大の TinyML プラットフォーム

Edge Impulse は 2019 年創業の TinyML 専業スタートアップです。2026 年現在、TinyML 分野での事実上の標準クラウドプラットフォームとなっています。

Edge Impulse の強みは、データ収集からデプロイまでのフルスタックを 1 つの UI で扱える点です。典型的な TinyML ワークフロー:

センサーデータ収集 — Arduino / ESP32 / スマホから加速度、マイク、カメラデータをアップロード
ラベリング — Web UI でクリップごとにクラスをラベル付け
前処理 — FFT、スペクトログラム、MFCC などの DSP ブロックを選択
モデル学習 — Keras / scikit-learn / Edge Impulse 独自の EON Tuner が自動探索
量子化 + コンパイル — int8 量子化、EON Compiler が C++ ライブラリを生成
デプロイ — Arduino IDE ライブラリ、PlatformIO、ファームウェア OTA

EON Compiler は Edge Impulse の秘密兵器です。汎用の TFLite Micro インタプリタが約 100 KB の RAM を使うのに対し、EON Compiler はモデルを C++ 静的コードにコンパイルして RAM 使用量を 30-50% 削減します。RAM が 64 KB しかない Cortex-M0+ でも ML を動かせる秘訣です。

代表的なユースケース:

キーワード検出 — 「Hey Alexa」のようなウェイクワード認識
振動異常検知 — 工場モーターに取り付けてベアリング不良を早期検出
姿勢認識 — IMU データから人の姿勢(座る / 立つ / 倒れる)を分類
物体検出 — FOMO(Faster Objects, More Objects)、MobileNet の超軽量バリアント
時系列分類 — ECG、EEG、振動、圧力などの 1 次元信号

Edge Impulse は Sony Spresense、Nordic nRF5340、Renesas RA、Silicon Labs xG24 など主要 MCU ベンダーと公式パートナーシップを結んでおり SDK が整っています。

# Edge Impulse CLI で Arduino Nano 33 BLE Sense に接続
npm install -g edge-impulse-cli

# デバイスファームウェアを書き込み(Arduino Nano 33 BLE Sense)
edge-impulse-daemon --clean

# 学習済みモデルを Arduino ライブラリとしてエクスポート
edge-impulse-runner --download
# -> Arduino IDE で Sketch > Include Library > Add .ZIP Library から .zip をインポート

企業視点では「データ -> モデル -> ファーム」のフルスタックが参入障壁を大きく下げてくれます。ファームエンジニアが ML の博士でなくても、ML エンジニアがファームのベテランでなくても、Edge Impulse 上で両者が出会えます。

2026 年には Edge Impulse Studio に LLM 統合が始まりました。ChatGPT 風のチャット UI で「センサーデータを分析して新しいモデルを提案して」と頼むと、データセット、前処理、候補モデルを自動的に提示します。

5. NVIDIA Jetson Orin Nano / NX / Thor / AGX

NVIDIA Jetson は SBC / 産業用組込 / ロボティクス分野の標準です。2026 年のラインナップは非常に強力です。

Jetson Orin Nano(8GB) — 40 TOPS、7-15 W。入門 / 開発用。$249-$399
Jetson Orin NX(8GB / 16GB) — 70-100 TOPS、10-25 W。産業 / ロボティクス。$599-$899
Jetson AGX Orin(32GB / 64GB) — 200-275 TOPS、15-60 W。自動運転 / ロボット。$1999-$2999
Jetson Thor(2026 新製品) — 2000+ TOPS、130 W。ヒューマノイドロボット / 大型自動運転。$3499(開発者キット)

Jetson Thor は 2025 年の GTC で公開され、2026 年前半に本格出荷されたヒューマノイドロボット向けコンピューターです。Blackwell アーキテクチャの GPU に 128 GB LPDDR5X を載せ、70B クラス LLM をローカルで動かし、14 系統のカメラ / LiDAR を同時処理できます。標準的には NVIDIA Isaac Lab のロボット学習環境、Cosmos のシミュレーション-実機転移モデルと組み合わせて使います。

Jetson のソフトウェアスタックはほぼ NVIDIA デスクトップ GPU と互換です。

JetPack — Ubuntu ベース OS + CUDA + cuDNN + TensorRT 統合 SDK
TensorRT — NVIDIA の推論アクセラレータ。ONNX/PyTorch モデルを GPU 最適化
DeepStream — 映像解析パイプライン。N 台のカメラを同時処理
Isaac ROS — ROS 2 + GPU 高速化ノード。自動運転 / ロボットの標準
NIM(NVIDIA Inference Microservice) — コンテナで LLM サービング

Jetson 上で LLM を動かす標準は llama.cpp(GGUF)または TensorRT-LLM です。Orin Nano 8GB では Phi-3 mini(3.8B)がトークン当たり ~5-10 ms、AGX Orin 64GB では Llama 3.1 70B(4-bit)がトークン当たり ~30-50 ms で動きます。Jetson Thor では同じ 70B がトークン当たり 5 ms 未満になり、デスクトップ RTX 4090 とほぼ同等です。

# Jetson Orin Nano で llama.cpp + Phi-3 mini を実行
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make GGML_CUDA=1 -j

# Phi-3 mini 4-bit GGUF をダウンロード(例)
huggingface-cli download microsoft/Phi-3-mini-4k-instruct-gguf \
  Phi-3-mini-4k-instruct-q4.gguf --local-dir ./models

./llama-cli -m ./models/Phi-3-mini-4k-instruct-q4.gguf \
  -p "What is the capital of Japan?" -n 64 -ngl 32

Jetson の弱点は価格と発熱です。AGX Orin 64GB はほぼ $3000、60 W TDP では能動冷却が必須です。そのため低消費電力 / 低コストを求める人は Coral、Hailo、Rockchip などの代替を探します。

6. Coral Dev Board(Google TPU) — 4 TOPS、2 W

Coral は Google の Edge TPU(Tensor Processing Unit)とそれを搭載したボード群です。NVIDIA Jetson の最も省電力な代替の一つです。

Coral Dev Board — NXP i.MX 8M + Edge TPU。4 TOPS、2 W
Coral USB Accelerator — Raspberry Pi / PC に挿す TPU ドングル。4 TOPS
Coral M.2 / Mini PCIe — 産業用フォームファクター
Coral SoM(System on Module) — 産業ボード統合用

Edge TPU は int8 量子化モデルしか実行できず、MobileNet / EfficientNet-Lite / PoseNet のような軽量 CNN に特化しています。大きな LLM は動かせませんが、「固定された小さなモデルを 24/7 超低消費電力で推論」というシナリオでは NVIDIA Jetson より圧倒的に効率的です。

典型的な Coral 用途:

店舗カメラ — 人数カウント、行列長の推定
スマートドアベル — 人 vs 動物 vs 車両の分類
農場カメラ — 家畜行動分類、作物状態モニタリング
産業 CCTV — ヘルメット装着判定、立入禁止エリア検知
屋外野生動物カメラ — 種の識別

TFLite / LiteRT 上の Edge TPU のコードはとてもシンプルです。

# Coral Edge TPU で物体分類
from pycoral.utils.edgetpu import make_interpreter
from pycoral.adapters import classify, common
from PIL import Image

interpreter = make_interpreter('mobilenet_v2_quant_edgetpu.tflite')
interpreter.allocate_tensors()

image = Image.open('cat.jpg').convert('RGB')
size = common.input_size(interpreter)
common.set_input(interpreter, image.resize(size, Image.LANCZOS))

interpreter.invoke()
classes = classify.get_classes(interpreter, top_k=3)
for c in classes:
    print(f"class={c.id} score={c.score}")

Coral の 2024-2026 における限界は明白です。Edge TPU のシリコンは 2018 年設計で、Google が大型アップデートを行わず、新しいアーキテクチャ(Transformer、ViT)の高速化が弱いです。そのため 2024 年以降、Hailo / Sipeed / Rockchip などの後発勢が市場を奪い始めました。

それでも「実績があり、安定して、4 年以上サポートされる省電力 AI ボード」が欲しい場合、Coral は依然として第一候補です。

7. Hailo-15 / Hailo-8 NPU — イスラエル発のダークホース

Hailo はイスラエル・テルアビブの NPU(Neural Processing Unit)スタートアップです。2017 年創業、2024 年にシリーズ D で $340M を調達してユニコーンになりました。

Hailo の NPU ラインナップ:

Hailo-8 — 26 TOPS、2.5 W。自動車 / 産業組込。M.2 / Mini PCIe 形状
Hailo-8L — 13 TOPS、1.5 W。低価格帯
Hailo-15 — 20 TOPS、5 W(SoC 統合)。ビデオ / IP カメラ SoC。ARM Cortex-A53 + Hailo NPU 統合
Hailo-10H — 40 TOPS、5 W。自動車 ADAS 認証(ASIL-B)

Hailo の最大の強みは TOPS / W、つまり電力あたりの性能です。Coral Edge TPU が 2 TOPS/W なのに対し、Hailo-8 は約 10 TOPS/W で 5 倍の差があります。

特に Hailo-15 は IP カメラ市場を一変させています。これまではカメラが 1080p H.264 を送出し、NVR(Network Video Recorder)が受けて AI 解析するのが普通でしたが、Hailo-15 を搭載したカメラはカメラ内で物体検出 + 人物再識別 + 姿勢推定を完結し、「メタデータ」だけを送信します。帯域 99% 削減、プライバシー強化、応答速度向上のトリプル効果です。

Hailo の SDK は自前の Dataflow Compiler です。

# Hailo Model Zoo の事前学習モデルをダウンロードして実行
pip install hailo-platform hailo-model-zoo

# YOLOv8 をコンパイル(.hef = Hailo Executable Format)
hailomz compile yolov8s --ckpt yolov8s.pt --hw-arch hailo8

# 推論実行
hailomz eval yolov8s --target hailo8 --data-zip-path coco_val.zip

Hailo の弱点はエコシステムです。NVIDIA CUDA や Google TFLite のようなコミュニティ / ドキュメント / 事例はまだ十分ではありません。しかし 2025-2026 年に Bosch、Ficosa、Continental などの自動車 Tier-1 が ADAS 用に Hailo-10H を採用し、自動車市場では NVIDIA、Mobileye と並ぶ 3 大プレイヤーに躍り出ました。

8. Sipeed K230 — RISC-V + NPU 初のメインストリーム

Sipeed は中国・深圳の組込 ML ボード専業企業です。MaixPy シリーズで有名で、2024 年から Sipeed K230(RISC-V + NPU 統合 SoC)を本格出荷して話題になりました。

Sipeed K230 のスペック:

CPU — Canaan Kendryte K230。デュアルコア RISC-V(RV64GC)。1.6 GHz
NPU — Canaan KPU 2.0。6 TOPS @ int8
DSP — Canaan KDPU(digital signal processor)。信号処理 / 音声処理
メモリ — 512 MB LPDDR4
カメラ — MIPI CSI 2 lanes、ISP 統合
フォームファクター — Sipeed CanMV-K230 ボード($45-65) / Sipeed MaixCAM($65)
電力 — 1-3 W

この価格で 6 TOPS NPU + カメラ ISP + デュアル RISC-V がワンチップに入っているのは非常に大きな出来事です。比較すると、Raspberry Pi 5 は $80 ですが NPU がありません(別アクセラレータが必要)。Coral Dev Board は $130 で 4 TOPS。Jetson Orin Nano は $249 から。

RISC-V であることも重要です。ARM Cortex のようなライセンス費用が不要で、中国政府の RISC-V 振興政策(2023-2030 自立計画)と相まって RISC-V インフラが急速に成熟しています。MicroPython、OpenCV、ONNX Runtime はいずれも公式に RISC-V ビルドをサポートします。

Sipeed K230 の開発環境は MaixPy IDE または素の SDK です。

# MaixPy で K230 カメラから YOLOv5 物体検出
from maix import camera, display, nn

# Kendryte KPU 上に YOLOv5 モデルをロード
model = nn.YOLOv5s(model="yolov5s_quant.kmodel")

cam = camera.Camera(640, 480)
disp = display.Display()

while True:
    img = cam.read()
    boxes = model.detect(img, conf_thres=0.5, iou_thres=0.45)
    for box in boxes:
        img.draw_rect(box.x, box.y, box.w, box.h, color="red")
        img.draw_string(box.x, box.y, box.class_name, color="green")
    disp.show(img)

K230 の ".kmodel" は Canaan の独自 NPU 形式です。nncase というコンパイラで ONNX / TFLite モデルを .kmodel に変換します。

# ONNX -> .kmodel(Canaan NPU 形式)変換
pip install nncase

ncc compile yolov5s.onnx yolov5s.kmodel \
  --target k230 \
  --input-type uint8 \
  --output-type float32

Sipeed の 2026 新製品 MaixCAM(K230 + 5MP カメラ + 2.3 インチディスプレイ)は $65 で箱から出して即フルビジョン AI デモを動かせるため、教育 / メイカー市場で爆発的に売れています。

9. Rockchip RK3588 — SBC NPU の事実上の標準

Rockchip は中国・福州の ARM SoC 設計会社で、RK3588 は 2022 年発表以降、2024-2026 SBC 市場の事実上の標準 SoC となりました。

RK3588 のスペック:

CPU — 4x Cortex-A76 + 4x Cortex-A55(big.LITTLE)。2.4 GHz
GPU — Mali-G610 MP4。OpenGL ES 3.2 / Vulkan 1.2
NPU — 6 TOPS @ int8(3 コア分散)
メモリ — 4/8/16/32GB LPDDR4 / LPDDR5
映像 — 8K 60fps デコード、8K 30fps エンコード
フォームファクター — Orange Pi 5、Radxa Rock 5B、Khadas Edge 2、FriendlyElec NanoPi M6 など多数の SBC が採用

RK3588 系ボードは価格対スペックが圧倒的です。Orange Pi 5 Plus 16GB が $130-150、Radxa Rock 5B 16GB が $160-180。Jetson Orin Nano 8GB($249)よりメモリも多く CPU も速い — ただし NPU の成熟度(ソフト + モデル互換性)は NVIDIA TensorRT には及びません。

SDK は Rockchip RKNN-Toolkit です。

# RKNN-Toolkit2 をインストール(ホスト PC、x86)
pip install rknn-toolkit2

# ONNX -> .rknn(Rockchip NPU 形式)変換
python -c "
from rknn.api import RKNN
rknn = RKNN()
rknn.config(target_platform='rk3588')
rknn.load_onnx('yolov8n.onnx')
rknn.build(do_quantization=True, dataset='./dataset.txt')
rknn.export_rknn('./yolov8n.rknn')
"

# RK3588 ボード上で .rknn を実行(rknnlite)
from rknnlite.api import RKNNLite
import cv2

rknn = RKNNLite()
rknn.load_rknn('./yolov8n.rknn')
rknn.init_runtime(core_mask=RKNNLite.NPU_CORE_AUTO)

img = cv2.imread('test.jpg')
outputs = rknn.inference(inputs=[img])
print(outputs[0].shape)

RK3588 の魅力は NPU + 8K 映像 + 豊富なメモリオプションの組み合わせです。4K / 8K セキュリティカメラ、IoT ゲートウェイ、デジタルサイネージ、産業 HMI などほぼ標準として定着しました。後継の RK3588S(低価格)と RK3576(中堅)も人気で、2025 年末に発表された RK3688(次世代、14 TOPS NPU 予定)は 2026-2027 の次世代標準になる見込みです。

10. MaixPy / Arduino Nano 33 BLE Sense / Seeed Wio AI

このセクションでは MCU / メイカー市場の代表的なボードをまとめます。

MaixPy(Sipeed)

MaixPy は Sipeed の組込 MicroPython 環境です。Maixduino、MaixCube、MaixCAM などのボードで動作し、カメラ + NPU + ディスプレイを統合したメイカーキットとして人気です。K210(第 1 世代、2018)、K510(第 2 世代、2022)、K230(第 3 世代、2024)へと進化しました。

特に MaixCube は $30 程度で LCD + カメラ + マイク + バッテリー + ジャイロを内蔵し、キーワード検出 + 顔認識 + 姿勢推定などのフル AI デモを即起動できます。

Arduino Nano 33 BLE Sense

Arduino Nano 33 BLE Sense(Rev2)は TinyML の事実上の標準学習ボードです。2019 年の初登場以来、Edge Impulse と TensorFlow Lite Micro の公式デモボードに採用され、ほぼ全ての TinyML 書籍 / 講座に登場します。

スペック:

MCU — Nordic nRF52840。ARM Cortex-M4F。64 MHz。1MB Flash、256KB RAM
センサー — 9 軸 IMU、マイク(PDM)、気圧、温湿度、照度、近接、カラー(すべてオンボード)
無線 — BLE 5.0
価格 — $30-35

この価格でほぼ全ての TinyML デモ(キーワード検出、ジェスチャー、振動、環境モニタリング)が動くため、教育市場で圧倒的です。

// Arduino Nano 33 BLE Sense + TFLite Micro キーワード検出(概念コード)
#include <TensorFlowLite.h>
#include <PDM.h>

#include "model_data.h"  // 学習済みモデル(Edge Impulse などで生成)

const tflite::Model* model = tflite::GetModel(g_model);
static tflite::MicroInterpreter* interpreter;

constexpr int kTensorArenaSize = 80 * 1024;
alignas(16) uint8_t tensor_arena[kTensorArenaSize];

void setup() {
  static tflite::AllOpsResolver resolver;
  static tflite::MicroInterpreter static_interpreter(
      model, resolver, tensor_arena, kTensorArenaSize);
  interpreter = &static_interpreter;
  interpreter->AllocateTensors();
  PDM.begin(1, 16000);  // 1 ch、16 kHz
}

void loop() {
  // マイクから 1 秒クリップを収集
  // MFCC 特徴量を抽出
  // モデル入力テンソルにコピー
  // interpreter->Invoke();
  // 結果クラスを出力("yes", "no", "stop", ...)
}

Seeed Wio AI / XIAO ESP32-S3

Seeed Studio(中国・深圳)の Wio AI シリーズと XIAO ESP32-S3(Sense)もメイカー市場の主力です。XIAO ESP32-S3 Sense は ESP32-S3 + カメラ + マイク + microSD を切手サイズのボード(21x18 mm)に詰めて $10-15。Edge Impulse の公式サポートボードでもあります。

ESP32-S3 の魅力は Wi-Fi 内蔵です。Arduino Nano 33 は BLE のみですが、ESP32-S3 は Wi-Fi + BLE 両対応で、IoT シナリオ(結果をクラウドへアップロード、OTA ファーム更新)に向いています。

ML 向け MicroPython

MicroPython は Python の組込版です。2024-2026 年に MicroPython の上で ML を動かすパターンが増えました。

ulab — MicroPython 版 numpy
emlearn — scikit-learn のツリー / フォレストを C エクスポート
tflite-micro Python バインディング — Sipeed / Espressif が提供

MicroPython の魅力は素早いプロトタイピングです。C++ ではコンパイル + フラッシュに 30 秒かかるところを、MicroPython は REPL で即実行できるためセンサーデータ探索が高速化します。

11. ONNX Runtime Mobile / Core ML / TensorRT / Apache TVM

このセクションではモバイル / エッジ推論ランタイム 4 種を整理します。

ONNX Runtime Mobile

ONNX Runtime は Microsoft が開発したマルチフレームワーク推論エンジンです。ONNX(Open Neural Network Exchange)標準形式のモデルを実行し、事実上 PyTorch / TF / JAX / Keras すべてから変換可能です。

ONNX Runtime Mobile はモバイル向けスリムビルドです。

Android — AAR ライブラリ、NNAPI バックエンド、QNN(Qualcomm)バックエンド
iOS — Pod、Core ML バックエンド
Raspberry Pi / Linux ARM — .so ライブラリ、XNNPACK バックエンド

長所は陣営中立性です。PyTorch 陣営(ExecuTorch)と Google 陣営(LiteRT)の間で「両方互換」という安全な選択肢になります。ただし量子化と NPU 最適化の面では、陣営別のネイティブ(LiteRT / ExecuTorch)より 1-2 段階遅れることが多いです。

Core ML(Apple)

Core ML は Apple の自社デバイス(iPhone、iPad、Mac、Watch)専用 ML ランタイムです。2017 年の iOS 11 から導入され、2024-2026 年に A17 Pro / A18 Pro / M3 / M4 の Neural Engine を活用する標準パスとなりました。

Core ML の強みは Apple Silicon との統合です。CPU / GPU / Neural Engine(ANE)を自動スケジューリングし、M3 / M4 の ANE は 35-38 TOPS を発揮します。モバイル Stable Diffusion、オンデバイス Whisper、Apple Intelligence(2024 WWDC)のオンデバイス LLM はすべて Core ML 上で動きます。

# PyTorch -> Core ML 変換(coremltools)
import torch
import coremltools as ct

class MyModel(torch.nn.Module):
    def forward(self, x):
        return torch.nn.functional.relu(x)

model = MyModel().eval()
traced = torch.jit.trace(model, torch.randn(1, 3, 224, 224))

mlmodel = ct.convert(
    traced,
    inputs=[ct.TensorType(shape=(1, 3, 224, 224))],
    compute_units=ct.ComputeUnit.ALL,  # CPU + GPU + ANE
)
mlmodel.save("MyModel.mlpackage")

Apple Intelligence のオンデバイスモデルはおよそ 3B パラメータ(2-bit 量子化)と言われ、iPhone 15 Pro 以上の Neural Engine でトークンあたり ~30 ms 程度で動作します。

TensorRT(NVIDIA)

TensorRT は NVIDIA GPU 専用の推論アクセラレータです。デスクトップ RTX、サーバ H100 / H200 / B200、エッジ Jetson まで同じ API で動きます。

# PyTorch -> ONNX -> TensorRT エンジンビルド
import torch
import tensorrt as trt

# 1. PyTorch -> ONNX
torch.onnx.export(model, dummy_input, "model.onnx", opset_version=17)

# 2. ONNX -> TensorRT engine
logger = trt.Logger(trt.Logger.WARNING)
builder = trt.Builder(logger)
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
parser = trt.OnnxParser(network, logger)
with open("model.onnx", "rb") as f:
    parser.parse(f.read())

config = builder.create_builder_config()
config.set_flag(trt.BuilderFlag.FP16)
engine = builder.build_serialized_network(network, config)
with open("model.engine", "wb") as f:
    f.write(engine)

TensorRT-LLM は LLM 専用のアクセラレーションライブラリで、Llama / Mistral / Qwen に対し自動でグラフ融合 + KV キャッシュ最適化 + 量子化(FP8 / INT4)を行います。Jetson AGX Orin 上で Llama 3.1 8B がトークンあたり 5-7 ms 水準です。

Apache TVM

Apache TVM は OctoML が主導する ML コンパイラプロジェクトです。PyTorch / TF / ONNX モデルを受け取り、CPU / GPU / NPU / DSP のいずれでも動くコードを自動生成します。

MLC LLM(次セクション)は TVM ベースです。TVM 自体は学習コストが高めですが、MLC というユーザーフレンドリーなラッパー経由でスマホ上で LLM を動かす中核インフラとなっています。

12. スマホで LLM — MLC LLM / llama.cpp / Whisper.cpp / GGUF

2024-2026 年で最も大きな変化は、スマホ上で 1-8B LLM が実用速度で動くことです。主要ツール:

llama.cpp

ggerganov による C++ LLM 推論エンジンです。2023 年春に始まり、2026 年現在は事実上のローカル LLM 標準ランタイムです。

中核の価値:

純粋 C++。依存関係ほぼなし。ARM / x86 / CUDA / Metal / Vulkan / SYCL に対応
GGUF — llama.cpp の統合モデルファイル形式。量子化情報 + メタデータを内包
量子化 — Q2_K、Q3_K、Q4_K、Q5_K、Q6_K、Q8_0 など 4-bit 以下の量子化を多数サポート
トークナイザ / サンプリング / チャットテンプレートをすべて同梱

# Android で llama.cpp をビルド(Termux 環境)
pkg install clang make git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# Phi-3.5 mini モデルをダウンロード(GGUF 4-bit、例)
huggingface-cli download bartowski/Phi-3.5-mini-instruct-GGUF \
  Phi-3.5-mini-instruct-Q4_K_M.gguf --local-dir ./models

./llama-cli -m ./models/Phi-3.5-mini-instruct-Q4_K_M.gguf \
  -p "Explain attention." -n 128 -t 4

Galaxy S24 Ultra / iPhone 15 Pro のようなスマホでは Phi-3.5 mini(3.8B Q4_K_M、約 2.2GB)がトークンあたり 30-50 ms(20-30 tok/s)で動作します。

Whisper.cpp

同じく ggerganov による Whisper(OpenAI 音声認識モデル)の C++ ポートです。クラウドなしでスマホ / ノート PC で音声認識が動きます。

# Whisper.cpp で日本語音声認識(CPU)
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
bash ./models/download-ggml-model.sh medium
make -j

./build/bin/whisper-cli -m models/ggml-medium.bin -l ja -f my_audio.wav

iPhone の Whisper.cpp Core ML ビルドは medium モデル(769M)で 30 分の音声を ~5 分で処理します。small モデル(244M)はリアルタイムより速く、base(74M)はスマホでほぼリアルタイムで動きます。

MLC LLM

MLC(Machine Learning Compilation)LLM はカーネギーメロン / Apache TVM 陣営が作ったスマホ / ブラウザ向け LLM エンジンです。

Android — Vulkan / OpenCL バックエンド
iOS — Metal バックエンド
ブラウザ — WebGPU バックエンド(ブラウザ内で LLM 実行)
デスクトップ — CUDA / ROCm / Metal

特に WebGPU バックエンドが面白いです。ページに訪問するとモデルがダウンロードされ、Chrome / Edge / Safari 内で GPU 高速 LLM が動きます。サーバー呼び出しなし、完全ローカルです。

# MLC LLM の Android デモビルド
git clone --recursive https://github.com/mlc-ai/mlc-llm
cd mlc-llm
python -m mlc_llm package --model "HF://mlc-ai/Llama-3.2-3B-Instruct-q4f16_1-MLC"
# Android Studio で android/MLCChat プロジェクトを開いてビルド

MLC LLM 上で Galaxy S24 Ultra は Llama 3.2 3B をトークンあたり 25 ms(40 tok/s)で動かします。同じ端末で llama.cpp より GPU バックエンドの方がわずかに速いです。

GGUF 形式

GGUF(Georgi Gerganov Unified Format)は llama.cpp のモデルファイル標準です。1 つのファイルに以下が統合されています。

重み(量子化済みテンソル)
トークナイザ(BPE / SentencePiece)
チャットテンプレート(chat_template、Jinja 風)
メタデータ(architecture、context size、RoPE 設定)

このため .gguf ファイル 1 つあれば llama.cpp / Ollama / LM Studio / GPT4All のどこでも同じモデルを同じ結果で動かせます。

2026 年 5 月時点で Hugging Face には 5 万を超える GGUF モデルがあり、ほぼすべてで "Q4_K_M" または "Q5_K_M" 量子化が標準です。一般的には Q4_K_M が品質 / サイズのバランス推奨値です。

13. 小さなモデル — Phi-3 / 3.5 / 4(MS) / Gemma 2 / 3(Google) / Llama 3.2 1B / 3B

エッジ LLM の最大の変数はモデル選択です。2024-2026 年に「1-4B なのに GPT-3.5 級に賢い」小型モデルが爆発的に登場しました。代表 3 系統を整理します。

Microsoft Phi シリーズ

Phi は Microsoft の小型 LLM シリーズです。「Textbooks Are All You Need」論文に始まり、高品質な合成データ + 小さいモデルで大型モデルに迫る性能を狙います。

Phi-3 mini(3.8B) — 2024 年 4 月。128K コンテキスト。iPhone 15 でトークンあたり ~12 tok/s
Phi-3 small(7B) — 2024 年 5 月
Phi-3 medium(14B) — 2024 年 5 月
Phi-3.5 mini(3.8B) — 2024 年 8 月。多言語対応(韓国語 / 日本語など)
Phi-3.5 vision(4.2B) — ビジョン入力
Phi-3.5 MoE(16x3.8B、有効 6.6B) — MoE 派生
Phi-4(14B) — 2024 年 12 月。コード / 数学に強い
Phi-4 mini(3.8B) — 2025 年初頭

Phi-3 mini の人気の秘密はスマホで実用的に動く初の LLM だったことです。iPhone 15 Pro でトークンあたり 12-15 tok/s、Galaxy S24 Ultra で 20-25 tok/s と、リアルタイムチャットが可能です。

Google Gemma シリーズ

Gemma は Google のオープンモデルシリーズで、Gemini と同じ研究インフラから派生しています。

Gemma 2B / 7B — 2024 年 2 月。初版
Gemma 2 2B / 9B / 27B — 2024 年 6 月。品質が大幅向上
Gemma 3 1B / 4B / 12B / 27B — 2025 年 3 月。マルチモーダル(ビジョン + テキスト)統合、128K コンテキスト
Gemma 3n(モバイル特化) — 2025 年 5 月。4B でも 8B 並みに動く PLE 構造

Gemma 3 27B は 9B より一段上、4B の Gemma 3n は一般的な 8B モデル相当の品質を見せモバイルに最適化されています。PLE(Per-Layer Embeddings)はメモリ効率のため埋め込みをレイヤーごとに分散配置する構造です。

Meta Llama 3.2 1B / 3B

Llama 3.2 は 2024 年 9 月発表の Meta 製小型モデルシリーズです。事実上モバイル / エッジ専用ラインです。

Llama 3.2 1B / 3B — テキスト専用の小型
Llama 3.2 11B / 90B Vision — ビジョン + テキスト(大きいサイズはエッジ向きではない)

Llama 3.2 1B はあらゆる LLM の中で最小ながら実用回答ができるモデルで、iPhone 15 / Galaxy S24 のようなスマホでトークンあたり 50-80 tok/s が出ます。音声インターフェース、チャットボット、テキスト分類のような軽量シナリオに十分です。

Meta 自身が Llama 3.2 1B / 3B の公式モバイル実行パスとして ExecuTorch を提示し、Android / iOS のデモアプリを提供しています。

モデル選択ガイド

Phi-3 mini / 3.5 mini / Phi-4 mini — 多言語、汎用チャット、最もバランスのとれた選択
Gemma 2 2B / Gemma 3 4B(Gemma 3n) — Google 陣営、MediaPipe LLM Inference API と統合
Llama 3.2 1B / 3B — Meta 陣営、ExecuTorch の第一推奨、英語に強い

スマホで最速回答が必要なら Llama 3.2 1B(50-80 tok/s) -> Phi-3 mini(20-25 tok/s) -> Gemma 3 4B(15-20 tok/s) -> Llama 3.2 3B(10-15 tok/s)の順です。ただし回答品質はほぼ逆順で、Phi-3 mini / Gemma 3 4B / Llama 3.2 3B が 1B より明確に優れます。

14. Always-on AI — センサー + ML の時代

エッジ AI の真価は単発推論ではなく 24/7 常時稼働にあります。これを Always-on AI と呼びます。

典型的なシナリオ:

スマートスピーカーのウェイクワード — マイクを常時聞いて「Hey Siri」で起動
スマートウォッチの転倒検知 — IMU を常時監視してパターン一致で通知
産業現場の振動解析 — モーター振動を常時聞いてベアリング不良パターンを検出
農業 IoT — カメラが作物を常時監視して病害を検出
都市 CCTV — 人物 / 車両カウント + 事故検知

技術的な核は次の 4 点です。

デュアルコア / デュアルモデル — 非常に小さなモデル(1-10 KB)が常時走って「候補」を捕まえ、続いて大きなモデル(100KB-1MB)が起きて検証。キーワード検出が典型例。Apple Watch / Pixel Buds はこの方式
量子化 — int8 もしくはそれ以下(4-bit、2-bit)で電力を 99% 削減。Edge TPU、Hexagon DSP、Cortex-M NPU はすべて int8 中心
NPU / DSP 主体の処理 — メイン CPU を起こさず NPU 単独で推論。メイン CPU は deep sleep
センサー -> ML 直結 — カメラ ISP / マイク PDM が NPU と同じ SoC 内にあり、データが CPU メモリを経由せず NPU へ直行

// Cortex-M NPU 上の Always-on キーワード検出 擬似コード
void main(void) {
  while (1) {
    // 1. 非常に小さなモデル(10KB)で 1 次フィルタ
    int trigger = run_tiny_kws_model(audio_buffer);

    if (trigger > THRESHOLD_LOW) {
      // 2. 大きなモデル(500KB)を起こす
      int label = run_large_kws_model(audio_buffer);

      if (label == LABEL_HEY_SIRI) {
        // 3. アプリケーションプロセッサを起こす(UART / SPI / IPC)
        wake_application_processor();
      }
    }

    // 次フレームまでスリープ(DMA がマイクデータを自動収集)
    enter_deep_sleep();
  }
}

このパターンにより Apple Watch の「Hey Siri」はほぼバッテリーを消費せず 24 時間動きます。Cortex-M 級の NPU(Apple の自社設計 NPU)がマイクを常時聞き、キーワード一致時のみメイン SoC を起こします。

産業現場の振動異常検知も同じパターンです。STM32H7 + ST の MEMS 加速度センサー + 1 KB の TFLite Micro オートエンコーダでベアリング異常を 24/7 監視し、単 1 電池で 6 ヶ月以上稼働します。

2026 年のトレンドは Visual Wake Words — カメラ ISP は常時オンで「人が見えたら」のみメイン SoC を起こすパターンです。Visual Wake Words モデルは ~250 KB、MobileNet-V2 の超軽量バリアントで、Cortex-M55 + Ethos-U65 のような NPU 統合 MCU 上で 1 mW 級で動きます。

15. 韓国 / 日本のエッジ AI — ETRI / Samsung / LG / Sony AI / NTT

韓国

Samsung Electronics — Galaxy S24/S25 の Galaxy AI(2024-2026)はオンデバイス + クラウドのハイブリッド。通訳、リアルタイム通話翻訳、写真編集などは Snapdragon 8 Gen 3/4 の Hexagon NPU + 自社 Exynos モデム NPU で部分実行
Samsung System LSI — 自社 Exynos 2400 / 2500 SoC の NPU コア強化。統合 AI Engine でスマホ / タブレット / ウェアラブルの一貫性
LG Electronics — LG ThinQ Home 家電のオンデバイス AI(冷蔵庫の食品認識、洗濯機の繊維認識、TV の AI アップスケーラ)。webOS の NPU 統合 SoC を自社設計
Hyundai Motor — Hyundai Mobis + 自社 IDC(Infotainment Domain Controller)に NVIDIA Drive と自社ソリューションを併用。ADAS 標準化
Naver / NAVER Cloud — HyperCLOVA X の軽量版(2-3B)をモバイル / エッジに展開検討
Kakao / Kakao Brain — デバイス向け sLM Honeybee、Kanana シリーズ(韓国語特化小型モデル)
ETRI(韓国電子通信研究院) — エッジ AI 標準化研究。KoBERT / KoBigBird の圧縮、MOA(メタ OS 加速)プロジェクト
KAIST / ソウル大学 — Sipeed K230、Jetson Nano 上の韓国語音声認識 / 翻訳モデル研究
Mando / HL Mando — ADAS カメラ向けに Hailo / Ambarella NPU を採用
LaonPeople、Suprema — 産業 / セキュリティカメラに独自 NPU または Hailo NPU を統合

日本

Sony AI / Sony Semiconductor — NPU 統合イメージセンサー IMX500 が看板。カメラセンサー自体が ML 推論を行う「センサー上 AI」の先駆け
NTT / NTT DoCoMo — IOWN(Innovative Optical and Wireless Network)の一部としてエッジ AI 基盤構築。通信基地局上の NPU
Renesas Electronics — RA / RZ シリーズ MCU 上の DRP-AI(Dynamically Reconfigurable Processor for AI)を自社 NPU として展開。産業 / 自動車の標準
Panasonic — Iolite / Connect の産業カメラ / HMI 上の独自ビジョンソリューション
日本 OEM も Samsung 同様の流れ — Sony Xperia、シャープ Aquos の NPU 活用
Toyota / Honda / Nissan — 自動運転 / ADAS の自社コンピューター(Toyota T-MAS、Honda Sensing) + NVIDIA Drive を併用
日本のスタートアップ — Edgecortix、LeapMind が自社 NPU / コンパイラを提供。LeapMind は量子化モデルコンパイラ Blueoil で知られる
ASTERA Labs(本社は米国だが日本市場で強い) — CXL / PCIe メモリファブリックでエッジデータセンタ基盤を構築。車載メモリファブリックでシェア拡大

共通の流れ

韓国 / 日本ともに「オンデバイス AI の比重拡大」が大きな潮流です。スマホ / 自動車 / 家電に NPU が標準搭載され、クラウド LLM のコスト / レイテンシ / プライバシー問題から「できることはデバイス内で完結」という戦略に移行しつつあります。

特に日本は自社 NPU 設計力が強く、Renesas DRP-AI、Sony IMX500、Panasonic のビジョン IP、Edgecortix の SAKURA-II などが NVIDIA / Hailo / Coral のグローバル競合として位置を確立しています。

16. エッジ AI を学ぶべきは誰か — IoT / モバイル / 自動車

最後に職種別にどの道具をどう学ぶかをまとめます。

IoT / ファームウェアエンジニア

必須 — Arduino Nano 33 BLE Sense + TFLite Micro / LiteRT Micro + Edge Impulse。C / C++
推奨 — Cortex-M の NPU 統合 MCU(Ethos-U55 / U65)、Sipeed K230、ESP32-S3
応用 — Always-on AI、振動解析、環境モニタリング、キーワード検出
キャリア — 産業 IoT、スマートファクトリ、ヘルスケアデバイス、農業 IoT

モバイルエンジニア

必須 — LiteRT(Android) + Core ML(iOS)。Kotlin / Swift
推奨 — ExecuTorch(両方)、MLC LLM、llama.cpp、Whisper.cpp
応用 — スマホで LLM チャット、音声認識、画像分類、AR
キャリア — スマホ OS / キーボード / メッセンジャー / カメラアプリ / ヘルスアプリ

SBC / ロボティクスエンジニア

必須 — NVIDIA Jetson + JetPack + TensorRT、ROS 2、Isaac ROS
推奨 — Rockchip RK3588、Hailo-15、Coral、Sipeed K230
応用 — 自律移動ロボット、ヒューマノイド、産業ビジョン、セキュリティカメラ
キャリア — ロボット会社、自動運転、産業オートメーション、航空 / 宇宙

自動車エンジニア

必須 — NVIDIA Drive AGX、Mobileye EyeQ、TensorRT
推奨 — Hailo-10H(ASIL-B)、Qualcomm Snapdragon Ride
応用 — ADAS、自動運転、車載インフォテインメント
キャリア — OEM、Tier-1(Bosch、Continental)、Tier-2(NXP、Infineon)

ML エンジニア / データサイエンティスト(エッジ転向)

必須 — PyTorch + torch.export + 量子化対応学習(QAT)
推奨 — ONNX、ExecuTorch、LiteRT、llama.cpp、MLC LLM
応用 — クラウドモデルをエッジへ持ち込む作業。量子化 / 枝刈り / 知識蒸留

学生 / 初心者

最も安価で速い入門ルート:

Arduino Nano 33 BLE Sense($35) + Edge Impulse(無料枠) — TinyML 初歩。キーワード検出、ジェスチャー認識
Sipeed MaixCAM もしくは XIAO ESP32-S3 Sense($15-65) — カメラ + AI のメイカー案件
Raspberry Pi 5 + Coral USB Accelerator($130)または Orange Pi 5($130) — SBC への入口
Jetson Orin Nano($249) — 本格的なロボティクス / SBC

$15 のボード 1 台から始め、半年で $249 の Jetson まで段階的に進むのが最も無理のない道筋です。

17. 参考 / References

LiteRT(旧 TFLite) — https://ai.google.dev/edge/litert
LiteRT Micro — https://ai.google.dev/edge/litert/microcontrollers/overview
ExecuTorch — https://pytorch.org/executorch/
ExecuTorch GitHub — https://github.com/pytorch/executorch
Edge Impulse — https://www.edgeimpulse.com/
NVIDIA Jetson Orin — https://developer.nvidia.com/embedded/jetson-orin
NVIDIA Jetson Thor — https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-thor/
Coral by Google — https://coral.ai/
Hailo — https://hailo.ai/
Sipeed K230 / MaixPy — https://wiki.sipeed.com/hardware/en/maixIV/m4ndock/maixIV.html
Rockchip RKNN-Toolkit2 — https://github.com/airockchip/rknn-toolkit2
Arduino Nano 33 BLE Sense — https://store.arduino.cc/products/arduino-nano-33-ble-sense-rev2
Seeed XIAO ESP32-S3 Sense — https://wiki.seeedstudio.com/xiao_esp32s3_getting_started/
ONNX Runtime Mobile — https://onnxruntime.ai/docs/tutorials/mobile/
Core ML Tools — https://apple.github.io/coremltools/docs-guides/
NVIDIA TensorRT — https://developer.nvidia.com/tensorrt
TensorRT-LLM — https://github.com/NVIDIA/TensorRT-LLM
Apache TVM — https://tvm.apache.org/
MLC LLM — https://llm.mlc.ai/
llama.cpp — https://github.com/ggerganov/llama.cpp
Whisper.cpp — https://github.com/ggerganov/whisper.cpp
GGUF Spec — https://github.com/ggerganov/ggml/blob/master/docs/gguf.md
Microsoft Phi-3 — https://azure.microsoft.com/en-us/products/phi
Microsoft Phi-4 — https://huggingface.co/microsoft/phi-4
Google Gemma — https://ai.google.dev/gemma
Meta Llama 3.2 — https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
MediaPipe LLM Inference — https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference
Sony IMX500 — https://www.sony-semicon.com/en/products/is/industry/imx500.html
Renesas DRP-AI — https://www.renesas.com/en/key-technologies/ai-machine-learning/drp-ai
ETRI — https://www.etri.re.kr/eng/main/main.etri