💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

1. 2026 年エッジ AI 地図 — MCU / SBC / スマホ / 自動車の 4 分類

2026 年のエッジ AI(Edge AI)は単一カテゴリではありません。「エッジ」という言葉一つの中に、消費電力 100 mW のマイコンから 100 W を超える自動運転コンピューターまでが同居しており、そこで動くモデルも 1KB 未満のキーワード検出から 4-bit 量子化された 70B LLM まで多種多様です。

まずは 2026 年のエッジ AI デバイスを大きく 4 つに分類します。

- MCU(マイコン)クラス — 消費電力 1-100 mW、メモリ 16KB-2MB、モデル 1KB-1MB。Arduino Nano 33 BLE Sense、Seeed XIAO ESP32-S3、STMicro STM32H7、Nordic nRF52840。キーワード検出(Hey Siri)、振動異常検知、ジェスチャー認識

- SBC(シングルボードコンピュータ)クラス — 1-15 W、4-16 GB メモリ、1MB-1GB モデル。Raspberry Pi 5、Rockchip RK3588 ボード、NVIDIA Jetson Orin Nano、Coral Dev Board、Sipeed K230。物体検出、姿勢推定、音声認識

- モバイル / スマホクラス — 5-15 W、8-16 GB メモリ、1-8 GB モデル。iPhone(A17/A18 Bionic + Neural Engine)、Galaxy S24/S25(Snapdragon 8 Gen 3/4 + Hexagon NPU)、Pixel 9(Tensor G4 + Edge TPU)。1B-7B 量子化 LLM、オンデバイス Whisper、Stable Diffusion(LCM)

- 自動車 / ロボティクス / 産業クラス — 30-130 W、32-64 GB メモリ、1B-70B モデル。NVIDIA Jetson AGX Orin、Jetson Thor(2026 新製品)、Tesla FSD HW4、Mobileye EyeQ7。自動運転、ヒューマノイドロボット、産業用ビジョン

2024 年で最も大きな出来事は二つあります。第一に、Google が TensorFlow Lite のモバイル / 組込ランタイムを LiteRT にリブランド — TFLite の正式名称は LiteRT、TFLite Micro は LiteRT Micro になりました。第二に、Meta が ExecuTorch を GA として発表 — PyTorch 陣営のモバイル / 組込ランタイムが TFLite / LiteRT の直接的な代替として登場しました。

それ以前は「エッジで PyTorch を動かすには ONNX 経由で TFLite に変換」が定石でしたが、今は PyTorch → ExecuTorch という直線ルートが用意されました。したがって 2026 年のエッジ AI の最初の分岐点は、LiteRT(Google)陣営と ExecuTorch(Meta / PyTorch)陣営のどちらに進むかです。

本稿はそのすべての分岐点を 1 枚の地図に整理します。MCU からスマホまで、Google から Meta まで、ONNX Runtime から Core ML まで、小さなモデル(Phi-3、Gemma 3、Llama 3.2)から大きなモデル(70B GGUF)まで、韓国 / 日本のエッジ AI 事例も含めて取り扱います。

2. TFLite Micro → LiteRT(2024 年のリブランド)

まずは TFLite Micro が LiteRT に変わった話から始めます。

Google が 2017 年に TensorFlow Lite を発表して以来、TFLite はモバイル / 組込 ML の事実上の標準になりました。さらに 2018 年に TFLite Micro — 数十 KB の RAM しか持たない MCU でも動く軽量ランタイム — が追加され、両者は約 7 年間 Google のエッジ ML 戦略の中核でした。

そして 2024 年 5 月の Google I/O で、Google は二つの変更を同時に発表しました。

- TensorFlow Lite を LiteRT に改名

- LiteRT はもう TensorFlow 専用ではない — PyTorch、JAX、Keras のいずれからも変換可能

リブランドの理由は明白です。「TFLite」という名前は TensorFlow に縛られすぎていて、実際 2023-2024 年の ML エコシステムは PyTorch が圧倒的なシェアを持っていました。Google としては「TFLite のランタイムは良いが PyTorch モデルは動かない」という認識を打ち破る必要がありました。

LiteRT の主な変更点:

- 全フレームワーク(TF、PyTorch、JAX)からのモデル変換対応

- PyTorch 変換ルート — torch.export → LiteRT(従来の .tflite ファイル形式を維持)

- 既存の TFLite コードはそのまま動作 — 移行コストなし

- ai_edge_torch パッケージで PyTorch からの直接変換に対応

- MediaPipe の上に LLM Inference API が同梱(Gemma 2B のようなモデルをスマホで動かす標準パス)

LiteRT Micro(旧 TFLite Micro)も同じ流れです。C++ ヘッダオンリーのランタイムはそのままで、これからは PyTorch でも直接モデルを作成して LiteRT Micro に送れます。

簡単な PyTorch → LiteRT 変換の例:

PyTorch モデル -> LiteRT (旧 .tflite) への変換

class TinyClassifier(torch.nn.Module):

def __init__(self):

super().__init__()

self.conv = torch.nn.Conv2d(1, 8, 3)

self.fc = torch.nn.Linear(8 * 26 * 26, 10)

def forward(self, x):

x = self.conv(x)

x = torch.relu(x)

x = x.flatten(1)

return self.fc(x)

model = TinyClassifier().eval()

sample_input = (torch.randn(1, 1, 28, 28),)

torch.export ベースの変換

edge_model = ai_edge_torch.convert(model, sample_input)

edge_model.export("tiny_classifier.tflite")

この .tflite ファイルはそのまま Android、iOS、Raspberry Pi、Coral、ESP32-S3 上で同一に実行できます。

LiteRT のより大きな意義は ExecuTorch との市場競争です。Google が PyTorch 互換性を取り込んでいなければ、PyTorch 陣営は 100% ExecuTorch に流れたはずですが、いまや二つの標準が併存するようになりました。エッジ ML エンジニアにとっては「同じモデルを両方のランタイムで動かして、速い方を選ぶ」時代になったわけです。

3. ExecuTorch(PyTorch)GA — LiteRT の正面からの代替

ExecuTorch は Meta(PyTorch)が 2023 年の PyTorch Conference で初公開したモバイル / 組込向け PyTorch ランタイムです。2024 年に 1.0 GA となり、本格的に LiteRT の競合になりました。

ExecuTorch の中核アイデアは二つ:

- PyTorch の torch.export グラフをそのままモバイル / 組込で実行

- バックエンドの抽象化により CPU / GPU / NPU / DSP を統一的にサポート

従来の PyTorch Mobile は TorchScript という別の IR(中間表現)を使用していて、PyTorch の動的グラフとの相性が悪く変換失敗が頻発していました。ExecuTorch は torch.export(2.x の新しい静的グラフ API)を標準採用し、変換成功率を大きく引き上げました。

ExecuTorch のバックエンド一覧を見ると、その本気度がわかります。

- XNNPACK — ARM CPU 最適化。デフォルトバックエンド

- CoreML Delegate — iOS / macOS Neural Engine

- MPS Delegate — Apple Metal Performance Shaders(GPU)

- Vulkan Delegate — Android GPU

- Qualcomm QNN Delegate — Snapdragon Hexagon NPU

- MediaTek Neuron Delegate — Dimensity NPU

- ARM Ethos-U Delegate — Cortex-M NPU

- Cadence DSP、NXP、XTensa — 組込 DSP

1 つの ExecuTorch グラフから、iPhone Neural Engine も Snapdragon Hexagon も Cortex-M Ethos-U も同じソースで動かせます。

簡単な変換例:

PyTorch -> ExecuTorch 変換

from torch.export import export

from executorch.exir import to_edge

class MyModel(torch.nn.Module):

def __init__(self):

super().__init__()

self.lin = torch.nn.Linear(10, 1)

def forward(self, x):

return self.lin(x)

model = MyModel().eval()

example_args = (torch.randn(1, 10),)

torch.export

exported = export(model, example_args)

ExecuTorch 変換

edge_program = to_edge(exported)

et_program = edge_program.to_executorch()

.pte (PyTorch Edge format) として保存

with open("my_model.pte", "wb") as f:

f.write(et_program.buffer)

Android / iOS の ExecuTorch SDK でこの .pte を読み込めば、元の PyTorch 動的グラフと同じ意味で同じモデルが実行されます。

LiteRT と ExecuTorch の比較:

- ライセンス — どちらも Apache 2.0

- モデル変換 — LiteRT は PyTorch/TF/JAX、ExecuTorch は PyTorch

- ファイル形式 — LiteRT は .tflite、ExecuTorch は .pte

- 陣営 — Google 対 Meta(PyTorch)

- マーケット — LiteRT は Android 標準、ExecuTorch は PyTorch 寄りのモバイル / MCU

- ツール — LiteRT は MediaPipe + ai_edge_torch、ExecuTorch は torch.export + delegate

2026 年時点で ExecuTorch は Llama 3.2 1B / 3B の公式モバイル実行パスとして採用されています。Meta が自社 LLM を自社ランタイムで推すのは自然で、Llama 3.2 のモバイルデモはほぼ ExecuTorch + iOS / Android の組み合わせです。

4. Edge Impulse — 最大の TinyML プラットフォーム

Edge Impulse は 2019 年創業の TinyML 専業スタートアップです。2026 年現在、TinyML 分野での事実上の標準クラウドプラットフォームとなっています。

Edge Impulse の強みは、データ収集からデプロイまでのフルスタックを 1 つの UI で扱える点です。典型的な TinyML ワークフロー:

1. センサーデータ収集 — Arduino / ESP32 / スマホから加速度、マイク、カメラデータをアップロード

2. ラベリング — Web UI でクリップごとにクラスをラベル付け

3. 前処理 — FFT、スペクトログラム、MFCC などの DSP ブロックを選択

4. モデル学習 — Keras / scikit-learn / Edge Impulse 独自の EON Tuner が自動探索

5. 量子化 + コンパイル — int8 量子化、EON Compiler が C++ ライブラリを生成

6. デプロイ — Arduino IDE ライブラリ、PlatformIO、ファームウェア OTA

EON Compiler は Edge Impulse の秘密兵器です。汎用の TFLite Micro インタプリタが約 100 KB の RAM を使うのに対し、EON Compiler はモデルを C++ 静的コードにコンパイルして RAM 使用量を 30-50% 削減します。RAM が 64 KB しかない Cortex-M0+ でも ML を動かせる秘訣です。

代表的なユースケース:

- キーワード検出 — 「Hey Alexa」のようなウェイクワード認識

- 振動異常検知 — 工場モーターに取り付けてベアリング不良を早期検出

- 姿勢認識 — IMU データから人の姿勢(座る / 立つ / 倒れる)を分類

- 物体検出 — FOMO(Faster Objects, More Objects)、MobileNet の超軽量バリアント

- 時系列分類 — ECG、EEG、振動、圧力などの 1 次元信号

Edge Impulse は Sony Spresense、Nordic nRF5340、Renesas RA、Silicon Labs xG24 など主要 MCU ベンダーと公式パートナーシップを結んでおり SDK が整っています。

Edge Impulse CLI で Arduino Nano 33 BLE Sense に接続

npm install -g edge-impulse-cli

デバイスファームウェアを書き込み(Arduino Nano 33 BLE Sense)

edge-impulse-daemon --clean

学習済みモデルを Arduino ライブラリとしてエクスポート

edge-impulse-runner --download

-> Arduino IDE で Sketch > Include Library > Add .ZIP Library から .zip をインポート

企業視点では「データ -> モデル -> ファーム」のフルスタックが参入障壁を大きく下げてくれます。ファームエンジニアが ML の博士でなくても、ML エンジニアがファームのベテランでなくても、Edge Impulse 上で両者が出会えます。

2026 年には Edge Impulse Studio に LLM 統合が始まりました。ChatGPT 風のチャット UI で「センサーデータを分析して新しいモデルを提案して」と頼むと、データセット、前処理、候補モデルを自動的に提示します。

5. NVIDIA Jetson Orin Nano / NX / Thor / AGX

NVIDIA Jetson は SBC / 産業用組込 / ロボティクス分野の標準です。2026 年のラインナップは非常に強力です。

- Jetson Orin Nano(8GB) — 40 TOPS、7-15 W。入門 / 開発用。\$249-\$399

- Jetson Orin NX(8GB / 16GB) — 70-100 TOPS、10-25 W。産業 / ロボティクス。\$599-\$899

- Jetson AGX Orin(32GB / 64GB) — 200-275 TOPS、15-60 W。自動運転 / ロボット。\$1999-\$2999

- Jetson Thor(2026 新製品) — 2000+ TOPS、130 W。ヒューマノイドロボット / 大型自動運転。\$3499(開発者キット)

Jetson Thor は 2025 年の GTC で公開され、2026 年前半に本格出荷されたヒューマノイドロボット向けコンピューターです。Blackwell アーキテクチャの GPU に 128 GB LPDDR5X を載せ、70B クラス LLM をローカルで動かし、14 系統のカメラ / LiDAR を同時処理できます。標準的には NVIDIA Isaac Lab のロボット学習環境、Cosmos のシミュレーション-実機転移モデルと組み合わせて使います。

Jetson のソフトウェアスタックはほぼ NVIDIA デスクトップ GPU と互換です。

- JetPack — Ubuntu ベース OS + CUDA + cuDNN + TensorRT 統合 SDK

- TensorRT — NVIDIA の推論アクセラレータ。ONNX/PyTorch モデルを GPU 最適化

- DeepStream — 映像解析パイプライン。N 台のカメラを同時処理

- Isaac ROS — ROS 2 + GPU 高速化ノード。自動運転 / ロボットの標準

- NIM(NVIDIA Inference Microservice) — コンテナで LLM サービング

Jetson 上で LLM を動かす標準は llama.cpp(GGUF)または TensorRT-LLM です。Orin Nano 8GB では Phi-3 mini(3.8B)がトークン当たり ~5-10 ms、AGX Orin 64GB では Llama 3.1 70B(4-bit)がトークン当たり ~30-50 ms で動きます。Jetson Thor では同じ 70B がトークン当たり 5 ms 未満になり、デスクトップ RTX 4090 とほぼ同等です。

Jetson Orin Nano で llama.cpp + Phi-3 mini を実行

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

make GGML_CUDA=1 -j

Phi-3 mini 4-bit GGUF をダウンロード(例)

huggingface-cli download microsoft/Phi-3-mini-4k-instruct-gguf \

Phi-3-mini-4k-instruct-q4.gguf --local-dir ./models

./llama-cli -m ./models/Phi-3-mini-4k-instruct-q4.gguf \

-p "What is the capital of Japan?" -n 64 -ngl 32

Jetson の弱点は価格と発熱です。AGX Orin 64GB はほぼ \$3000、60 W TDP では能動冷却が必須です。そのため低消費電力 / 低コストを求める人は Coral、Hailo、Rockchip などの代替を探します。

6. Coral Dev Board(Google TPU) — 4 TOPS、2 W

Coral は Google の Edge TPU(Tensor Processing Unit)とそれを搭載したボード群です。NVIDIA Jetson の最も省電力な代替の一つです。

- Coral Dev Board — NXP i.MX 8M + Edge TPU。4 TOPS、2 W

- Coral USB Accelerator — Raspberry Pi / PC に挿す TPU ドングル。4 TOPS

- Coral M.2 / Mini PCIe — 産業用フォームファクター

- Coral SoM(System on Module) — 産業ボード統合用

Edge TPU は int8 量子化モデルしか実行できず、MobileNet / EfficientNet-Lite / PoseNet のような軽量 CNN に特化しています。大きな LLM は動かせませんが、「固定された小さなモデルを 24/7 超低消費電力で推論」というシナリオでは NVIDIA Jetson より圧倒的に効率的です。

典型的な Coral 用途:

- 店舗カメラ — 人数カウント、行列長の推定

- スマートドアベル — 人 vs 動物 vs 車両の分類

- 農場カメラ — 家畜行動分類、作物状態モニタリング

- 産業 CCTV — ヘルメット装着判定、立入禁止エリア検知

- 屋外野生動物カメラ — 種の識別

TFLite / LiteRT 上の Edge TPU のコードはとてもシンプルです。

Coral Edge TPU で物体分類

from pycoral.utils.edgetpu import make_interpreter

from pycoral.adapters import classify, common

from PIL import Image

interpreter = make_interpreter('mobilenet_v2_quant_edgetpu.tflite')

interpreter.allocate_tensors()

image = Image.open('cat.jpg').convert('RGB')

size = common.input_size(interpreter)

common.set_input(interpreter, image.resize(size, Image.LANCZOS))

interpreter.invoke()

classes = classify.get_classes(interpreter, top_k=3)

for c in classes:

print(f"class={c.id} score={c.score}")

Coral の 2024-2026 における限界は明白です。Edge TPU のシリコンは 2018 年設計で、Google が大型アップデートを行わず、新しいアーキテクチャ(Transformer、ViT)の高速化が弱いです。そのため 2024 年以降、Hailo / Sipeed / Rockchip などの後発勢が市場を奪い始めました。

それでも「実績があり、安定して、4 年以上サポートされる省電力 AI ボード」が欲しい場合、Coral は依然として第一候補です。

7. Hailo-15 / Hailo-8 NPU — イスラエル発のダークホース

Hailo はイスラエル・テルアビブの NPU(Neural Processing Unit)スタートアップです。2017 年創業、2024 年にシリーズ D で \$340M を調達してユニコーンになりました。

Hailo の NPU ラインナップ:

- Hailo-8 — 26 TOPS、2.5 W。自動車 / 産業組込。M.2 / Mini PCIe 形状

- Hailo-8L — 13 TOPS、1.5 W。低価格帯

- Hailo-15 — 20 TOPS、5 W(SoC 統合)。ビデオ / IP カメラ SoC。ARM Cortex-A53 + Hailo NPU 統合

- Hailo-10H — 40 TOPS、5 W。自動車 ADAS 認証(ASIL-B)

Hailo の最大の強みは TOPS / W、つまり電力あたりの性能です。Coral Edge TPU が 2 TOPS/W なのに対し、Hailo-8 は約 10 TOPS/W で 5 倍の差があります。

特に Hailo-15 は IP カメラ市場を一変させています。これまではカメラが 1080p H.264 を送出し、NVR(Network Video Recorder)が受けて AI 解析するのが普通でしたが、Hailo-15 を搭載したカメラはカメラ内で物体検出 + 人物再識別 + 姿勢推定を完結し、「メタデータ」だけを送信します。帯域 99% 削減、プライバシー強化、応答速度向上のトリプル効果です。

Hailo の SDK は自前の Dataflow Compiler です。

Hailo Model Zoo の事前学習モデルをダウンロードして実行

pip install hailo-platform hailo-model-zoo

YOLOv8 をコンパイル(.hef = Hailo Executable Format)

hailomz compile yolov8s --ckpt yolov8s.pt --hw-arch hailo8

推論実行

hailomz eval yolov8s --target hailo8 --data-zip-path coco_val.zip

Hailo の弱点はエコシステムです。NVIDIA CUDA や Google TFLite のようなコミュニティ / ドキュメント / 事例はまだ十分ではありません。しかし 2025-2026 年に Bosch、Ficosa、Continental などの自動車 Tier-1 が ADAS 用に Hailo-10H を採用し、自動車市場では NVIDIA、Mobileye と並ぶ 3 大プレイヤーに躍り出ました。

8. Sipeed K230 — RISC-V + NPU 初のメインストリーム

Sipeed は中国・深圳の組込 ML ボード専業企業です。MaixPy シリーズで有名で、2024 年から Sipeed K230(RISC-V + NPU 統合 SoC)を本格出荷して話題になりました。

Sipeed K230 のスペック:

- CPU — Canaan Kendryte K230。デュアルコア RISC-V(RV64GC)。1.6 GHz

- NPU — Canaan KPU 2.0。6 TOPS @ int8

- DSP — Canaan KDPU(digital signal processor)。信号処理 / 音声処理

- メモリ — 512 MB LPDDR4

- カメラ — MIPI CSI 2 lanes、ISP 統合

- フォームファクター — Sipeed CanMV-K230 ボード(\$45-65) / Sipeed MaixCAM(\$65)

- 電力 — 1-3 W

この価格で 6 TOPS NPU + カメラ ISP + デュアル RISC-V がワンチップに入っているのは非常に大きな出来事です。比較すると、Raspberry Pi 5 は \$80 ですが NPU がありません(別アクセラレータが必要)。Coral Dev Board は \$130 で 4 TOPS。Jetson Orin Nano は \$249 から。

RISC-V であることも重要です。ARM Cortex のようなライセンス費用が不要で、中国政府の RISC-V 振興政策(2023-2030 自立計画)と相まって RISC-V インフラが急速に成熟しています。MicroPython、OpenCV、ONNX Runtime はいずれも公式に RISC-V ビルドをサポートします。

Sipeed K230 の開発環境は MaixPy IDE または素の SDK です。

MaixPy で K230 カメラから YOLOv5 物体検出

from maix import camera, display, nn

Kendryte KPU 上に YOLOv5 モデルをロード

model = nn.YOLOv5s(model="yolov5s_quant.kmodel")

cam = camera.Camera(640, 480)

disp = display.Display()

while True:

img = cam.read()

boxes = model.detect(img, conf_thres=0.5, iou_thres=0.45)

for box in boxes:

img.draw_rect(box.x, box.y, box.w, box.h, color="red")

img.draw_string(box.x, box.y, box.class_name, color="green")

disp.show(img)

K230 の ".kmodel" は Canaan の独自 NPU 形式です。nncase というコンパイラで ONNX / TFLite モデルを .kmodel に変換します。

ONNX -> .kmodel(Canaan NPU 形式)変換

pip install nncase

ncc compile yolov5s.onnx yolov5s.kmodel \

--target k230 \

--input-type uint8 \

--output-type float32

Sipeed の 2026 新製品 MaixCAM(K230 + 5MP カメラ + 2.3 インチディスプレイ)は \$65 で箱から出して即フルビジョン AI デモを動かせるため、教育 / メイカー市場で爆発的に売れています。

9. Rockchip RK3588 — SBC NPU の事実上の標準

Rockchip は中国・福州の ARM SoC 設計会社で、RK3588 は 2022 年発表以降、2024-2026 SBC 市場の事実上の標準 SoC となりました。

RK3588 のスペック:

- CPU — 4x Cortex-A76 + 4x Cortex-A55(big.LITTLE)。2.4 GHz

- GPU — Mali-G610 MP4。OpenGL ES 3.2 / Vulkan 1.2

- NPU — 6 TOPS @ int8(3 コア分散)

- メモリ — 4/8/16/32GB LPDDR4 / LPDDR5

- 映像 — 8K 60fps デコード、8K 30fps エンコード

- フォームファクター — Orange Pi 5、Radxa Rock 5B、Khadas Edge 2、FriendlyElec NanoPi M6 など多数の SBC が採用

RK3588 系ボードは価格対スペックが圧倒的です。Orange Pi 5 Plus 16GB が \$130-150、Radxa Rock 5B 16GB が \$160-180。Jetson Orin Nano 8GB(\$249)よりメモリも多く CPU も速い — ただし NPU の成熟度(ソフト + モデル互換性)は NVIDIA TensorRT には及びません。

SDK は Rockchip RKNN-Toolkit です。

RKNN-Toolkit2 をインストール(ホスト PC、x86)

pip install rknn-toolkit2

ONNX -> .rknn(Rockchip NPU 形式)変換

python -c "

from rknn.api import RKNN

rknn = RKNN()

rknn.config(target_platform='rk3588')

rknn.load_onnx('yolov8n.onnx')

rknn.build(do_quantization=True, dataset='./dataset.txt')

rknn.export_rknn('./yolov8n.rknn')

RK3588 ボード上で .rknn を実行(rknnlite)

from rknnlite.api import RKNNLite

rknn = RKNNLite()

rknn.load_rknn('./yolov8n.rknn')

rknn.init_runtime(core_mask=RKNNLite.NPU_CORE_AUTO)

img = cv2.imread('test.jpg')

outputs = rknn.inference(inputs=[img])

print(outputs[0].shape)

RK3588 の魅力は NPU + 8K 映像 + 豊富なメモリオプションの組み合わせです。4K / 8K セキュリティカメラ、IoT ゲートウェイ、デジタルサイネージ、産業 HMI などほぼ標準として定着しました。後継の RK3588S(低価格)と RK3576(中堅)も人気で、2025 年末に発表された RK3688(次世代、14 TOPS NPU 予定)は 2026-2027 の次世代標準になる見込みです。

10. MaixPy / Arduino Nano 33 BLE Sense / Seeed Wio AI

このセクションでは MCU / メイカー市場の代表的なボードをまとめます。

MaixPy(Sipeed)

MaixPy は Sipeed の組込 MicroPython 環境です。Maixduino、MaixCube、MaixCAM などのボードで動作し、カメラ + NPU + ディスプレイを統合したメイカーキットとして人気です。K210(第 1 世代、2018)、K510(第 2 世代、2022)、K230(第 3 世代、2024)へと進化しました。

特に MaixCube は \$30 程度で LCD + カメラ + マイク + バッテリー + ジャイロを内蔵し、キーワード検出 + 顔認識 + 姿勢推定などのフル AI デモを即起動できます。

Arduino Nano 33 BLE Sense

Arduino Nano 33 BLE Sense(Rev2)は TinyML の事実上の標準学習ボードです。2019 年の初登場以来、Edge Impulse と TensorFlow Lite Micro の公式デモボードに採用され、ほぼ全ての TinyML 書籍 / 講座に登場します。

スペック:

- MCU — Nordic nRF52840。ARM Cortex-M4F。64 MHz。1MB Flash、256KB RAM

- センサー — 9 軸 IMU、マイク(PDM)、気圧、温湿度、照度、近接、カラー(すべてオンボード)

- 無線 — BLE 5.0

- 価格 — \$30-35

この価格でほぼ全ての TinyML デモ(キーワード検出、ジェスチャー、振動、環境モニタリング)が動くため、教育市場で圧倒的です。

// Arduino Nano 33 BLE Sense + TFLite Micro キーワード検出(概念コード)

#include <TensorFlowLite.h>

#include <PDM.h>

#include "model_data.h" // 学習済みモデル(Edge Impulse などで生成)

const tflite::Model* model = tflite::GetModel(g_model);

static tflite::MicroInterpreter* interpreter;

constexpr int kTensorArenaSize = 80 * 1024;

alignas(16) uint8_t tensor_arena[kTensorArenaSize];

void setup() {

static tflite::AllOpsResolver resolver;

static tflite::MicroInterpreter static_interpreter(

model, resolver, tensor_arena, kTensorArenaSize);

interpreter = &static_interpreter;

interpreter->AllocateTensors();

PDM.begin(1, 16000); // 1 ch、16 kHz

}

void loop() {

// マイクから 1 秒クリップを収集

// MFCC 特徴量を抽出

// モデル入力テンソルにコピー

// interpreter->Invoke();

// 結果クラスを出力("yes", "no", "stop", ...)

}

Seeed Wio AI / XIAO ESP32-S3

Seeed Studio(中国・深圳)の Wio AI シリーズと XIAO ESP32-S3(Sense)もメイカー市場の主力です。XIAO ESP32-S3 Sense は ESP32-S3 + カメラ + マイク + microSD を切手サイズのボード(21x18 mm)に詰めて \$10-15。Edge Impulse の公式サポートボードでもあります。

ESP32-S3 の魅力は Wi-Fi 内蔵です。Arduino Nano 33 は BLE のみですが、ESP32-S3 は Wi-Fi + BLE 両対応で、IoT シナリオ(結果をクラウドへアップロード、OTA ファーム更新)に向いています。

ML 向け MicroPython

MicroPython は Python の組込版です。2024-2026 年に MicroPython の上で ML を動かすパターンが増えました。

- ulab — MicroPython 版 numpy

- emlearn — scikit-learn のツリー / フォレストを C エクスポート

- tflite-micro Python バインディング — Sipeed / Espressif が提供

MicroPython の魅力は素早いプロトタイピングです。C++ ではコンパイル + フラッシュに 30 秒かかるところを、MicroPython は REPL で即実行できるためセンサーデータ探索が高速化します。

11. ONNX Runtime Mobile / Core ML / TensorRT / Apache TVM

このセクションではモバイル / エッジ推論ランタイム 4 種を整理します。

ONNX Runtime Mobile

ONNX Runtime は Microsoft が開発したマルチフレームワーク推論エンジンです。ONNX(Open Neural Network Exchange)標準形式のモデルを実行し、事実上 PyTorch / TF / JAX / Keras すべてから変換可能です。

ONNX Runtime Mobile はモバイル向けスリムビルドです。

- Android — AAR ライブラリ、NNAPI バックエンド、QNN(Qualcomm)バックエンド

- iOS — Pod、Core ML バックエンド

- Raspberry Pi / Linux ARM — .so ライブラリ、XNNPACK バックエンド

長所は陣営中立性です。PyTorch 陣営(ExecuTorch)と Google 陣営(LiteRT)の間で「両方互換」という安全な選択肢になります。ただし量子化と NPU 最適化の面では、陣営別のネイティブ(LiteRT / ExecuTorch)より 1-2 段階遅れることが多いです。

Core ML(Apple)

Core ML は Apple の自社デバイス(iPhone、iPad、Mac、Watch)専用 ML ランタイムです。2017 年の iOS 11 から導入され、2024-2026 年に A17 Pro / A18 Pro / M3 / M4 の Neural Engine を活用する標準パスとなりました。

Core ML の強みは Apple Silicon との統合です。CPU / GPU / Neural Engine(ANE)を自動スケジューリングし、M3 / M4 の ANE は 35-38 TOPS を発揮します。モバイル Stable Diffusion、オンデバイス Whisper、Apple Intelligence(2024 WWDC)のオンデバイス LLM はすべて Core ML 上で動きます。

PyTorch -> Core ML 変換(coremltools)

class MyModel(torch.nn.Module):

def forward(self, x):

return torch.nn.functional.relu(x)

model = MyModel().eval()

traced = torch.jit.trace(model, torch.randn(1, 3, 224, 224))

mlmodel = ct.convert(

traced,

inputs=[ct.TensorType(shape=(1, 3, 224, 224))],

compute_units=ct.ComputeUnit.ALL, # CPU + GPU + ANE

)

mlmodel.save("MyModel.mlpackage")

Apple Intelligence のオンデバイスモデルはおよそ 3B パラメータ(2-bit 量子化)と言われ、iPhone 15 Pro 以上の Neural Engine でトークンあたり ~30 ms 程度で動作します。

TensorRT(NVIDIA)

TensorRT は NVIDIA GPU 専用の推論アクセラレータです。デスクトップ RTX、サーバ H100 / H200 / B200、エッジ Jetson まで同じ API で動きます。

PyTorch -> ONNX -> TensorRT エンジンビルド

1. PyTorch -> ONNX

torch.onnx.export(model, dummy_input, "model.onnx", opset_version=17)

2. ONNX -> TensorRT engine

logger = trt.Logger(trt.Logger.WARNING)

builder = trt.Builder(logger)

network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))

parser = trt.OnnxParser(network, logger)

with open("model.onnx", "rb") as f:

parser.parse(f.read())

config = builder.create_builder_config()

config.set_flag(trt.BuilderFlag.FP16)

engine = builder.build_serialized_network(network, config)

with open("model.engine", "wb") as f:

f.write(engine)

TensorRT-LLM は LLM 専用のアクセラレーションライブラリで、Llama / Mistral / Qwen に対し自動でグラフ融合 + KV キャッシュ最適化 + 量子化(FP8 / INT4)を行います。Jetson AGX Orin 上で Llama 3.1 8B がトークンあたり 5-7 ms 水準です。

Apache TVM

Apache TVM は OctoML が主導する ML コンパイラプロジェクトです。PyTorch / TF / ONNX モデルを受け取り、CPU / GPU / NPU / DSP のいずれでも動くコードを自動生成します。

MLC LLM(次セクション)は TVM ベースです。TVM 自体は学習コストが高めですが、MLC というユーザーフレンドリーなラッパー経由でスマホ上で LLM を動かす中核インフラとなっています。

12. スマホで LLM — MLC LLM / llama.cpp / Whisper.cpp / GGUF

2024-2026 年で最も大きな変化は、スマホ上で 1-8B LLM が実用速度で動くことです。主要ツール:

llama.cpp

ggerganov による C++ LLM 推論エンジンです。2023 年春に始まり、2026 年現在は事実上のローカル LLM 標準ランタイムです。

中核の価値:

- 純粋 C++。依存関係ほぼなし。ARM / x86 / CUDA / Metal / Vulkan / SYCL に対応

- GGUF — llama.cpp の統合モデルファイル形式。量子化情報 + メタデータを内包

- 量子化 — Q2_K、Q3_K、Q4_K、Q5_K、Q6_K、Q8_0 など 4-bit 以下の量子化を多数サポート

- トークナイザ / サンプリング / チャットテンプレートをすべて同梱

Android で llama.cpp をビルド(Termux 環境)

pkg install clang make git

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

make -j

Phi-3.5 mini モデルをダウンロード(GGUF 4-bit、例)

huggingface-cli download bartowski/Phi-3.5-mini-instruct-GGUF \

Phi-3.5-mini-instruct-Q4_K_M.gguf --local-dir ./models

./llama-cli -m ./models/Phi-3.5-mini-instruct-Q4_K_M.gguf \

-p "Explain attention." -n 128 -t 4

Galaxy S24 Ultra / iPhone 15 Pro のようなスマホでは Phi-3.5 mini(3.8B Q4_K_M、約 2.2GB)がトークンあたり 30-50 ms(20-30 tok/s)で動作します。

Whisper.cpp

同じく ggerganov による Whisper(OpenAI 音声認識モデル)の C++ ポートです。クラウドなしでスマホ / ノート PC で音声認識が動きます。

Whisper.cpp で日本語音声認識(CPU)

git clone https://github.com/ggerganov/whisper.cpp

cd whisper.cpp

bash ./models/download-ggml-model.sh medium

make -j

./build/bin/whisper-cli -m models/ggml-medium.bin -l ja -f my_audio.wav

iPhone の Whisper.cpp Core ML ビルドは medium モデル(769M)で 30 分の音声を ~5 分で処理します。small モデル(244M)はリアルタイムより速く、base(74M)はスマホでほぼリアルタイムで動きます。

MLC LLM

MLC(Machine Learning Compilation)LLM はカーネギーメロン / Apache TVM 陣営が作ったスマホ / ブラウザ向け LLM エンジンです。

- Android — Vulkan / OpenCL バックエンド

- iOS — Metal バックエンド

- ブラウザ — WebGPU バックエンド(ブラウザ内で LLM 実行)

- デスクトップ — CUDA / ROCm / Metal

特に WebGPU バックエンドが面白いです。ページに訪問するとモデルがダウンロードされ、Chrome / Edge / Safari 内で GPU 高速 LLM が動きます。サーバー呼び出しなし、完全ローカルです。

MLC LLM の Android デモビルド

git clone --recursive https://github.com/mlc-ai/mlc-llm

cd mlc-llm

python -m mlc_llm package --model "HF://mlc-ai/Llama-3.2-3B-Instruct-q4f16_1-MLC"

Android Studio で android/MLCChat プロジェクトを開いてビルド

MLC LLM 上で Galaxy S24 Ultra は Llama 3.2 3B をトークンあたり 25 ms(40 tok/s)で動かします。同じ端末で llama.cpp より GPU バックエンドの方がわずかに速いです。

GGUF 形式

GGUF(Georgi Gerganov Unified Format)は llama.cpp のモデルファイル標準です。1 つのファイルに以下が統合されています。

- 重み(量子化済みテンソル)

- トークナイザ(BPE / SentencePiece)

- チャットテンプレート(chat_template、Jinja 風)

- メタデータ(architecture、context size、RoPE 設定)

このため .gguf ファイル 1 つあれば llama.cpp / Ollama / LM Studio / GPT4All のどこでも同じモデルを同じ結果で動かせます。

2026 年 5 月時点で Hugging Face には 5 万を超える GGUF モデルがあり、ほぼすべてで "Q4_K_M" または "Q5_K_M" 量子化が標準です。一般的には Q4_K_M が品質 / サイズのバランス推奨値です。

13. 小さなモデル — Phi-3 / 3.5 / 4(MS) / Gemma 2 / 3(Google) / Llama 3.2 1B / 3B

エッジ LLM の最大の変数はモデル選択です。2024-2026 年に「1-4B なのに GPT-3.5 級に賢い」小型モデルが爆発的に登場しました。代表 3 系統を整理します。

Microsoft Phi シリーズ

Phi は Microsoft の小型 LLM シリーズです。「Textbooks Are All You Need」論文に始まり、高品質な合成データ + 小さいモデルで大型モデルに迫る性能を狙います。

- Phi-3 mini(3.8B) — 2024 年 4 月。128K コンテキスト。iPhone 15 でトークンあたり ~12 tok/s

- Phi-3 small(7B) — 2024 年 5 月

- Phi-3 medium(14B) — 2024 年 5 月

- Phi-3.5 mini(3.8B) — 2024 年 8 月。多言語対応(韓国語 / 日本語など)

- Phi-3.5 vision(4.2B) — ビジョン入力

- Phi-3.5 MoE(16x3.8B、有効 6.6B) — MoE 派生

- Phi-4(14B) — 2024 年 12 月。コード / 数学に強い

- Phi-4 mini(3.8B) — 2025 年初頭

Phi-3 mini の人気の秘密はスマホで実用的に動く初の LLM だったことです。iPhone 15 Pro でトークンあたり 12-15 tok/s、Galaxy S24 Ultra で 20-25 tok/s と、リアルタイムチャットが可能です。

Google Gemma シリーズ

Gemma は Google のオープンモデルシリーズで、Gemini と同じ研究インフラから派生しています。

- Gemma 2B / 7B — 2024 年 2 月。初版

- Gemma 2 2B / 9B / 27B — 2024 年 6 月。品質が大幅向上

- Gemma 3 1B / 4B / 12B / 27B — 2025 年 3 月。マルチモーダル(ビジョン + テキスト)統合、128K コンテキスト

- Gemma 3n(モバイル特化) — 2025 年 5 月。4B でも 8B 並みに動く PLE 構造

Gemma 3 27B は 9B より一段上、4B の Gemma 3n は一般的な 8B モデル相当の品質を見せモバイルに最適化されています。PLE(Per-Layer Embeddings)はメモリ効率のため埋め込みをレイヤーごとに分散配置する構造です。

Meta Llama 3.2 1B / 3B

Llama 3.2 は 2024 年 9 月発表の Meta 製小型モデルシリーズです。事実上モバイル / エッジ専用ラインです。

- Llama 3.2 1B / 3B — テキスト専用の小型

- Llama 3.2 11B / 90B Vision — ビジョン + テキスト(大きいサイズはエッジ向きではない)

Llama 3.2 1B はあらゆる LLM の中で最小ながら実用回答ができるモデルで、iPhone 15 / Galaxy S24 のようなスマホでトークンあたり 50-80 tok/s が出ます。音声インターフェース、チャットボット、テキスト分類のような軽量シナリオに十分です。

Meta 自身が Llama 3.2 1B / 3B の公式モバイル実行パスとして ExecuTorch を提示し、Android / iOS のデモアプリを提供しています。

モデル選択ガイド

- Phi-3 mini / 3.5 mini / Phi-4 mini — 多言語、汎用チャット、最もバランスのとれた選択

- Gemma 2 2B / Gemma 3 4B(Gemma 3n) — Google 陣営、MediaPipe LLM Inference API と統合

- Llama 3.2 1B / 3B — Meta 陣営、ExecuTorch の第一推奨、英語に強い

スマホで最速回答が必要なら Llama 3.2 1B(50-80 tok/s) -> Phi-3 mini(20-25 tok/s) -> Gemma 3 4B(15-20 tok/s) -> Llama 3.2 3B(10-15 tok/s)の順です。ただし回答品質はほぼ逆順で、Phi-3 mini / Gemma 3 4B / Llama 3.2 3B が 1B より明確に優れます。

14. Always-on AI — センサー + ML の時代

エッジ AI の真価は単発推論ではなく 24/7 常時稼働にあります。これを Always-on AI と呼びます。

典型的なシナリオ:

- スマートスピーカーのウェイクワード — マイクを常時聞いて「Hey Siri」で起動

- スマートウォッチの転倒検知 — IMU を常時監視してパターン一致で通知

- 産業現場の振動解析 — モーター振動を常時聞いてベアリング不良パターンを検出

- 農業 IoT — カメラが作物を常時監視して病害を検出

- 都市 CCTV — 人物 / 車両カウント + 事故検知

技術的な核は次の 4 点です。

1. デュアルコア / デュアルモデル — 非常に小さなモデル(1-10 KB)が常時走って「候補」を捕まえ、続いて大きなモデル(100KB-1MB)が起きて検証。キーワード検出が典型例。Apple Watch / Pixel Buds はこの方式

2. 量子化 — int8 もしくはそれ以下(4-bit、2-bit)で電力を 99% 削減。Edge TPU、Hexagon DSP、Cortex-M NPU はすべて int8 中心

3. NPU / DSP 主体の処理 — メイン CPU を起こさず NPU 単独で推論。メイン CPU は deep sleep

4. センサー -> ML 直結 — カメラ ISP / マイク PDM が NPU と同じ SoC 内にあり、データが CPU メモリを経由せず NPU へ直行

// Cortex-M NPU 上の Always-on キーワード検出擬似コード

void main(void) {

while (1) {

// 1. 非常に小さなモデル(10KB)で 1 次フィルタ

int trigger = run_tiny_kws_model(audio_buffer);

if (trigger > THRESHOLD_LOW) {

// 2. 大きなモデル(500KB)を起こす

int label = run_large_kws_model(audio_buffer);

if (label == LABEL_HEY_SIRI) {

// 3. アプリケーションプロセッサを起こす(UART / SPI / IPC)

wake_application_processor();

}

// 次フレームまでスリープ(DMA がマイクデータを自動収集)

enter_deep_sleep();

}

このパターンにより Apple Watch の「Hey Siri」はほぼバッテリーを消費せず 24 時間動きます。Cortex-M 級の NPU(Apple の自社設計 NPU)がマイクを常時聞き、キーワード一致時のみメイン SoC を起こします。

産業現場の振動異常検知も同じパターンです。STM32H7 + ST の MEMS 加速度センサー + 1 KB の TFLite Micro オートエンコーダでベアリング異常を 24/7 監視し、単 1 電池で 6 ヶ月以上稼働します。

2026 年のトレンドは Visual Wake Words — カメラ ISP は常時オンで「人が見えたら」のみメイン SoC を起こすパターンです。Visual Wake Words モデルは ~250 KB、MobileNet-V2 の超軽量バリアントで、Cortex-M55 + Ethos-U65 のような NPU 統合 MCU 上で 1 mW 級で動きます。

15. 韓国 / 日本のエッジ AI — ETRI / Samsung / LG / Sony AI / NTT

韓国

- Samsung Electronics — Galaxy S24/S25 の Galaxy AI(2024-2026)はオンデバイス + クラウドのハイブリッド。通訳、リアルタイム通話翻訳、写真編集などは Snapdragon 8 Gen 3/4 の Hexagon NPU + 自社 Exynos モデム NPU で部分実行

- Samsung System LSI — 自社 Exynos 2400 / 2500 SoC の NPU コア強化。統合 AI Engine でスマホ / タブレット / ウェアラブルの一貫性

- LG Electronics — LG ThinQ Home 家電のオンデバイス AI(冷蔵庫の食品認識、洗濯機の繊維認識、TV の AI アップスケーラ)。webOS の NPU 統合 SoC を自社設計

- Hyundai Motor — Hyundai Mobis + 自社 IDC(Infotainment Domain Controller)に NVIDIA Drive と自社ソリューションを併用。ADAS 標準化

- Naver / NAVER Cloud — HyperCLOVA X の軽量版(2-3B)をモバイル / エッジに展開検討

- Kakao / Kakao Brain — デバイス向け sLM Honeybee、Kanana シリーズ(韓国語特化小型モデル)

- ETRI(韓国電子通信研究院) — エッジ AI 標準化研究。KoBERT / KoBigBird の圧縮、MOA(メタ OS 加速)プロジェクト

- KAIST / ソウル大学 — Sipeed K230、Jetson Nano 上の韓国語音声認識 / 翻訳モデル研究

- Mando / HL Mando — ADAS カメラ向けに Hailo / Ambarella NPU を採用

- LaonPeople、Suprema — 産業 / セキュリティカメラに独自 NPU または Hailo NPU を統合

日本

- Sony AI / Sony Semiconductor — NPU 統合イメージセンサー IMX500 が看板。カメラセンサー自体が ML 推論を行う「センサー上 AI」の先駆け

- NTT / NTT DoCoMo — IOWN(Innovative Optical and Wireless Network)の一部としてエッジ AI 基盤構築。通信基地局上の NPU

- Renesas Electronics — RA / RZ シリーズ MCU 上の DRP-AI(Dynamically Reconfigurable Processor for AI)を自社 NPU として展開。産業 / 自動車の標準

- Panasonic — Iolite / Connect の産業カメラ / HMI 上の独自ビジョンソリューション

- 日本 OEM も Samsung 同様の流れ — Sony Xperia、シャープ Aquos の NPU 活用

- Toyota / Honda / Nissan — 自動運転 / ADAS の自社コンピューター(Toyota T-MAS、Honda Sensing) + NVIDIA Drive を併用

- 日本のスタートアップ — Edgecortix、LeapMind が自社 NPU / コンパイラを提供。LeapMind は量子化モデルコンパイラ Blueoil で知られる

- ASTERA Labs(本社は米国だが日本市場で強い) — CXL / PCIe メモリファブリックでエッジデータセンタ基盤を構築。車載メモリファブリックでシェア拡大

共通の流れ

韓国 / 日本ともに「オンデバイス AI の比重拡大」が大きな潮流です。スマホ / 自動車 / 家電に NPU が標準搭載され、クラウド LLM のコスト / レイテンシ / プライバシー問題から「できることはデバイス内で完結」という戦略に移行しつつあります。

特に日本は自社 NPU 設計力が強く、Renesas DRP-AI、Sony IMX500、Panasonic のビジョン IP、Edgecortix の SAKURA-II などが NVIDIA / Hailo / Coral のグローバル競合として位置を確立しています。

16. エッジ AI を学ぶべきは誰か — IoT / モバイル / 自動車

最後に職種別にどの道具をどう学ぶかをまとめます。

IoT / ファームウェアエンジニア

- 必須 — Arduino Nano 33 BLE Sense + TFLite Micro / LiteRT Micro + Edge Impulse。C / C++

- 推奨 — Cortex-M の NPU 統合 MCU(Ethos-U55 / U65)、Sipeed K230、ESP32-S3

- 応用 — Always-on AI、振動解析、環境モニタリング、キーワード検出

- キャリア — 産業 IoT、スマートファクトリ、ヘルスケアデバイス、農業 IoT

モバイルエンジニア

- 必須 — LiteRT(Android) + Core ML(iOS)。Kotlin / Swift

- 推奨 — ExecuTorch(両方)、MLC LLM、llama.cpp、Whisper.cpp

- 応用 — スマホで LLM チャット、音声認識、画像分類、AR

- キャリア — スマホ OS / キーボード / メッセンジャー / カメラアプリ / ヘルスアプリ

SBC / ロボティクスエンジニア

- 必須 — NVIDIA Jetson + JetPack + TensorRT、ROS 2、Isaac ROS

- 推奨 — Rockchip RK3588、Hailo-15、Coral、Sipeed K230

- 応用 — 自律移動ロボット、ヒューマノイド、産業ビジョン、セキュリティカメラ

- キャリア — ロボット会社、自動運転、産業オートメーション、航空 / 宇宙

自動車エンジニア

- 必須 — NVIDIA Drive AGX、Mobileye EyeQ、TensorRT

- 推奨 — Hailo-10H(ASIL-B)、Qualcomm Snapdragon Ride

- 応用 — ADAS、自動運転、車載インフォテインメント

- キャリア — OEM、Tier-1(Bosch、Continental)、Tier-2(NXP、Infineon)

ML エンジニア / データサイエンティスト(エッジ転向)

- 必須 — PyTorch + torch.export + 量子化対応学習(QAT)

- 推奨 — ONNX、ExecuTorch、LiteRT、llama.cpp、MLC LLM

- 応用 — クラウドモデルをエッジへ持ち込む作業。量子化 / 枝刈り / 知識蒸留

学生 / 初心者

最も安価で速い入門ルート:

1. Arduino Nano 33 BLE Sense(\$35) + Edge Impulse(無料枠) — TinyML 初歩。キーワード検出、ジェスチャー認識

2. Sipeed MaixCAM もしくは XIAO ESP32-S3 Sense(\$15-65) — カメラ + AI のメイカー案件

3. Raspberry Pi 5 + Coral USB Accelerator(\$130)または Orange Pi 5(\$130) — SBC への入口

4. Jetson Orin Nano(\$249) — 本格的なロボティクス / SBC

\$15 のボード 1 台から始め、半年で \$249 の Jetson まで段階的に進むのが最も無理のない道筋です。

17. 参考 / References

- LiteRT(旧 TFLite) — https://ai.google.dev/edge/litert

- LiteRT Micro — https://ai.google.dev/edge/litert/microcontrollers/overview

- ExecuTorch — https://pytorch.org/executorch/

- ExecuTorch GitHub — https://github.com/pytorch/executorch

- Edge Impulse — https://www.edgeimpulse.com/

- NVIDIA Jetson Orin — https://developer.nvidia.com/embedded/jetson-orin

- NVIDIA Jetson Thor — https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-thor/

- Coral by Google — https://coral.ai/

- Hailo — https://hailo.ai/

- Sipeed K230 / MaixPy — https://wiki.sipeed.com/hardware/en/maixIV/m4ndock/maixIV.html

- Rockchip RKNN-Toolkit2 — https://github.com/airockchip/rknn-toolkit2

- Arduino Nano 33 BLE Sense — https://store.arduino.cc/products/arduino-nano-33-ble-sense-rev2

- Seeed XIAO ESP32-S3 Sense — https://wiki.seeedstudio.com/xiao_esp32s3_getting_started/

- ONNX Runtime Mobile — https://onnxruntime.ai/docs/tutorials/mobile/

- Core ML Tools — https://apple.github.io/coremltools/docs-guides/

- NVIDIA TensorRT — https://developer.nvidia.com/tensorrt

- TensorRT-LLM — https://github.com/NVIDIA/TensorRT-LLM

- Apache TVM — https://tvm.apache.org/

- MLC LLM — https://llm.mlc.ai/

- llama.cpp — https://github.com/ggerganov/llama.cpp

- Whisper.cpp — https://github.com/ggerganov/whisper.cpp

- GGUF Spec — https://github.com/ggerganov/ggml/blob/master/docs/gguf.md

- Microsoft Phi-3 — https://azure.microsoft.com/en-us/products/phi

- Microsoft Phi-4 — https://huggingface.co/microsoft/phi-4

- Google Gemma — https://ai.google.dev/gemma

- Meta Llama 3.2 — https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

- MediaPipe LLM Inference — https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference

- Sony IMX500 — https://www.sony-semicon.com/en/products/is/industry/imx500.html

- Renesas DRP-AI — https://www.renesas.com/en/key-technologies/ai-machine-learning/drp-ai

- ETRI — https://www.etri.re.kr/eng/main/main.etri