엣지 AI & TinyML 2026 — LiteRT / ExecuTorch / Edge Impulse / Jetson / Coral / Hailo / Sipeed K230 / llama.cpp / Phi-4 심층 가이드

1. 2026년 엣지 AI 지도 — MCU / SBC / 폰 / Auto 의 4 분류
2. TFLite Micro → LiteRT (2024 리브랜드)
3. ExecuTorch (PyTorch) GA — LiteRT 의 정면 대안
4. Edge Impulse — 가장 큰 TinyML 플랫폼
5. NVIDIA Jetson Orin Nano / NX / Thor / AGX
6. Coral Dev Board (Google TPU) — 4 TOPS, 2W
7. Hailo-15 / Hailo-8 NPU — 이스라엘에서 온 다크호스
8. Sipeed K230 — RISC-V + NPU 의 첫 메인스트림
9. Rockchip RK3588 — SBC NPU 의 사실상 표준
10. MaixPy / Arduino Nano 33 BLE Sense / Seeed Wio AI
11. ONNX Runtime Mobile / Core ML / TensorRT / Apache TVM
12. 폰에서 LLM — MLC LLM / llama.cpp / Whisper.cpp / GGUF
13. 소형 모델 — Phi-3 / 3.5 / 4 (MS) / Gemma 2 / 3 (Google) / Llama 3.2 1B/3B
14. Always-on AI — 센서 + ML 의 시대
15. 한국 / 일본의 엣지 AI — ETRI / 삼성 / LG / Sony AI / NTT
16. 누가 엣지 AI 를 배워야 하나 — IoT / 모바일 / 자동차
17. 참고 / References

1. 2026년 엣지 AI 지도 — MCU / SBC / 폰 / Auto 의 4 분류

2026년의 엣지 AI(Edge AI)는 단일 카테고리가 아닙니다. "엣지" 라는 한 단어 안에 전력 100mW 의 마이크로컨트롤러부터, 100W 가 넘는 자율주행 컴퓨터까지가 다 같이 들어 있고, 그 안에서 도는 모델도 1KB 이하의 키워드 스폿팅 모델부터 4-bit 양자화된 70B LLM 까지 천차만별입니다.

먼저 2026년 엣지 AI 디바이스를 큰 4가지 카테고리로 정리하면 다음과 같습니다.

MCU (Microcontroller) 급 — 전력 1-100mW, 메모리 16KB-2MB, 모델 1KB-1MB. Arduino Nano 33 BLE Sense, Seeed XIAO ESP32-S3, STMicro STM32H7, Nordic nRF52840. 키워드 스폿팅("hey siri"), 진동 이상 탐지, 제스처 인식
SBC (Single Board Computer) 급 — 전력 1-15W, 메모리 4-16GB, 모델 1MB-1GB. Raspberry Pi 5, Rockchip RK3588 보드, NVIDIA Jetson Orin Nano, Coral Dev Board, Sipeed K230. 객체 탐지, 자세 추정, 음성 인식
모바일 / 폰 급 — 전력 5-15W, 메모리 8-16GB, 모델 1-8GB. iPhone (A17/A18 Bionic + Neural Engine), Galaxy S24/S25 (Snapdragon 8 Gen 3/4 + Hexagon NPU), Pixel 9 (Tensor G4 + Edge TPU). 1B-7B 양자화 LLM, 온디바이스 Whisper, Stable Diffusion (LCM)
자동차 / 로보틱스 / Industrial 급 — 전력 30-130W, 메모리 32-64GB, 모델 1B-70B. NVIDIA Jetson AGX Orin, Jetson Thor(2026 신제품), Tesla FSD HW4, Mobileye EyeQ7. 자율주행, 휴머노이드 로봇, 산업용 비전

2024년 가장 큰 사건은 두 가지였습니다. 첫째, Google 이 TensorFlow Lite 의 모바일/임베디드 런타임을 LiteRT 로 리브랜드 — 이제 TFLite 의 정식 명칭은 LiteRT 이고, TFLite Micro 는 LiteRT Micro 입니다. 둘째, Meta 가 ExecuTorch 를 GA 로 발표 — PyTorch 진영의 모바일/임베디드 런타임이 TFLite/LiteRT 의 정면 대안으로 등장했습니다.

이전까지 "엣지에서 PyTorch 를 돌리려면 ONNX 로 변환 후 TFLite 로 가야 한다" 가 정설이었는데, 이제는 PyTorch → ExecuTorch 라는 직선 경로가 생긴 것입니다. 그래서 2026년 엣지 AI 의 첫 갈림길은 LiteRT(Google) 와 ExecuTorch(Meta/PyTorch) 둘 중 어느 진영으로 갈 것인가 입니다.

이 글은 그 모든 갈림길을 한 장의 지도로 정리합니다. MCU 부터 폰까지, Google 부터 Meta 까지, ONNX Runtime 부터 Core ML 까지, 작은 모델(Phi-3, Gemma 3, Llama 3.2) 부터 큰 모델(70B GGUF) 까지, 그리고 한국/일본의 엣지 AI 사례까지 모두 다룹니다.

2. TFLite Micro → LiteRT (2024 리브랜드)

먼저 TFLite Micro 가 LiteRT 로 바뀐 이야기부터 시작합니다.

2017년에 Google 이 TensorFlow Lite 를 발표한 이래, TFLite 는 모바일/임베디드 ML 의 사실상 표준이 되었습니다. 그 위에 2018년 TFLite Micro — 즉 RAM 이 수십 KB 밖에 없는 MCU 에서도 도는 더 가벼운 런타임 — 가 추가되었고, 이 두 가지가 거의 7년간 Google 의 엣지 ML 전략의 핵심이었습니다.

그러다 2024년 5월 Google I/O 에서, Google 은 두 가지를 한 번에 발표했습니다.

TensorFlow Lite → LiteRT 로 이름 변경
LiteRT 가 더 이상 TensorFlow 전용이 아니다 — PyTorch, JAX, Keras 어디서든 변환 가능

이름이 바뀐 이유는 명확합니다. "TFLite" 라는 이름이 너무 TensorFlow 종속적이라는 인상을 줬고, 실제로 2023-2024년에 ML 생태계는 PyTorch 가 압도적인 시장 점유율을 가지게 되었기 때문입니다. Google 입장에선 "TFLite 의 런타임 자체는 좋은데 PyTorch 모델은 못 돌린다" 는 인식을 깨야 했습니다.

LiteRT 의 핵심 변화는 다음과 같습니다.

모든 프레임워크(TF, PyTorch, JAX) 의 모델을 변환 가능
PyTorch 변환 경로 — torch.export → LiteRT (구 .tflite 파일 포맷 유지)
기존 TFLite 코드는 그대로 작동 — 마이그레이션 부담 없음
LiteRT 는 ai_edge_torch 패키지로 PyTorch 직접 변환 지원
MediaPipe 위에서 LLM Inference API 가 함께 제공됨 (Gemma 2B 같은 모델을 폰에서 돌리는 표준 경로)

LiteRT Micro(구 TFLite Micro) 도 동일한 흐름입니다. C++ 헤더-only 런타임은 그대로지만, 이제 PyTorch 에서도 직접 모델을 만들어 LiteRT Micro 로 보낼 수 있습니다.

간단한 PyTorch → LiteRT 변환 예제는 다음과 같습니다.

# PyTorch 모델 → LiteRT (구 .tflite) 변환
import torch
import ai_edge_torch

class TinyClassifier(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.conv = torch.nn.Conv2d(1, 8, 3)
        self.fc = torch.nn.Linear(8 * 26 * 26, 10)
    def forward(self, x):
        x = self.conv(x)
        x = torch.relu(x)
        x = x.flatten(1)
        return self.fc(x)

model = TinyClassifier().eval()
sample_input = (torch.randn(1, 1, 28, 28),)

# torch.export 기반 변환
edge_model = ai_edge_torch.convert(model, sample_input)
edge_model.export("tiny_classifier.tflite")

이 .tflite 파일은 그대로 안드로이드, iOS, 라즈베리파이, Coral, ESP32-S3 에서 동일하게 실행됩니다.

LiteRT 의 더 큰 의의는 ExecuTorch 와의 시장 경쟁입니다. Google 이 PyTorch 호환성을 받아들이지 않았다면 PyTorch 진영은 100% ExecuTorch 로 갔을 텐데, 이제는 두 표준이 공존하게 됐습니다. 엣지 ML 엔지니어 입장에선 "한 모델을 두 런타임에서 다 돌려보고 빠른 쪽을 선택" 할 수 있는 시대가 된 것입니다.

3. ExecuTorch (PyTorch) GA — LiteRT 의 정면 대안

ExecuTorch 는 Meta(PyTorch) 가 2023년 PyTorch Conference 에서 처음 발표한, 모바일/임베디드용 PyTorch 런타임입니다. 2024년 1.0 GA 가 되며 본격적으로 LiteRT 의 정면 경쟁자가 되었습니다.

ExecuTorch 의 핵심 아이디어는 두 가지입니다.

PyTorch 의 torch.export 그래프를 그대로 모바일/임베디드에서 실행한다
백엔드(backend) 추상화로 CPU / GPU / NPU / DSP 를 모두 지원한다

기존 PyTorch Mobile 은 TorchScript 라는 별도 IR(intermediate representation) 을 사용했는데, 이게 PyTorch 의 동적 그래프와 불완전하게 호환되어 변환 실패가 잦았습니다. ExecuTorch 는 torch.export(2.x 의 새 정적 그래프 API) 를 표준으로 채택해 변환 호환성을 크게 끌어올렸습니다.

ExecuTorch 의 백엔드 목록을 보면 ExecuTorch 가 얼마나 진지한지 알 수 있습니다.

XNNPACK — ARM CPU 최적화. 기본 백엔드
CoreML Delegate — iOS / macOS Neural Engine
MPS Delegate — Apple Metal Performance Shaders (GPU)
Vulkan Delegate — 안드로이드 GPU
Qualcomm QNN Delegate — Snapdragon Hexagon NPU
MediaTek Neuron Delegate — Dimensity NPU
ARM Ethos-U Delegate — Cortex-M NPU
Cadence DSP, NXP, XTensa — 임베디드 DSP

즉 ExecuTorch 한 그래프에서 iPhone Neural Engine 도, Snapdragon Hexagon 도, Cortex-M Ethos-U 도 같은 코드로 돌릴 수 있습니다.

간단한 변환 예제는 다음과 같습니다.

# PyTorch → ExecuTorch 변환
import torch
from torch.export import export
from executorch.exir import to_edge

class MyModel(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.lin = torch.nn.Linear(10, 1)
    def forward(self, x):
        return self.lin(x)

model = MyModel().eval()
example_args = (torch.randn(1, 10),)

# torch.export
exported = export(model, example_args)

# ExecuTorch 변환
edge_program = to_edge(exported)
et_program = edge_program.to_executorch()

# .pte 파일로 저장 (PyTorch Edge format)
with open("my_model.pte", "wb") as f:
    f.write(et_program.buffer)

이 .pte 파일을 안드로이드/iOS 의 ExecuTorch SDK 로 로드해 실행하면, 똑같은 모델이 PyTorch 의 동적 그래프와 동일한 의미로 실행됩니다.

LiteRT 와 ExecuTorch 의 비교는 다음과 같이 정리할 수 있습니다.

라이선스 — 둘 다 Apache 2.0
모델 변환 — LiteRT 는 PyTorch/TF/JAX, ExecuTorch 는 PyTorch
파일 포맷 — LiteRT 는 .tflite, ExecuTorch 는 .pte
진영 — Google 진영 vs Meta(PyTorch) 진영
시장 — LiteRT 는 안드로이드 표준, ExecuTorch 는 PyTorch 친화 모바일/MCU
도구 체인 — LiteRT 는 MediaPipe + ai_edge_torch, ExecuTorch 는 torch.export + delegate

2026년 현재 ExecuTorch 는 Llama 3.2 1B/3B 의 공식 모바일 실행 경로로 채택되었습니다. Meta 가 자기 LLM 을 자기 런타임으로 미는 게 자연스럽고, Llama 3.2 의 모바일 데모는 거의 ExecuTorch + iOS/Android 조합입니다.

4. Edge Impulse — 가장 큰 TinyML 플랫폼

Edge Impulse 는 2019년 창업한 TinyML 전문 스타트업입니다. 2026년 현재 TinyML 분야에선 사실상 표준 클라우드 플랫폼입니다.

Edge Impulse 가 잘하는 것은 데이터 수집부터 배포까지의 풀스택을 한 UI 안에서 처리하는 것입니다. 일반적인 TinyML 워크플로는 다음과 같습니다.

센서 데이터 수집 — Arduino / ESP32 / 모바일 폰에서 가속도, 마이크, 카메라 데이터 업로드
라벨링 — 웹 UI 에서 클립별로 클래스 라벨링
데이터 전처리 — FFT, Spectrogram, MFCC 등 DSP 블록 선택
모델 학습 — Keras / scikit-learn / Edge Impulse 의 자체 EON Tuner 가 자동 탐색
양자화 + 컴파일 — int8 양자화, EON Compiler 로 C++ 라이브러리 생성
배포 — Arduino IDE 의 라이브러리, PlatformIO, 또는 펌웨어 OTA

EON Compiler 는 Edge Impulse 의 비밀 무기입니다. 일반 TFLite Micro 인터프리터가 100KB 정도 RAM 을 쓴다면, EON Compiler 는 모델을 C++ 정적 코드로 컴파일해 RAM 사용량을 30-50% 줄입니다. RAM 이 64KB 밖에 없는 Cortex-M0+ 에서도 ML 을 돌릴 수 있는 비결입니다.

Edge Impulse 의 대표적 사용 사례는 다음과 같습니다.

키워드 스폿팅 — "헤이 알렉사" 같은 호출어 인식
진동 이상 탐지 — 공장 모터에 부착해 베어링 불량 조기 감지
자세 인식 — IMU 데이터로 사람의 자세(앉기/서기/넘어짐) 분류
객체 탐지 — FOMO(Faster Objects, More Objects) 라는 MobileNet 의 초경량 변형
시계열 분류 — ECG, EEG, 진동, 압력 등 1D 신호

Edge Impulse 가 Sony Spresense, Nordic nRF5340, Renesas RA, Silicon Labs xG24 등 거의 모든 주요 MCU 벤더와 공식 파트너십을 맺고 있어 SDK 가 깔끔합니다.

# Edge Impulse CLI 로 Arduino Nano 33 BLE Sense 와 연결
npm install -g edge-impulse-cli

# 디바이스 펌웨어 굽기 (Arduino Nano 33 BLE Sense)
edge-impulse-daemon --clean

# 학습된 모델을 Arduino 라이브러리로 export
edge-impulse-runner --download
# → 다운로드된 .zip 을 Arduino IDE 에서 Sketch > Include Library > Add .ZIP Library

회사 입장에선 Edge Impulse 가 만든 "데이터 → 모델 → 펌웨어" 라는 풀스택이 진입 장벽을 크게 낮춥니다. 펌웨어 엔지니어가 ML 박사가 아니어도, 그리고 ML 엔지니어가 펌웨어 베테랑이 아니어도, Edge Impulse 안에서 양쪽 모두가 만나게 됩니다.

2026년에는 Edge Impulse Studio 위에 LLM 통합도 시작되었습니다. ChatGPT 스타일 채팅 UI 로 "센서 데이터를 분석해 새 모델을 만들어 줘" 하면 자동으로 데이터셋, 전처리, 모델 후보를 추천해 줍니다.

5. NVIDIA Jetson Orin Nano / NX / Thor / AGX

NVIDIA Jetson 은 SBC / 산업용 임베디드 / 로보틱스 분야의 표준입니다. 2026년 Jetson 라인업은 매우 강력해졌습니다.

Jetson Orin Nano (8GB) — 40 TOPS, 7-15W. 입문/개발용. $249-$399
Jetson Orin NX (8GB / 16GB) — 70-100 TOPS, 10-25W. 산업/로보틱스. $599-$899
Jetson AGX Orin (32GB / 64GB) — 200-275 TOPS, 15-60W. 자율주행/로봇. $1999-$2999
Jetson Thor (2026 신제품) — 2000+ TOPS, 130W. 휴머노이드 로봇/대형 자율주행. $3499 (개발자 키트)

Jetson Thor 는 2025년 GTC 에서 공개되어 2026년 상반기에 본격 출시된 휴머노이드 로봇용 컴퓨터입니다. Blackwell 아키텍처의 GPU 위에 128GB LPDDR5X 메모리를 얹어 70B-급 LLM 을 로컬에서 돌릴 수 있고, 14개의 카메라/라이다 입력을 동시 처리할 수 있습니다. NVIDIA Isaac Lab 의 로봇 학습 환경, Cosmos 의 시뮬레이션-실제 전이 모델과 함께 사용하는 게 표준입니다.

Jetson 의 소프트웨어 스택은 거의 NVIDIA 데스크탑 GPU 와 호환됩니다.

JetPack — Ubuntu 기반 OS + CUDA + cuDNN + TensorRT 통합 SDK
TensorRT — NVIDIA 의 추론 가속기. ONNX/PyTorch 모델을 GPU 에 최적화
DeepStream — 비디오 분석 파이프라인. 카메라 N 대 동시 처리
Isaac ROS — ROS 2 + GPU 가속 노드. 자율주행/로봇 표준
NIM (NVIDIA Inference Microservice) — 컨테이너로 LLM 서빙

Jetson 위에서 LLM 을 돌리는 표준은 llama.cpp(GGUF) 또는 TensorRT-LLM 입니다. Orin Nano 8GB 에선 Phi-3 mini(3.8B) 가 토큰당 ~5-10 ms 로 돌고, AGX Orin 64GB 에선 Llama 3.1 70B (4-bit) 가 토큰당 ~30-50 ms 로 돕니다. Jetson Thor 에선 같은 70B 가 토큰당 5 ms 이하로 떨어지며, 사실상 데스크탑 RTX 4090 과 비슷한 성능을 가집니다.

# Jetson Orin Nano 에서 llama.cpp + Phi-3 mini 돌리기
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make GGML_CUDA=1 -j

# Phi-3 mini 4-bit GGUF 다운로드 (예시 모델명)
huggingface-cli download microsoft/Phi-3-mini-4k-instruct-gguf \
  Phi-3-mini-4k-instruct-q4.gguf --local-dir ./models

./llama-cli -m ./models/Phi-3-mini-4k-instruct-q4.gguf \
  -p "한국의 수도는?" -n 64 -ngl 32

Jetson 의 약점은 가격과 발열입니다. AGX Orin 64GB 는 거의 $3000 이고, 60W TDP 에선 능동 쿨링이 필수입니다. 그래서 저전력/저비용을 원하는 사람들은 Coral, Hailo, Rockchip 같은 대안을 찾게 됩니다.

6. Coral Dev Board (Google TPU) — 4 TOPS, 2W

Coral 은 Google 의 엣지 TPU(Tensor Processing Unit) 와 그것을 탑재한 보드 시리즈입니다. NVIDIA Jetson 의 가장 저전력 대안 중 하나입니다.

Coral Dev Board — NXP i.MX 8M + Edge TPU. 4 TOPS, 2W.
Coral USB Accelerator — USB 로 라즈베리파이/PC 에 붙이는 TPU 동글. 4 TOPS
Coral M.2 / Mini PCIe — 산업용 폼팩터
Coral SoM (System on Module) — 산업용 보드 통합

Edge TPU 는 int8 양자화 모델만 돌릴 수 있고, MobileNet / EfficientNet-Lite / PoseNet 같은 경량 CNN 에 특화되어 있습니다. 큰 LLM 은 못 돌리지만, "고정된 작은 모델을 초저전력으로 24/7 추론" 시나리오에선 NVIDIA Jetson 보다 압도적으로 효율적입니다.

전형적인 Coral 사용 사례는 다음과 같습니다.

매장 카메라 — 사람 카운팅, 줄 길이 추정
스마트 도어벨 — 사람 vs 동물 vs 차량 분류
농장 카메라 — 가축 행동 분류, 작물 상태 모니터링
산업용 CCTV — 안전 헬멧 착용 여부, 안전 영역 침입 감지
야외 야생동물 카메라 — 종 식별

Edge TPU 의 코드는 TFLite/LiteRT 위에서 매우 간단합니다.

# Coral Edge TPU 에서 객체 분류
from pycoral.utils.edgetpu import make_interpreter
from pycoral.adapters import classify, common
from PIL import Image

interpreter = make_interpreter('mobilenet_v2_quant_edgetpu.tflite')
interpreter.allocate_tensors()

image = Image.open('cat.jpg').convert('RGB')
size = common.input_size(interpreter)
common.set_input(interpreter, image.resize(size, Image.LANCZOS))

interpreter.invoke()
classes = classify.get_classes(interpreter, top_k=3)
for c in classes:
    print(f"class={c.id} score={c.score}")

Coral 의 2024-2026 한계는 분명합니다. Edge TPU 의 하드웨어 자체는 2018년 설계이고, Google 이 큰 업데이트를 안 하고 있어 신경 아키텍처(Transformer, ViT) 가속이 약합니다. 그래서 2024년부터는 Hailo / Sipeed / Rockchip 같은 후발주자들이 시장을 빼앗기 시작했습니다.

그래도 "검증된, 안정적이고, 4년 넘게 지원받는 저전력 AI 보드" 가 필요하면 Coral 은 여전히 1순위입니다.

7. Hailo-15 / Hailo-8 NPU — 이스라엘에서 온 다크호스

Hailo 는 이스라엘 텔아비브의 NPU(Neural Processing Unit) 전문 스타트업으로, 2017년 창업해 2024년 시리즈 D 에서 $340M 을 유치하며 유니콘이 된 회사입니다.

Hailo 의 NPU 라인업은 다음과 같습니다.

Hailo-8 — 26 TOPS, 2.5W. 차량/산업 임베디드. M.2/Mini PCIe 폼팩터
Hailo-8L — 13 TOPS, 1.5W. 저가형
Hailo-15 — 20 TOPS, 5W (SoC 통합). 비디오 카메라/IP 카메라 SoC. ARM Cortex-A53 + Hailo NPU 통합
Hailo-10H — 40 TOPS, 5W. 자동차 ADAS 표준 인증 (ASIL-B)

Hailo 의 핵심 강점은 와트당 TOPS — 즉 전력당 성능입니다. Coral Edge TPU 가 2 TOPS/W 라면, Hailo-8 은 ~10 TOPS/W 입니다. 5배 차이입니다.

특히 Hailo-15 는 IP 카메라 시장을 완전히 바꿔놓고 있습니다. 기존엔 카메라가 1080p H.264 영상을 송출하면 NVR(Network Video Recorder) 가 받아서 AI 분석을 했는데, Hailo-15 SoC 가 들어간 카메라는 카메라 안에서 객체 탐지 + 사람 재식별 + 자세 추정을 다 하고, "메타데이터" 만 송신합니다. 대역폭 99% 절감, 프라이버시 강화, 응답 속도 향상의 트리플 효과입니다.

Hailo 의 SDK 는 Dataflow Compiler 라는 자체 컴파일러입니다.

# Hailo Model Zoo 의 사전 학습 모델 다운로드 + 실행
pip install hailo-platform hailo-model-zoo

# YOLOv8 컴파일 (.hef = Hailo Executable Format)
hailomz compile yolov8s --ckpt yolov8s.pt --hw-arch hailo8

# 추론 실행
hailomz eval yolov8s --target hailo8 --data-zip-path coco_val.zip

Hailo 의 약점은 생태계입니다. NVIDIA CUDA, Google TFLite 만큼의 커뮤니티/문서/예제가 아직 없습니다. 그래도 2025-2026 사이 Bosch, Ficosa, Continental 등의 자동차 Tier-1 들이 Hailo-10H 를 ADAS(Advanced Driver Assistance System) 용으로 채택하면서 자동차 시장에선 NVIDIA, Mobileye 와 함께 3대 플레이어로 올라섰습니다.

8. Sipeed K230 — RISC-V + NPU 의 첫 메인스트림

Sipeed 는 중국 심천의 임베디드 ML 보드 전문 회사입니다. MaixPy 시리즈로 유명했고, 2024년부터 Sipeed K230 이라는 RISC-V + NPU 통합 SoC 를 본격 출시하며 화제가 되었습니다.

Sipeed K230 의 사양은 다음과 같습니다.

CPU — Canaan Kendryte K230. 듀얼 코어 RISC-V (RV64GC). 1.6 GHz
NPU — Canaan KPU 2.0. 6 TOPS @ int8
DSP — Canaan KDPU (digital signal processor). 신호 처리/오디오 가속
메모리 — 512MB LPDDR4
카메라 — MIPI CSI 2 lanes, ISP 통합
폼팩터 — Sipeed CanMV-K230 보드 ($45-65) / Sipeed MaixCAM ($65)
전력 — 1-3W

이 가격에 6 TOPS NPU + 카메라 ISP + 듀얼 RISC-V 가 다 들어 있는 게 정말 큰 사건입니다. 비교하면, Raspberry Pi 5 는 $80 인데 NPU 가 없습니다(별도 가속기 모듈 필요). Coral Dev Board 는 $130 이고 4 TOPS 입니다. Jetson Orin Nano 는 $249 부터입니다.

RISC-V 라는 점도 의미가 큽니다. ARM Cortex 처럼 라이선스 비용이 없고, 중국 정부의 RISC-V 진흥 정책(2023-2030 RISC-V 자립 계획) 과 맞물려 RISC-V 인프라가 빠르게 성숙하고 있습니다. MicroPython, OpenCV, ONNX Runtime 이 모두 RISC-V 빌드를 공식 지원합니다.

Sipeed K230 의 개발 환경은 MaixPy IDE 또는 직접 SDK 입니다.

# MaixPy 로 K230 카메라에서 YOLOv5 객체 탐지
from maix import camera, display, nn

# Kendryte KPU 위에 YOLOv5 모델 로드
model = nn.YOLOv5s(model="yolov5s_quant.kmodel")

cam = camera.Camera(640, 480)
disp = display.Display()

while True:
    img = cam.read()
    boxes = model.detect(img, conf_thres=0.5, iou_thres=0.45)
    for box in boxes:
        img.draw_rect(box.x, box.y, box.w, box.h, color="red")
        img.draw_string(box.x, box.y, box.class_name, color="green")
    disp.show(img)

K230 의 ".kmodel" 포맷은 Canaan 의 자체 NPU 포맷입니다. nncase 라는 컴파일러로 ONNX / TFLite 모델을 .kmodel 로 변환합니다.

# ONNX → .kmodel (Canaan NPU 포맷) 변환
pip install nncase

ncc compile yolov5s.onnx yolov5s.kmodel \
  --target k230 \
  --input-type uint8 \
  --output-type float32

Sipeed 의 2026년 신제품인 MaixCAM (K230 + 5MP 카메라 + 2.3 인치 디스플레이) 은 $65 에 풀 비전 AI 데모를 박스에서 꺼내 바로 돌릴 수 있어, 교육/메이커 시장에서 폭발적으로 팔리고 있습니다.

9. Rockchip RK3588 — SBC NPU 의 사실상 표준

Rockchip 은 중국 푸저우의 ARM SoC 설계 회사이고, RK3588 은 2022년 발표 이후 2024-2026 SBC 시장의 사실상 표준 SoC 가 되었습니다.

RK3588 의 사양은 다음과 같습니다.

CPU — 4x Cortex-A76 + 4x Cortex-A55 (big.LITTLE). 2.4 GHz
GPU — Mali-G610 MP4. OpenGL ES 3.2 / Vulkan 1.2
NPU — 6 TOPS @ int8 (3개 코어 분산)
메모리 — 4/8/16/32GB LPDDR4/LPDDR5
비디오 — 8K 60fps 디코딩, 8K 30fps 인코딩
폼팩터 — 다수의 SBC 채택. Orange Pi 5, Radxa Rock 5B, Khadas Edge 2, Friendly NanoPi M6 등

RK3588 보드들은 가격 대비 사양이 압도적입니다. Orange Pi 5 Plus 16GB 가 $130-150 이고, Radxa Rock 5B 16GB 가 $160-180 입니다. Jetson Orin Nano 8GB($249) 보다 메모리도 많고, CPU 도 더 빠릅니다 — 단, NPU 의 성숙도(소프트웨어 + 모델 호환성) 가 NVIDIA TensorRT 만큼은 아닙니다.

Rockchip RKNN-Toolkit 이 SDK 입니다.

# RKNN-Toolkit2 설치 (호스트 PC, x86)
pip install rknn-toolkit2

# ONNX → .rknn (Rockchip NPU 포맷) 변환
python -c "
from rknn.api import RKNN
rknn = RKNN()
rknn.config(target_platform='rk3588')
rknn.load_onnx('yolov8n.onnx')
rknn.build(do_quantization=True, dataset='./dataset.txt')
rknn.export_rknn('./yolov8n.rknn')
"

# RK3588 보드 위에서 .rknn 실행 (rknnlite)
from rknnlite.api import RKNNLite
import cv2

rknn = RKNNLite()
rknn.load_rknn('./yolov8n.rknn')
rknn.init_runtime(core_mask=RKNNLite.NPU_CORE_AUTO)

img = cv2.imread('test.jpg')
outputs = rknn.inference(inputs=[img])
print(outputs[0].shape)

RK3588 의 매력은 NPU + 8K 비디오 + 풍부한 메모리 옵션의 조합입니다. 4K/8K 보안 카메라, IoT 게이트웨이, 디지털 사이니지, 산업용 HMI 같은 시장에서 거의 표준으로 자리잡았습니다. 후속 모델인 RK3588S(저가형) 와 RK3576(중급) 도 인기를 끌고 있고, 2025년 말 발표된 RK3688(차세대, 14 TOPS NPU 예정) 이 2026-2027 의 차세대 표준이 될 전망입니다.

10. MaixPy / Arduino Nano 33 BLE Sense / Seeed Wio AI

이번 섹션에선 MCU/메이커 시장의 대표 보드들을 정리합니다.

MaixPy (Sipeed)

MaixPy 는 Sipeed 의 임베디드 MicroPython 환경입니다. Maixduino, MaixCube, MaixCAM 등의 보드에서 동작하며, 카메라 + NPU + 디스플레이가 통합된 메이커용 키트로 인기입니다. K210(1세대, 2018), K510(2세대, 2022), K230(3세대, 2024) 으로 발전했습니다.

특히 MaixCube 는 $30 정도에 LCD + 카메라 + 마이크 + 배터리 + 자이로 가 다 들어 있어, 키워드 스폿팅 + 얼굴 인식 + 자세 추정 같은 풀 AI 데모를 즉시 돌릴 수 있습니다.

Arduino Nano 33 BLE Sense

Arduino Nano 33 BLE Sense (Rev2) 는 TinyML 의 사실상 표준 학습 보드입니다. 2019년 첫 출시 이후 Edge Impulse, TensorFlow Lite Micro 의 공식 데모 보드로 채택되어 거의 모든 TinyML 책/강의에 등장합니다.

사양은 다음과 같습니다.

MCU — Nordic nRF52840. ARM Cortex-M4F. 64 MHz. 1MB Flash, 256KB RAM
센서 — 9축 IMU, 마이크(PDM), 기압, 온습도, 조도, 근접, 컬러 (모두 온보드)
무선 — BLE 5.0
가격 — $30-35

이 가격에 거의 모든 TinyML 데모(키워드 스폿팅, 제스처 인식, 진동 분류, 환경 모니터링) 를 다 돌릴 수 있어 교육 시장에서 압도적입니다.

// Arduino Nano 33 BLE Sense + TFLite Micro 키워드 스폿팅 (개념)
#include <TensorFlowLite.h>
#include <PDM.h>

#include "model_data.h"  // 학습된 모델 (Edge Impulse 등에서 생성)

const tflite::Model* model = tflite::GetModel(g_model);
static tflite::MicroInterpreter* interpreter;

constexpr int kTensorArenaSize = 80 * 1024;
alignas(16) uint8_t tensor_arena[kTensorArenaSize];

void setup() {
  static tflite::AllOpsResolver resolver;
  static tflite::MicroInterpreter static_interpreter(
      model, resolver, tensor_arena, kTensorArenaSize);
  interpreter = &static_interpreter;
  interpreter->AllocateTensors();
  PDM.begin(1, 16000);  // 1 채널, 16 kHz
}

void loop() {
  // 마이크에서 1초 클립 수집
  // MFCC 특징 추출
  // 모델 입력 텐서에 복사
  // interpreter->Invoke();
  // 결과 클래스 출력 ("yes", "no", "stop", ...)
}

Seeed Wio AI / XIAO ESP32-S3

Seeed Studio (중국 심천) 의 Wio AI 시리즈와 XIAO ESP32-S3 (Sense) 도 메이커 시장의 핵심입니다. XIAO ESP32-S3 Sense 는 ESP32-S3 + 카메라 + 마이크 + microSD 가 우표만한 보드(21x18 mm) 에 들어 있고 $10-15 입니다. Edge Impulse 의 공식 지원 보드이기도 합니다.

ESP32-S3 의 매력은 와이파이가 내장되어 있다는 점입니다. Arduino Nano 33 은 BLE 만 되지만, ESP32-S3 는 Wi-Fi + BLE 가 다 되어 IoT 시나리오(클라우드에 결과 업로드, OTA 펌웨어 업데이트) 에 더 적합합니다.

MicroPython for ML

MicroPython 은 Python 의 임베디드 버전입니다. 2024-2026 사이 MicroPython 위에서 ML 을 돌리는 패턴이 늘었습니다.

ulab — numpy 의 MicroPython 포트
emlearn — scikit-learn 트리/포레스트의 C 익스포트
tflite-micro Python 바인딩 — Sipeed/Espressif 가 제공

MicroPython 의 매력은 빠른 프로토타이핑입니다. C++ 로 짜면 컴파일 + 펌웨어 굽기에 30초가 걸리는데, MicroPython 은 REPL 로 바로 실행할 수 있어 센서 데이터 탐색이 빨라집니다.

11. ONNX Runtime Mobile / Core ML / TensorRT / Apache TVM

이번 섹션에선 모바일/엣지 추론 런타임 4가지를 정리합니다.

ONNX Runtime Mobile

ONNX Runtime 은 Microsoft 가 만든 다중 프레임워크 추론 엔진입니다. ONNX(Open Neural Network Exchange) 표준 포맷의 모델을 실행하며, 사실상 PyTorch / TF / JAX / Keras 모두에서 변환 가능합니다.

ONNX Runtime Mobile 은 모바일용 슬림 빌드입니다.

Android — AAR 라이브러리, NNAPI 백엔드, QNN(Qualcomm) 백엔드
iOS — Pod, Core ML 백엔드
라즈베리파이/리눅스 ARM — .so 라이브러리, XNNPACK 백엔드

ONNX Runtime 의 장점은 진영 중립성입니다. PyTorch 진영(ExecuTorch) 과 Google 진영(LiteRT) 사이에서 "다 호환된다" 는 안전한 선택지입니다. 단, 양자화 및 NPU 최적화 면에선 진영별 네이티브(LiteRT/ExecuTorch) 보다 1-2 단계 뒤처질 때가 많습니다.

Core ML (Apple)

Core ML 은 Apple 의 자사 디바이스(iPhone, iPad, Mac, Watch) 전용 ML 런타임입니다. 2017년 iOS 11 부터 도입되었고, 2024-2026 사이 A17 Pro / A18 Pro / M3 / M4 의 Neural Engine 을 활용하는 표준 경로가 되었습니다.

Core ML 의 강점은 Apple Silicon 통합입니다. CPU / GPU / Neural Engine(ANE) 사이를 자동으로 스케줄링하며, M3/M4 의 ANE 는 35-38 TOPS 의 성능을 가집니다. Stable Diffusion 의 모바일 실행, Whisper 의 온디바이스 음성 인식, 그리고 Apple Intelligence(2024 WWDC) 의 모든 온디바이스 LLM 은 Core ML 위에서 돕니다.

# PyTorch → Core ML 변환 (coremltools)
import torch
import coremltools as ct

class MyModel(torch.nn.Module):
    def forward(self, x):
        return torch.nn.functional.relu(x)

model = MyModel().eval()
traced = torch.jit.trace(model, torch.randn(1, 3, 224, 224))

mlmodel = ct.convert(
    traced,
    inputs=[ct.TensorType(shape=(1, 3, 224, 224))],
    compute_units=ct.ComputeUnit.ALL,  # CPU + GPU + ANE
)
mlmodel.save("MyModel.mlpackage")

Apple Intelligence 의 온디바이스 모델은 약 3B 파라미터(2-bit 양자화) 로 알려져 있고, iPhone 15 Pro 이상의 Neural Engine 에서 토큰당 ~30 ms 수준으로 돌아갑니다.

TensorRT (NVIDIA)

TensorRT 는 NVIDIA GPU 전용 추론 가속기입니다. 데스크탑 RTX, 서버 H100/H200/B200, 엣지 Jetson 까지 동일한 API 로 동작합니다.

# PyTorch → ONNX → TensorRT 엔진 빌드
import torch
import tensorrt as trt

# 1. PyTorch → ONNX
torch.onnx.export(model, dummy_input, "model.onnx", opset_version=17)

# 2. ONNX → TensorRT engine
logger = trt.Logger(trt.Logger.WARNING)
builder = trt.Builder(logger)
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
parser = trt.OnnxParser(network, logger)
with open("model.onnx", "rb") as f:
    parser.parse(f.read())

config = builder.create_builder_config()
config.set_flag(trt.BuilderFlag.FP16)
engine = builder.build_serialized_network(network, config)
with open("model.engine", "wb") as f:
    f.write(engine)

TensorRT-LLM 은 LLM 전용 가속 라이브러리로, Llama / Mistral / Qwen 같은 모델을 자동으로 그래프 융합 + KV 캐시 최적화 + 양자화(FP8/INT4) 합니다. Jetson AGX Orin 위에서 Llama 3.1 8B 가 토큰당 5-7 ms 수준입니다.

Apache TVM

Apache TVM 은 OctoML 이 주도하는 ML 컴파일러 프로젝트입니다. PyTorch / TF / ONNX 모델을 받아 CPU / GPU / NPU / DSP 어디서든 돌 수 있는 코드를 자동 생성합니다.

MLC LLM (다음 섹션) 이 TVM 기반입니다. TVM 자체는 사용 진입 장벽이 높지만, MLC 라는 사용자 친화적 래퍼를 통해 폰에서 LLM 을 돌리는 핵심 인프라가 되었습니다.

12. 폰에서 LLM — MLC LLM / llama.cpp / Whisper.cpp / GGUF

2024-2026 의 가장 큰 변화는 폰에서 1-8B LLM 이 실용 속도로 돈다는 것입니다. 핵심 도구들은 다음과 같습니다.

llama.cpp

ggerganov 가 만든 C++ LLM 추론 엔진입니다. 2023년 봄에 시작되어 2026년 현재 사실상의 표준 로컬 LLM 런타임입니다.

llama.cpp 의 핵심 가치는 다음과 같습니다.

순수 C++. 의존성 거의 없음. ARM/x86/CUDA/Metal/Vulkan/SYCL 다 지원
GGUF — llama.cpp 의 통합 모델 파일 포맷. 양자화 정보 + 메타데이터 포함
양자화 — Q2_K, Q3_K, Q4_K, Q5_K, Q6_K, Q8_0 등 다양한 4-bit 이하 양자화
토큰화 / 샘플링 / 채팅 템플릿이 모두 내장

# 안드로이드에서 llama.cpp 빌드 (Termux 환경)
pkg install clang make git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# Phi-3.5 mini 모델 다운로드 (GGUF 4-bit, 예시)
huggingface-cli download bartowski/Phi-3.5-mini-instruct-GGUF \
  Phi-3.5-mini-instruct-Q4_K_M.gguf --local-dir ./models

./llama-cli -m ./models/Phi-3.5-mini-instruct-Q4_K_M.gguf \
  -p "Explain attention." -n 128 -t 4

Galaxy S24 Ultra / iPhone 15 Pro 같은 폰에선 Phi-3.5 mini(3.8B Q4_K_M, ~2.2GB) 가 토큰당 30-50ms (20-30 tok/s) 정도 돕니다.

Whisper.cpp

같은 ggerganov 가 만든 Whisper(OpenAI 음성 인식 모델) 의 C++ 포트입니다. 클라우드 없이 폰/노트북에서 음성 인식이 돕니다.

# Whisper.cpp 로 한국어 음성 인식 (CPU)
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
bash ./models/download-ggml-model.sh medium
make -j

./build/bin/whisper-cli -m models/ggml-medium.bin -l ko -f my_audio.wav

iPhone 의 Whisper.cpp Coreml 빌드는 medium 모델(769M) 을 30분 오디오에 대해 ~5분 안에 처리합니다. small 모델(244M) 은 실시간보다 빠르고, base(74M) 는 폰에서 거의 실시간으로 돌아갑니다.

MLC LLM

MLC(Machine Learning Compilation) LLM 은 카네기멜런/Apache TVM 진영이 만든 폰/브라우저용 LLM 엔진입니다.

안드로이드 — Vulkan / OpenCL 백엔드
iOS — Metal 백엔드
브라우저 — WebGPU 백엔드 (즉, 브라우저 안에서 LLM 실행)
데스크탑 — CUDA / ROCm / Metal

WebGPU 백엔드가 특히 흥미롭습니다. 사용자가 페이지에 들어오면 모델이 다운로드되고, Chrome / Edge / Safari 안에서 GPU 가속 LLM 이 돕니다. 서버 호출 없이 완전 로컬입니다.

# MLC LLM 안드로이드 데모 빌드
git clone --recursive https://github.com/mlc-ai/mlc-llm
cd mlc-llm
python -m mlc_llm package --model "HF://mlc-ai/Llama-3.2-3B-Instruct-q4f16_1-MLC"
# 안드로이드 Studio 에서 android/MLCChat 프로젝트 열고 빌드

MLC LLM 위에서 Galaxy S24 Ultra 는 Llama 3.2 3B 를 토큰당 ~25 ms (40 tok/s) 로 돌립니다. 같은 디바이스에서 llama.cpp 보다 GPU 백엔드가 살짝 더 빠릅니다.

GGUF 포맷

GGUF(Georgi Gerganov Unified Format) 는 llama.cpp 의 모델 파일 표준입니다. 다음 정보가 한 파일에 통합되어 있습니다.

가중치 (양자화된 텐서)
토크나이저 (BPE / SentencePiece)
채팅 템플릿 (chat_template, Jinja 비슷한 구조)
메타데이터 (architecture, context size, RoPE settings)

이 덕분에 .gguf 파일 하나면 llama.cpp / Ollama / LM Studio / GPT4All 어디서든 같은 모델을 같은 결과로 돌릴 수 있습니다.

Hugging Face 에는 2026년 5월 기준 GGUF 포맷의 모델이 5만개 이상 있고, 대부분 "Q4_K_M" 또는 "Q5_K_M" 양자화가 표준입니다. 일반적으로 Q4_K_M 이 품질/크기 균형의 권장값입니다.

13. 소형 모델 — Phi-3 / 3.5 / 4 (MS) / Gemma 2 / 3 (Google) / Llama 3.2 1B/3B

엣지 LLM 의 가장 큰 변수는 모델 선택입니다. 2024-2026 사이 "1-4B 인데 GPT-3.5 만큼 똑똑한" 소형 모델이 폭발적으로 나왔습니다. 대표 3개 시리즈를 정리합니다.

Microsoft Phi 시리즈

Phi 는 마이크로소프트의 소형 LLM 시리즈입니다. "Textbooks Are All You Need" 라는 페이퍼에서 시작해, 고품질 합성 데이터 + 작은 모델로 큰 모델에 근접하는 성능을 목표로 합니다.

Phi-3 mini (3.8B) — 2024년 4월. 128K 컨텍스트. iPhone 15 위에서 토큰당 ~12 tok/s
Phi-3 small (7B) — 2024년 5월
Phi-3 medium (14B) — 2024년 5월
Phi-3.5 mini (3.8B) — 2024년 8월. 다국어 지원 추가 (한국어/일본어 포함)
Phi-3.5 vision (4.2B) — 비전 입력
Phi-3.5 MoE (16x3.8B, 활성 6.6B) — MoE 변형
Phi-4 (14B) — 2024년 12월. 코드/수학에 강함
Phi-4 mini (3.8B) — 2025년 초

Phi-3 mini 의 인기 비결은 폰에서 실용적인 첫 LLM 이었다는 것입니다. iPhone 15 Pro 에서 토큰당 ~12-15 tok/s, Galaxy S24 Ultra 에서 ~20-25 tok/s 가 나오며 "실시간 채팅" 이 가능합니다.

Google Gemma 시리즈

Gemma 는 Google 의 오픈 모델 시리즈로, Gemini 와 같은 연구 인프라에서 파생되었습니다.

Gemma 2B / 7B — 2024년 2월. 초기 버전
Gemma 2 2B / 9B / 27B — 2024년 6월. 성능 대폭 향상
Gemma 3 1B / 4B / 12B / 27B — 2025년 3월. 멀티모달(비전+텍스트) 통합, 128K 컨텍스트
Gemma 3n (모바일 전용) — 2025년 5월. 4B 인데 8B 처럼 작동하는 PLE 구조

Gemma 3 27B 는 9B 모델보다 27B 처럼 행동하고, 4B 짜리 Gemma 3n 은 일반 8B 모델 수준의 품질을 보여 모바일에 최적화되어 있습니다. PLE(Per-Layer Embeddings) 는 메모리 효율을 위해 임베딩을 레이어별로 분산 저장하는 구조입니다.

Meta Llama 3.2 1B / 3B

Llama 3.2 는 2024년 9월 발표된 Meta 의 소형 모델 시리즈입니다. 사실상 모바일/엣지 전용 라인업입니다.

Llama 3.2 1B / 3B — 텍스트 전용 소형
Llama 3.2 11B / 90B Vision — 비전 + 텍스트 (그러나 큰 사이즈는 엣지 X)

Llama 3.2 1B 는 모든 LLM 중 가장 작으면서 실용적인 답변을 하는 모델로, iPhone 15 / Galaxy S24 같은 폰에서 토큰당 ~50-80 tok/s 가 나옵니다. 음성 인터페이스, 챗봇, 텍스트 분류 같은 가벼운 시나리오에 충분합니다.

Meta 자체가 Llama 3.2 1B/3B 의 공식 모바일 실행 경로로 ExecuTorch 를 제시하며, 안드로이드/iOS 의 데모 앱이 제공됩니다.

모델 선택 기준

Phi-3 mini / 3.5 mini / Phi-4 mini — 다국어, 일반 채팅, 가장 균형 잡힌 선택
Gemma 2 2B / Gemma 3 4B (Gemma 3n) — Google 진영, MediaPipe LLM Inference API 와 통합
Llama 3.2 1B / 3B — Meta 진영, ExecuTorch 의 1순위 모델, 영어 강함

폰에서 가장 빠른 답변이 필요하면 Llama 3.2 1B (50-80 tok/s) → Phi-3 mini (20-25 tok/s) → Gemma 3 4B (15-20 tok/s) → Llama 3.2 3B (10-15 tok/s) 순입니다. 그러나 답변의 품질은 거의 반대 순서로, Phi-3 mini / Gemma 3 4B / Llama 3.2 3B 가 1B 보다 확실히 우월합니다.

14. Always-on AI — 센서 + ML 의 시대

엣지 AI 의 진짜 가치는 단발성 추론이 아니라 24/7 항시 동작입니다. 이걸 Always-on AI 라고 부릅니다.

전형적인 Always-on 시나리오는 다음과 같습니다.

스마트 스피커의 호출어 — 항상 마이크를 듣다가 "헤이 시리" 가 들리면 깨어남
스마트워치의 낙상 감지 — IMU 데이터를 항상 모니터링하다 패턴 일치 시 알림
산업 현장의 진동 분석 — 모터 진동을 항상 듣다 베어링 불량 패턴 발견
농업 IoT — 카메라가 항상 작물을 보다 병해 발견
도시 CCTV — 사람/차량 카운팅 + 사고 감지

Always-on 의 기술적 핵심은 다음 4가지입니다.

듀얼 코어 / 듀얼 모델 — 매우 작은 모델(1-10 KB) 이 항상 돌면서 "관심 후보" 를 잡고, 그 다음 큰 모델(100KB-1MB) 이 깨어나 검증. 키워드 스폿팅이 전형. Apple Watch / Pixel Buds 가 이렇게 동작
양자화 — int8 또는 그 이하(4-bit, 2-bit) 양자화로 전력 99% 절감. Edge TPU, Hexagon DSP, Cortex-M NPU 모두 int8 전용
NPU / DSP 위주 처리 — 메인 CPU 를 깨우지 않고 NPU 단독으로 추론. 메인 CPU 는 deep sleep
센서 → ML 직결 — 카메라 ISP / 마이크 PDM 이 NPU 와 같은 SoC 안에 있어, 데이터가 CPU 메모리를 거치지 않고 NPU 로 직행

// Cortex-M NPU 위에서 Always-on 키워드 스폿팅 의사 코드
void main(void) {
  while (1) {
    // 1. 매우 작은 모델 (10KB) 로 1차 필터링
    int trigger = run_tiny_kws_model(audio_buffer);

    if (trigger > THRESHOLD_LOW) {
      // 2. 큰 모델 (500KB) 깨우기
      int label = run_large_kws_model(audio_buffer);

      if (label == LABEL_HEY_SIRI) {
        // 3. 응용 프로세서 깨우기 (UART/SPI/IPC)
        wake_application_processor();
      }
    }

    // 다음 프레임까지 슬립 (DMA 가 마이크 데이터 자동 수집)
    enter_deep_sleep();
  }
}

이 패턴 덕분에 Apple Watch 의 "Hey Siri" 는 배터리를 거의 안 쓰고도 24시간 작동합니다. Cortex-M 의 NPU(Apple 의 사내 설계 NPU) 가 마이크에 항상 붙어서 듣고, 키워드가 매칭될 때만 메인 SoC 가 깨어납니다.

산업 현장의 진동 이상 탐지도 비슷합니다. STM32H7 + ST 의 MEMS 가속도 센서 + TFLite Micro 의 1KB autoencoder 모델로 베어링 이상을 24/7 모니터링합니다. 배터리 한 개로 6개월 이상 운영됩니다.

2026년 트렌드는 Visual Wake Words — 카메라 ISP 가 항상 켜져 있되 "사람이 보이면" 만 메인 SoC 를 깨우는 패턴입니다. Visual Wake Words 모델은 ~250KB, MobileNet-V2 의 초경량 변형이고, Cortex-M55 + Ethos-U65 같은 NPU 통합 MCU 에서 1mW 수준으로 돕니다.

15. 한국 / 일본의 엣지 AI — ETRI / 삼성 / LG / Sony AI / NTT

한국

삼성전자 — Galaxy S24/S25 의 Galaxy AI(2024-2026) 는 온디바이스 + 클라우드 하이브리드. 통역, 실시간 통화 번역, 사진 편집 등은 Snapdragon 8 Gen 3/4 의 Hexagon NPU + 자체 Exynos 모뎀 NPU 에서 부분 실행
삼성전자 시스템LSI — 자체 Exynos 2400/2500 SoC 의 NPU 코어 강화. 통합 AI Engine 으로 폰/태블릿/웨어러블 일관성
LG전자 — LG ThinQ Home 가전의 온디바이스 AI(냉장고 식품 인식, 세탁기 직물 인식, TV 의 AI 업스케일러). NPU 통합 SoC 자체 설계(LG webOS 의 NPU)
현대자동차 — Hyundai Mobis + 자체 IDC(Infotainment Domain Controller) 에 NVIDIA Drive 와 자체 솔루션 병용. ADAS 표준화
네이버 / NAVER Cloud — HyperCLOVA X 의 경량 버전(2-3B) 을 모바일/엣지로 배포 검토
카카오 / KakaoBrain — 디바이스용 sLM Honeybee, Kanana 시리즈 (한국어 특화 소형 모델)
ETRI(한국전자통신연구원) — Edge AI 표준화 연구. KoBERT/KoBigBird 의 경량화, MOA(메타-OS 가속) 프로젝트
KAIST / 서울대 — Sipeed K230, Jetson Nano 위에서 한국어 음성 인식/번역 모델 연구
만도 / HL 만도 — ADAS 카메라 위의 Hailo / Ambarella NPU 채택
라온피플, 슈프리마 — 산업/보안 카메라 위에 자체 NPU 또는 Hailo NPU 통합

일본

Sony AI / Sony Semiconductor — IMX500 이라는 NPU 통합 이미지 센서가 대표 작품. 카메라 센서 자체가 ML 추론을 하는 "센서 위 AI" 의 선구
NTT / NTT DoCoMo — IOWN(Innovative Optical and Wireless Network) 의 일부로 엣지 AI 인프라 구축. 통신 기지국 위의 NPU
Renesas Electronics — RA / RZ 시리즈 MCU 위의 DRP-AI(Dynamically Reconfigurable Processor for AI) 자체 NPU. 산업/자동차 표준
Panasonic — Iolite / Connect 의 산업용 카메라/HMI 위의 자체 비전 솔루션
삼성과 비슷한 흐름의 일본 OEM — Sony Xperia, Sharp Aquos 의 NPU 활용
Toyota / Honda / Nissan — 자율주행/ADAS 의 자체 컴퓨터(Toyota T-MAS, Honda Sensing) + NVIDIA Drive 병용
일본 스타트업 — Edgecortix, LeapMind 가 자체 NPU/컴파일러 솔루션 보유. LeapMind 는 Blueoil 이라는 양자화 모델 컴파일러로 유명
ASTERA Labs (미국 본사이지만 일본 시장 강함) — CXL / PCIe 메모리 패브릭으로 엣지 데이터센터 인프라 구축. 자율주행 차량 내부 메모리 패브릭에서 점유율 확대

공통 흐름

한국/일본 모두 "온디바이스 AI 비중 확대" 가 거대한 흐름입니다. 폰/자동차/가전 안에 NPU 가 표준이 되었고, 클라우드 LLM 비용/지연/프라이버시 문제로 인해 "할 수 있는 건 디바이스 안에서 다 한다" 라는 전략으로 이동 중입니다.

특히 일본은 자체 NPU 설계 능력이 강합니다. Renesas DRP-AI, Sony IMX500, Panasonic 의 비전 IP, Edgecortix 의 SAKURA-II 등은 글로벌 시장에서 NVIDIA / Hailo / Coral 의 경쟁자로 자리잡고 있습니다.

16. 누가 엣지 AI 를 배워야 하나 — IoT / 모바일 / 자동차

마지막으로 직업/역할별로 어떤 도구를 어떻게 배워야 하는지 정리합니다.

IoT / 펌웨어 엔지니어

필수 — Arduino Nano 33 BLE Sense + TFLite Micro / LiteRT Micro + Edge Impulse. C/C++
권장 — Cortex-M 의 NPU 통합 MCU (Ethos-U55/U65), Sipeed K230, ESP32-S3
응용 — Always-on AI, 진동 분석, 환경 모니터링, 키워드 스폿팅
진로 — 산업 IoT, 스마트팩토리, 헬스케어 디바이스, 농업 IoT

모바일 엔지니어

필수 — LiteRT(안드로이드) + Core ML(iOS). Kotlin / Swift
권장 — ExecuTorch(둘 다), MLC LLM, llama.cpp, Whisper.cpp
응용 — 폰에서 LLM 채팅, 음성 인식, 이미지 분류, AR
진로 — 폰 OS / 키보드 / 메신저 / 카메라 앱 / 헬스 앱

SBC / 로보틱스 엔지니어

필수 — NVIDIA Jetson + JetPack + TensorRT, ROS 2, Isaac ROS
권장 — Rockchip RK3588, Hailo-15, Coral, Sipeed K230
응용 — 자율주행 로봇, 휴머노이드, 산업용 비전, 보안 카메라
진로 — 로봇 회사, 자율주행, 산업 자동화, 항공/우주

자동차 엔지니어

필수 — NVIDIA Drive AGX, Mobileye EyeQ, TensorRT
권장 — Hailo-10H (ASIL-B), Qualcomm Snapdragon Ride
응용 — ADAS, 자율주행, 차량 내 인포테인먼트
진로 — OEM, Tier-1 (보쉬, 콘티넨탈), Tier-2 (NXP, Infineon)

ML 엔지니어 / 데이터 사이언티스트 (엣지 진로 전환)

필수 — PyTorch + torch.export + 양자화(quantization-aware training)
권장 — ONNX, ExecuTorch, LiteRT, llama.cpp, MLC LLM
응용 — 클라우드 모델을 엣지로 가져가는 작업, 양자화/프루닝/지식 증류

학생 / 입문자

가장 저렴하고 빠른 입문 경로는 다음과 같습니다.

Arduino Nano 33 BLE Sense ($35) + Edge Impulse(무료 티어) — TinyML 첫걸음. 키워드 스폿팅, 제스처 인식
Sipeed MaixCAM 또는 XIAO ESP32-S3 Sense ($15-65) — 카메라 + AI 메이커 프로젝트
Raspberry Pi 5 + Coral USB Accelerator ($130) 또는 Orange Pi 5 ($130) — SBC 진입
Jetson Orin Nano ($249) — 진지한 로보틱스/SBC

$15 짜리 보드 한 개부터 시작해 6개월 안에 $249 짜리 Jetson 까지 단계적으로 올라가는 게 가장 무리없는 경로입니다.

17. 참고 / References

LiteRT (구 TFLite) — https://ai.google.dev/edge/litert
LiteRT Micro — https://ai.google.dev/edge/litert/microcontrollers/overview
ExecuTorch — https://pytorch.org/executorch/
ExecuTorch GitHub — https://github.com/pytorch/executorch
Edge Impulse — https://www.edgeimpulse.com/
NVIDIA Jetson Orin — https://developer.nvidia.com/embedded/jetson-orin
NVIDIA Jetson Thor — https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-thor/
Coral by Google — https://coral.ai/
Hailo — https://hailo.ai/
Sipeed K230 / MaixPy — https://wiki.sipeed.com/hardware/en/maixIV/m4ndock/maixIV.html
Rockchip RKNN-Toolkit2 — https://github.com/airockchip/rknn-toolkit2
Arduino Nano 33 BLE Sense — https://store.arduino.cc/products/arduino-nano-33-ble-sense-rev2
Seeed XIAO ESP32-S3 Sense — https://wiki.seeedstudio.com/xiao_esp32s3_getting_started/
ONNX Runtime Mobile — https://onnxruntime.ai/docs/tutorials/mobile/
Core ML Tools — https://apple.github.io/coremltools/docs-guides/
NVIDIA TensorRT — https://developer.nvidia.com/tensorrt
TensorRT-LLM — https://github.com/NVIDIA/TensorRT-LLM
Apache TVM — https://tvm.apache.org/
MLC LLM — https://llm.mlc.ai/
llama.cpp — https://github.com/ggerganov/llama.cpp
Whisper.cpp — https://github.com/ggerganov/whisper.cpp
GGUF Spec — https://github.com/ggerganov/ggml/blob/master/docs/gguf.md
Microsoft Phi-3 — https://azure.microsoft.com/en-us/products/phi
Microsoft Phi-4 — https://huggingface.co/microsoft/phi-4
Google Gemma — https://ai.google.dev/gemma
Meta Llama 3.2 — https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
MediaPipe LLM Inference — https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference
Sony IMX500 — https://www.sony-semicon.com/en/products/is/industry/imx500.html
Renesas DRP-AI — https://www.renesas.com/en/key-technologies/ai-machine-learning/drp-ai
ETRI — https://www.etri.re.kr/eng/main/main.etri