Skip to content
Published on

ビジョン言語モデル(VLM)2026 完全ガイド — CLIP・LLaVA・InternVL3・Qwen2.5-VL・GPT-4o・Gemini 2.5・Claude 4.7・DINOv2・SAM 2・Florence-2 徹底解説

Authors

はじめに — 2026年5月、VLMはテキストLLMとほぼ同速で平準化された

2024年までVLMの構図は「GPT-4Vが圧倒的、オープンモデルは遥か後方」だった。2026年5月現在、その差は事実上なくなった。Qwen2.5-VL 72B、InternVL3 78B、LLaVA-NeXT-Interleave、Pixtral Large、Molmo 72B、MiniCPM-V 3.0 がMMMU・MathVista・ChartQAなどのベンチでGPT-4o、Claude 4.7 Vision、Gemini 2.5 Pro Visionと一桁台のポイント差で並んでいる。同時にオンデバイスVLMがApple Intelligence Vision、Samsung Galaxy AI、ASUS NPU搭載ノートPCで本格的に動き始めた。

本稿はマーケティング資料ではなく「今、現場でどのVLMがどこに入り、どう学習・評価・サービングするか」を一本にまとめる。CLIP系列の基本原理、LLaVAの2段階アライメント、Qwen-VLの3段階学習、MMMU・MathVista評価、vLLM/SGLangサービングまで、実APIで比較する。

VLM 2026の地図 — 5つの系統に分かれる

まず全体像。2026年5月のVLM市場は次の5系統に分かれる。

  1. CLIP系列(対比学習): 画像・テキストの共同埋め込み。CLIP、SigLIP、EVA-CLIP。検索・ランキング・フィルタリングの基盤。
  2. オープン生成型VLM: LLaVA-NeXT、InternVL3、Qwen2.5-VL、Pixtral、Molmo、Idefics3、MiniCPM-V。「画像を見て自然言語を生成する」本丸。
  3. クローズドフロンティアVLM: GPT-4o Vision、Claude 4.7 Vision、Gemini 2.5 Pro Vision。APIのみ。
  4. ビジョン基盤(テキストなし): DINOv2/v3、SAM 2、Florence-2。自己教師ありビジョン基盤 + 汎用セグメンテーション・検出。
  5. 拡散モデルベースのビジョン(生成): Stable Diffusion 3.5、FLUX.1、DALL-E 3。画像を「理解」するのではなく「生成」する側。

本稿は1〜4に集中し、5の拡散モデルは別稿に譲る。狭義のVLMは2〜3(生成型)を指すが、実プロダクトラインでは1(CLIP)と4(DINO/SAM/Florence)も前処理・検索・グラウンディング段階で併用される。

CLIPとその後継 — 対比学習という出発点

VLMの物語の出発点はOpenAIのCLIP(2021)。4億組の(画像、テキスト)ペアを対比損失(contrastive loss) で学習し、ViT画像エンコーダとテキストエンコーダを同じ空間に埋め込む。要は、1つのミニバッチ内でマッチするペアのコサイン類似度を上げ、マッチしないペアの類似度を下げる。

import torch
import clip
from PIL import Image

device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-L/14", device=device)

image = preprocess(Image.open("cat.jpg")).unsqueeze(0).to(device)
texts = clip.tokenize(["a photo of a cat", "a photo of a dog", "a photo of a car"]).to(device)

with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(texts)
    logits_per_image, logits_per_text = model(image, texts)
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()

print("Label probs:", probs)

2026年5月時点では、純粋なCLIPをそのまま使う現場はほぼない。代わりにSigLIP、SigLIP 2、EVA-CLIP、MetaCLIPが事実上の標準。

  • SigLIP (Google, 2023): softmaxでなくsigmoid損失。大バッチなしでもよく学習され、精度も上。arXiv:2303.15343。
  • SigLIP 2 (Google, 2024): 多言語とローカル特徴を強化。韓国語・日本語の検索品質が大幅改善。
  • EVA-CLIP (BAAI): ViT-E/14、ViT-G/14までスケール。オープンSOTA埋め込み。
  • MetaCLIP (Meta, 2024): データキュレーションレシピを公開。同サイズでCLIPに対し一貫した改善。

CLIP系列は2026年でも「RAGの画像検索バックボーン」「データセットフィルタリング」「ゼロショット分類」「動画クリップランキング」の第一候補。生成型VLMが普及してもこのポジションは消えない。

LLaVA — ビジュアル命令チューニングのデファクト

オープン生成型VLMの出発点はLLaVA(Large Language and Vision Assistant)。2023年4月の初出論文(arXiv:2304.08485)以降、LLaVA-1.5、LLaVA-NeXT、LLaVA-OneVision、LLaVA-NeXT-Interleaveと進化し、2026年5月ではLLaVA-NeXT-Interleaveが事実上の参照アーキテクチャ。

LLaVAの本質は2つ。

  1. シンプルなプロジェクタ(アライメント)層: CLIP/SigLIPビジョンエンコーダの出力トークンをLLMの埋め込み空間にマップする小さなMLP(またはQ-Former系)。ビジョンエンコーダはfrozen、LLMも最初はfrozen、プロジェクタのみ学習。
  2. 2段階学習:
    • Stage 1(特徴アライメント): 画像-キャプションペアでプロジェクタのみを学習。
    • Stage 2(ビジュアル命令チューニング): GPT-4で合成した命令データ(LLaVA-Instruct)でプロジェクタ + LLMをファインチューン。

このシンプルさゆえLLaVAは「自分のLLMにビジョンを付ける最短経路」になった。2026年現在、LLaVA-NeXTはVicuna、Mistral、Llama 3.1/3.3、Qwen 2.5などをLLMバックボーンとしてサポート。

from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
import torch
from PIL import Image

processor = LlavaNextProcessor.from_pretrained("llava-hf/llava-v1.6-mistral-7b-hf")
model = LlavaNextForConditionalGeneration.from_pretrained(
    "llava-hf/llava-v1.6-mistral-7b-hf",
    torch_dtype=torch.float16,
    device_map="auto",
)

image = Image.open("chart.png")
prompt = "[INST] <image>\nWhat is the trend shown in this chart? [/INST]"

inputs = processor(prompt, image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=256)
print(processor.decode(output[0], skip_special_tokens=True))

InternVL3 — オープンVLMの現チャンピオン

上海AI LabのInternVL3(2025年Q4) はオープンVLMの中でMMMU最高峰のスコアを持つモデル群。1B、2B、8B、14B、38B、78Bの構成。

InternVL3の特徴。

  • InternViT-6B / InternViT-300M を自前で学習。既製ViT-L/14をそのまま使わず、動的解像度とタイリングをネイティブサポート。
  • MLPプロジェクタ + LLM(InternLM, Qwen) の組み合わせ。LLaVAに似た構造だが、データスケールがはるかに大きい。
  • 多段階学習: 事前学習 → マルチモーダルSFT → DPO(直接選好最適化) → 任意のRLHF。
  • 多言語: 英語、中国語、韓国語、日本語のいずれも妥当なレベル。韓国語OCRも合格点。

InternVL3-78Bは2026年5月時点でMMMUにおいてGPT-4o(2024-08)、Claude 3.7 Vision、Gemini 2.0 Proと一桁台のポイント差まで詰めている。ライセンスはInternLMベースなので商用利用時は規約確認必須。

Qwen2.5-VL — Alibabaの3段階学習レシピ

AlibabaのQwenチームが2025年1月にリリースしたQwen2.5-VL(3B、7B、32B、72B) は、オープンVLM市場のもう一つの柱。本質は3段階学習。

  1. Stage 1 — ビジョンエンコーダ事前学習: 自前ViTを大規模画像-テキストペアで学習。
  2. Stage 2 — マルチモーダル事前学習: ViT + プロジェクタ + LLM全体を大規模インターリーブド(画像-テキスト交互)データで覚醒させる。
  3. Stage 3 — 命令チューニング: 高品質SFT + DPOで命令追従を強化。

Qwen2.5-VLは動画入力グラウンディングを一級市民として扱う。たとえば「この画像の赤い車の座標を(x1,y1,x2,y2)形式で出力して」のような要求を自然にこなす。32B/72Bはエージェント用途に向けてUIスクリーンショットを見て次のアクションを出力する能力が強化されており、Anthropic Computer Use系のタスクにそのまま使える。

ライセンスはApache 2.0(7B以下)とQwen Research License(32B/72B)の混在。商用利用時はモデル別ライセンス確認必須。

Pixtral · Molmo · Idefics3 · MiniCPM-V — その他の重要なオープンVLM

InternVL3とQwen2.5-VL以外にも、2026年5月時点で次のモデルが各々の立ち位置を確保している。

  • Pixtral 12B / Pixtral Large (Mistral, 2024-2025): 自前ビジョンエンコーダ + Mistral Largeバックボーン。Apache 2.0(12B) / MRL(Large)。EUデータ・言語フレンドリー。
  • Molmo (Allen AI, 2024): PixMoデータセットで学習。ポインティングに特化 — 画像上の座標を精密に出力するのが得意。1B/7B/72B、Apache 2.0。
  • Idefics3 (Hugging Face, 2024): 完全オープンデータ + 完全オープン学習コード。再現性が最大の長所。
  • MiniCPM-V 3.0 (OpenBMB, 2025): 8B未満でGPT-4V級の性能を謳う。エッジ・オンデバイスワークロードの第一候補。
  • Phi-3.5-Vision / Phi-4-Multimodal (Microsoft): 小型VLM。4B前後でノートPCで動く。
  • CogVLM2 / GLM-4V (Zhipu AI): 中国市場で強い。韓国語も妥当。

選び方ガイド: データライセンスのクリーンさが最優先ならIdefics3・Molmo、OCR・文書が核ならInternVL3・Qwen2.5-VL、エージェント・UIが核ならQwen2.5-VL 32B+、オンデバイスが核ならMiniCPM-V・Phi-3.5-Vision。

クローズドフロンティアVLM — GPT-4o · Claude 4.7 · Gemini 2.5

クローズドは一部領域(チャート精度、文書抽出、マルチ画像推論、安全性)でまだ優位。

  • GPT-4o Vision (OpenAI): chat.completions.createimage_url またはbase64画像を渡すだけ。gpt-4ogpt-4o-mini でコスト・速度のトレードオフ。
  • Claude 4.7 Vision (Anthropic): messages.createcontentimage ブロック。1Mコンテキストで数十ページPDFを一気に処理。チャート・表・図の抽出に強い。
  • Gemini 2.5 Pro / Flash Vision (Google): 動画入力ネイティブ、長コンテキスト、YouTube URL直接入力可能。

OpenAI Vision APIの呼び出し例。

from openai import OpenAI
import base64

client = OpenAI()

with open("invoice.png", "rb") as f:
    b64 = base64.b64encode(f.read()).decode()

resp = client.chat.completions.create(
    model="gpt-4o-2026-05",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Extract invoice number, date, total amount as JSON."},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{b64}"}},
        ],
    }],
)
print(resp.choices[0].message.content)

クローズドの決定的な強みは安定性、安全フィルタ、そしてマルチ画像コンテキストの一貫性。オープンモデルは単一画像ではほぼ追いついたが、「30ページPDFから一貫して抽出」「複数画像の差分分析」のような作業ではクローズドフロンティアがまだ少し安定している。

DINOv2 · DINOv3 — テキストなしで学習されるビジョン基盤

CLIPが(画像、テキスト)ペアで学習されるのに対し、DINOv2(Meta, 2023) はテキストを使わない自己教師ありのViT基盤。arXiv:2304.07193。テキストアライメントなしでも検出・セグメンテーション・深度推定に強力な事前学習表現を提供する。

2025年後半に公開されたDINOv3(仮称)、またはその後継は、より大きなキュレーション済み自然画像データ(約17億枚)と大型モデルで強化された。2026年5月時点ではDINOv2系列がまだ最も広く使われている。

  • ViT-S/14、ViT-B/14、ViT-L/14、ViT-g/14の構成。
  • frozen特徴だけでセグメンテーション・検出・分類で強力。
  • DINOv2 + 線形分類器でImageNet-1kにおいて84%+ — ファインチューニング無しの結果。

産業現場では「テキストアライメントが不要なビジョンタスク」(異常検知、産業検査、医療画像事前学習)でDINOv2がCLIPより良い出発点になることが多い。

SAM 2 — 画像と動画の汎用セグメンテーション

Segment Anything Model 2(Meta, 2024) は画像だけでなく動画でも物体を追跡しながらセグメントできる汎用モデル。arXiv:2408.00714。1フレームに点・ボックス・マスクでプロンプトすると、動画全体にマスクが伝播する。

2026年5月時点でSAM 2は次のワークロードの標準になった。

  • 動画アノテーション自動化: ラベリング会社がSAM 2をin-the-loopで投入し70%以上のコスト削減を報告。
  • ロボティクス・自動運転認識補助: 一度追跡対象を指定するとシーケンス全体で自動セグメント。
  • VLMのグラウンディングバックエンド: VLMが「この写真の赤い車」を指せばSAM 2が正確なマスクを生成。

SAM 2自身はテキスト入力を受け付けない。テキスト→物体マッチングはGroundingDINOやOWL-ViTのようなオープン語彙検出器を前段に置く。

Florence-2 — Microsoftのマルチタスクビジョン基盤

Florence-2(Microsoft, 2024) はキャプショニング・検出・セグメンテーション・OCR・VQAを1つのseq2seqビジョン基盤で処理する。arXiv:2311.06242。モデルサイズは0.23B(base)と0.77B(large)の2種類のみだが、同サイズの単一タスクSOTAモデルと張り合うレベル。

要はタスクプロンプト: <CAPTION><DETAILED_CAPTION><OD><DENSE_REGION_CAPTION><OCR> のような特殊トークンでタスクを切り替える。エッジ・オンデバイスで「ビジョンスイスアーミーナイフ」が必要な時の第一候補。

VLM学習データセット — LAIONからShareGPT4Vまで

VLMの性能はデータセットに左右される。2026年5月時点のコアデータセット。

  • LAION-5B / LAION-COCO / LAION-Aesthetics: 50億ペア規模。著作権・安全問題で一部撤回されたが、依然として最大の公開コーパス。CLIP・SigLIP学習の基盤。
  • DataComp / DataComp-1B: データキュレーションを競わせるベンチ + キュレーション済み10億ペア。
  • COYO-700M (Kakao Brain): KakaoBrain公開。韓国語フレンドリー。
  • ShareGPT4V: GPT-4Vで生成された高品質キャプション・命令データ。LLaVA-1.5/NeXTに決定的。
  • LLaVA-Instruct-150K / 665K: ビジュアル命令チューニング事実上の標準データ。
  • The Cauldron (Hugging Face): Idefics2/3学習に使われた50データセットの合本。
  • OBELICS: Webから抽出した大規模インターリーブド画像-テキスト文書。
  • AI2D, ScienceQA, ChartQA, DocVQA, TextVQA: 評価と学習の両方に使われるドメイン特化データ。

データライセンスのクリーンさは決定的。2026年に欧州AI Actが発効し、「このモデルがどのデータで学習されたか」の公開義務が強くなっている。Idefics3、Molmo、OpenFlamingoのような「完全公開」モデルの価値が高まった。

VLM評価 — MMMU · MathVista · MMVet · ChartQA · DocVQA · RealWorldQA

VLM評価はLLM評価よりも分化している。コアベンチは次の通り。

  • MMMU(Massive Multi-discipline Multimodal Understanding): 30分野の大学レベル試験。2026年5月時点で「VLMの総合IQ」役。eval.ai/web/challenges/challenge-page/2179。
  • MMMU-Pro: テキスト手がかりを除いた難易度版。本物のビジョン推論を要求。
  • MathVista: 数学的ビジュアル推論。チャート・幾何・図表。
  • MMVet / MMBench / SEED-Bench: 総合評価とカテゴリ別の強み・弱み。
  • ChartQA / DocVQA / InfographicVQA: チャート・文書・インフォグラフィック理解。
  • TextVQA / ST-VQA: 画像中のテキスト読み取り。
  • RealWorldQA (xAI): 実世界写真の空間理解。
  • Video-MME / MVBench / VideoMME: 動画VLM評価。
  • CV-Bench: クラシックビジョンタスク(分類・検出・深度)をVLMに投げる評価。

2026年5月時点のMMMUリーダーボード上位はGPT-4o(2024-11〜)、Gemini 2.5 Pro、Claude 4.7 Vision、InternVL3-78B、Qwen2.5-VL-72B、Molmo-72B、Pixtral Large。オープン-クローズドの差は5〜8%ポイントまで縮まった。

OCR特化VLM — GOT-OCR 2.0 · Nougat · Donut

文書・表・数式OCRは一般VLMがまだ弱い領域。2026年5月時点でこの領域はOCR特化VLMが棲み分けている。

  • GOT-OCR 2.0 (StepFun, 2024): arXiv:2409.01704。580MパラメータでGPT-4V級OCRを謳う。一般テキスト、数式、楽譜、化学式、チャートまで1モデルで。
  • Nougat (Meta, 2023): arXiv:2308.13418。学術PDFをマークダウンに変換。数式処理が強み。
  • Donut (Naver Clova, 2022): arXiv:2111.15664。OCR-free文書理解。韓国語領収書・カード明細に強い。
  • Surya (VikParuchuri OSS): 90言語OCR。最も実務フレンドリーなオープンライセンス。
  • Mistral OCR (2025): Mistralが専用OCR APIをリリース。文書抽出精度トップクラス。

一般VLM(InternVL3、Qwen2.5-VL)もOCRが大きく改善したが、フォーム・表・多段レイアウト・数式が混在する文書ではまだ専用モデルが精度・コスト両面で優位。

動画VLM — Video-LLaVA · VideoLLaMA · InternVideo · Qwen2-VL-Video

画像から動画に行くとモデル数が一気に絞られる。2026年5月時点の動画VLMのコア。

  • Video-LLaVA (PKU, 2023): arXiv:2311.10122。画像・動画統合エンコーダ + LLM。
  • VideoLLaMA 2/3 (DAMO): 音声まで含むマルチモーダルに拡張。
  • InternVideo 2 (上海AI Lab): 動画基盤。action recognition・retrievalに強い。
  • Qwen2.5-VL Video: 単一モデルで画像・動画を統合。時間軸IDトークンを明示的に使用。
  • LongVU (Meta): 長動画圧縮に特化。
  • MovieChat / VideoChat / Video-ChatGPT: 対話型動画アシスタント系。

動画VLMの根本問題はトークン爆発。30fps × 60秒 = 1800フレームで各フレームが256〜1024トークンを占めるとLLMコンテキストが即破綻する。あらゆる動画VLMはフレームサンプリング・トークン圧縮・時間軸プーリングをどう設計するかが本質。

効率的推論 — vLLM · SGLang · TensorRT-LLMがVLMを扱う形

2026年5月時点でVLMサービングの標準は明確。

  • vLLM 0.7+: PagedAttention + 画像トークンキャッシュ。LLaVA、Qwen2.5-VL、InternVL2/3、Pixtral、Idefics3、MiniCPM-Vなどを一級市民で対応。
  • SGLang: RadixAttention + 構造化デコード。マルチ画像・インターリーブド入力に強い。
  • TensorRT-LLM (NVIDIA): H100/H200/B200で最小遅延。VLMはONNX export → TRTエンジン化の2段階。
  • MLC-LLM / llama.cpp: オンデバイス。iPhone・Android・Mac miniでPhi-3.5-Vision、MiniCPM-Vを動かす。

vLLMでQwen2.5-VLをOpenAI互換サーバとして立てる典型パターン。

pip install "vllm>=0.7.0"

vllm serve Qwen/Qwen2.5-VL-7B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.92 \
  --limit-mm-per-prompt image=4 \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 --port 8000

クライアントはOpenAI SDKをそのまま使える — 画像をbase64の image_url で渡すだけ。

本番デプロイ — トークン予算 · バッチ前処理 · キャッシュ

VLMを実サービスに乗せる際の重要変数はテキストLLMとは異なる。

  1. 画像トークンコスト: 1枚が256〜3000トークンを占有。解像度とタイリングでコントロール。Qwen2.5-VLの min_pixels/max_pixels、InternVL3の max_num_tiles、OpenAIの detail: low/high/auto
  2. バッチ画像前処理: PILはシングルスレッドでボトルネック。Pillow-SIMD + マルチプロセス、またはGPUデコード(NVIDIA DALI)。
  3. 画像キャッシュ: 同じ画像が繰り返されるならSHA256キーで埋め込み・トークンをキャッシュ。Redisまたはオブジェクトストア。
  4. コンテンツ安全: NSFW分類器とOCRベースのPIIフィルタを前段に。CLIPベース安全分類器はほぼタダ。
  5. トークン予算の事前見積もり: レスポンス開始前に入力画像トークン数を計算し、コストをユーザに開示。
  6. PDFとマルチ画像: ページ単位で切り出して並列処理。Claude 4.7 VisionはPDFネイティブ、それ以外はPyMuPDFでページをPNG化。

トークン予算のワンライナー(Qwen2.5-VL基準):

def estimate_image_tokens(width: int, height: int, min_pixels=256*28*28, max_pixels=1280*28*28) -> int:
    pixels = width * height
    pixels = max(min_pixels, min(max_pixels, pixels))
    # Qwen2.5-VL uses 28x28 patches and merges them 2x2
    patches = pixels / (28 * 28)
    tokens = int(patches / 4)
    return tokens

print(estimate_image_tokens(1920, 1080))  # ~1064 tokens

VLMファインチューニング — LoRA · QLoRA · SwiftVLM

オープンVLMを自社ドメインに合わせる2系統のアプローチ。

  • LoRA / QLoRAアダプタ: LLMバックボーンのq_proj/k_proj/v_proj/o_projにLoRA、プロジェクタはフル学習、ビジョンエンコーダはデフォルトfrozen。
  • フルファインチューニング: データとGPUが豊富な時のみ。ビジョンエンコーダまで起こすとキャプション品質が急峻に向上。

ツール: LLaMA-Factory、ms-swift(SwiftVLM)、Unsloth Vision、axolotl。2026年5月時点で ms-swift がQwen・InternVL・LLaVA・Idefics系統を最も広くサポート。

学習データ形式はShareGPT / LLaVA系のJSONが事実上の標準。1サンプルは {"image": "path/to.jpg", "conversations": [...]} 形で、ビジュアル命令チューニングコーパスと互換。

グラウンディングと領域レベル理解 — 座標を出力するVLM

2026年VLMの最大の変化の1つはグラウンディングの一般化。「これは車です」だけでなく「(x1, y1, x2, y2)に車があります」を正確に出力する。

主要モデル。

  • Qwen2.5-VL: bbox・points・polygonsをトークン出力。UI自動化に最適。
  • Molmo: ポインティング特化。画面上の正確な座標出力が強み。
  • CogVLM2-Grounding: 検出・セグメンテーション向きトークン。
  • Florence-2: タスクプロンプトで検出・キャプションを切り替え。
  • Kosmos-2 (Microsoft): インターリーブドテキスト-バウンディングボックストークンの初期標準化。

これはエージェントワークフローの決定的部品。「このスクリーンショットで『保存』を押せ」のような命令でVLMが直接座標を出力すれば追加検出モデル無しでクリック可能。Claude Computer Use、OpenAI Operator、Anthropic Computer Useはすべて同じ原理。

韓国のVLMシーン — HyperCLOVA X Vision · LG EXAONE Vision · NAVER Cloud

韓国も自前のVLMを多数出している。

  • HyperCLOVA X Vision (NAVER): 韓国語・韓国文書理解に特化。領収書・身分証・チャート抽出が韓国語ドメインで最強。NAVER Cloud APIで提供。
  • EXAONE Vision (LG AI Research): EXAONE 3.5/4.0系のマルチモーダル拡張。産業・科学ドメインに強い。
  • HCX-DASH (NAVER): 小型マルチモーダル。韓国語OCR + VQAに強み。
  • Kanana / Kanana-V (Kakao): Kakao独自LLMのビジョン拡張。
  • KoLLaVA, KORani, MAUM Vision: 学術・中小企業発の韓国語VLM。
  • COYO-700M (Kakao Brain): データセット貢献。
  • Upstage Solar Vision: Solar Proのビジョン拡張。文書・表抽出に強く、英語・韓国語の両方に強い。

韓国語OCR・文書理解はまだ自前モデルが強い。一般的マルチモーダル推論はInternVL3・Qwen2.5-VLの韓国語性能が十分妥当なので「オープンモデル + 韓国語SFT」も多い。

日本のVLMシーン — Stockmark · Sakana AI · ABEJA · Preferred Networks

日本も独自のVLMエコシステムが堅実。

  • Stockmark-VL / Stockmark-100B-VL: 日本語ビジネス文書・ニュース分析に特化。
  • Sakana AI EvoVLM-JP: 進化的モデルマージで日本語VLMを効率的に作った事例。arXiv:2403.13187。
  • ABEJA LUCAS Vision: 日本の産業ドメイン。
  • Preferred Networks PLaMo-Vision: PLaMo系のビジョン拡張。医療・ロボティクスで強い。
  • NEC cotomi Vision: 日本企業向け文書処理。
  • CyberAgent CALM Vision: 広告・メディア応用。
  • LINE/Yahoo LY Corporation Vision: 検索・コンテンツモデレーションのインハウス。

日本語OCR・文書・表理解は韓国同様、自前モデルが強い。韓国・日本ともに「グローバルオープンモデル + 自国語ファインチューニング + 自国ドメインデータ」戦略が標準。

組み合わせパターン — 実プロダクションはどう束ねるか

2026年5月時点で実務で頻出するVLMスタック組み合わせ7つ。

  1. Eコマース検索: SigLIP 2 + ChromaDB/Qdrant + GPT-4oリランキング。画像類似度検索の標準。
  2. 金融文書自動抽出: Claude 4.7 Vision(PDFネイティブ) + 自社検証ルール + Surya OCRフォールバック。
  3. Eコマース商品登録: 自前InternVL3-38B + DINOv2埋め込みで重複商品検出。
  4. コンテンツモデレーション: SigLIP安全分類器 + InternVL3またはQwen2.5-VLで精密判定。
  5. カスタマーサポート画像トリアージ: オンプレMiniCPM-V 3.0 + GPT-4oフォールバック。
  6. エージェント(コンピュータ操作): Qwen2.5-VL-32B(またはClaude 4.7) + SAM 2 + 自社アクションモデル。
  7. 医療・産業検査: DINOv2 frozenバックボーン + ドメインヘッド。テキストアライメント不要領域の標準。

複数のVLMをルーティング(LiteLLM、Portkey、OpenRouter)で束ね、高価なクローズドは難しいケースだけにフォールバックさせるパターンが標準になった。

安全 · ガバナンス · EU AI Actの影響

VLMリスクはLLMリスクより分化している。2026年5月時点の主要論点。

  • PII露出: 画像OCRで身分証・クレカ・パスポートが自動読み取りされる。入力段階でPIIマスキング。
  • 顔認識: EU AI Actは公共空間でのリアルタイム顔認識を事実上禁止。各国法規確認必須。
  • 著作権汚染学習データ: LAION問題以降、「学習データ出所公開」が義務化に向かう。Idefics3・Molmo・OpenFlamingoのような完全公開モデルの価値が上がった。
  • NSFW · 暴力: 安全分類器を入出力両側に。
  • ディープフェイク検知: モデル生成画像を検知する別系統の分類器(WeVerify、Hive、Reality Defender)。
  • ヘルスケア利用: FDA・PMDA・MFDSは医療AIを別途規制。VLMは多くの場合補助ツール扱いだがケースバイケース確認必須。

導入ロードマップ — 0から本番まで

VLMを初めて導入するチームのための6週間ロードマップ。

  • 1週目 — ユースケース定義: 単一画像分類か、文書抽出か、エージェントアクションか、RAGか。評価セット200〜500枚収集。
  • 2週目 — クローズドベースライン: GPT-4o、Claude 4.7、Gemini 2.5で評価。コスト・遅延・精度を測定。
  • 3週目 — オープンモデル評価: 同じ評価セットでInternVL3、Qwen2.5-VL、MiniCPM-Vを回す。vLLMでセルフホストコスト比較。
  • 4週目 — ドメイン適応: SFT(LoRA)で自社ドメインデータ1k〜10kサンプル学習。性能がクローズドに迫ったらセルフホスト決断。
  • 5週目 — インフラ: vLLM/SGLang + モニタリング(W&B Weave, Langfuse, Arize Phoenix) + キャッシュ(Redis) + 安全フィルタ。
  • 6週目 — 段階リリース: カナリア5% → 25% → 100%。入力画像分布ドリフトを監視。

落とし穴: 「MMMUスコアだけでモデル選定」「安全フィルタ無しで本番投入」「PDFを丸ごと1回で送ってトークン爆発」「画像キャッシュ無しで同じ写真を繰り返し呼ぶ」。

おわりに — 2026年5月、VLMは「基盤インフラ」になった

2024年は「GPT-4Vを使え」が答えだった。2026年5月では答えが分かれる。

  • 単一画像推論: オープンモデルで十分。InternVL3 / Qwen2.5-VLがデフォルト。
  • PDF · 複数画像 · 一貫性: Claude 4.7 Visionがまだ優位。
  • OCR · 文書抽出: 専用モデル(GOT-OCR 2.0、Mistral OCR、Surya)が精度・コストともに有利。
  • エージェント · UI自動化: Qwen2.5-VL 32B+またはClaude Computer Use。
  • オンデバイス: MiniCPM-V、Phi-3.5-Vision、Apple Intelligence Vision。
  • ビジョン基盤(テキスト無し): DINOv2/v3。CLIPは検索専用。

VLMは「個別統合が必要な新技術」から「テキストLLMと同じく呼ぶだけの基盤インフラ」へ移行した。今後12ヶ月の差別化はモデル自体ではなくデータキュレーション · 評価セット · ドメインSFT · 安全 · コスト管理から生まれる。

References

  • CLIP — Learning Transferable Visual Models From Natural Language Supervision: arxiv.org/abs/2103.00020
  • SigLIP — Sigmoid Loss for Language Image Pre-Training: arxiv.org/abs/2303.15343
  • LLaVA — Visual Instruction Tuning: arxiv.org/abs/2304.08485
  • LLaVA-1.5 — Improved Baselines with Visual Instruction Tuning: arxiv.org/abs/2310.03744
  • Qwen-VL: arxiv.org/abs/2308.12966
  • Qwen2-VL: arxiv.org/abs/2409.12191
  • InternVL: arxiv.org/abs/2312.14238
  • DINOv2: arxiv.org/abs/2304.07193
  • Segment Anything: arxiv.org/abs/2304.02643
  • SAM 2: arxiv.org/abs/2408.00714
  • Florence-2: arxiv.org/abs/2311.06242
  • GOT-OCR 2.0: arxiv.org/abs/2409.01704
  • Nougat: arxiv.org/abs/2308.13418
  • Donut: arxiv.org/abs/2111.15664
  • Video-LLaVA: arxiv.org/abs/2311.10122
  • Kosmos-2: arxiv.org/abs/2306.14824
  • Sakana AI Evolutionary Optimization: arxiv.org/abs/2403.13187
  • LLaVA GitHub: github.com/haotian-liu/LLaVA
  • InternVL GitHub: github.com/OpenGVLab/InternVL
  • Qwen2.5-VL HuggingFace: huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
  • vLLM Multimodal Docs: docs.vllm.ai/en/latest/models/supported_models.html
  • SGLang: github.com/sgl-project/sglang
  • MMMU Leaderboard: mmmu-benchmark.github.io
  • MathVista: mathvista.github.io