💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며 — 2026년 5월, VLM은 "텍스트 LLM과 거의 같은 속도"로 평준화됐다

2024년까지만 해도 비전-언어 모델(VLM)은 "GPT-4V가 압도하고 오픈 모델은 한참 뒤"의 구도였다. 2026년 5월 현재 그 격차는 사실상 사라졌다. **Qwen2.5-VL 72B, InternVL3 78B, LLaVA-NeXT-Interleave, Pixtral Large, Molmo 72B, MiniCPM-V 3.0**이 MMMU·MathVista·ChartQA 같은 벤치에서 GPT-4o, Claude 4.7 Vision, Gemini 2.5 Pro Vision과 한 자릿수 차이로 붙어 있다. 동시에 Apple Intelligence Vision, Samsung Galaxy AI, ASUS NPU 노트북에서 **온디바이스 VLM**이 본격적으로 굴러간다.

이 글은 마케팅 자료가 아니라 "지금 프로덕션에서 어떤 VLM이 어디에 들어가고, 어떻게 학습·평가·서빙하는가"를 한 글에 정리한다. CLIP 계열의 기본 원리, LLaVA의 두 단계 정렬, Qwen-VL의 세 단계 학습, MMMU·MathVista 평가, vLLM/SGLang 서빙까지 실제 API 형태로 비교한다.

VLM 2026 풍경 — 다섯 갈래로 갈라진 지형

먼저 큰 그림이다. 2026년 5월 VLM 시장은 다섯 갈래로 나뉜다.

1. **CLIP 계열 (contrastive)**: 이미지·텍스트 공동 임베딩. CLIP, SigLIP, EVA-CLIP. 검색·랭킹·필터링 백본.

2. **오픈 생성형 VLM**: LLaVA-NeXT, InternVL3, Qwen2.5-VL, Pixtral, Molmo, Idefics3, MiniCPM-V. "이미지를 보고 자연어를 생성"하는 본진.

3. **폐쇄형 프런티어 VLM**: GPT-4o Vision, Claude 4.7 Vision, Gemini 2.5 Pro Vision. API로만 접근.

4. **비전 파운데이션 (텍스트 없음)**: DINOv2/v3, SAM 2, Florence-2. self-supervised 비전 백본 + 범용 분할/검출.

5. **확산 기반 비전 (생성)**: Stable Diffusion 3.5, FLUX.1, DALL-E 3. 이미지를 "이해"하는 게 아니라 "생성"하는 쪽.

이 글은 1~4번에 집중하고, 5번 확산 모델은 별도 글에서 다룬다. VLM이라는 단어를 좁게 쓰면 2~3번(생성형)을 가리키지만, 실전 파이프라인에서는 1번(CLIP)과 4번(DINO/SAM/Florence)이 사전 처리·검색·앵커링 단계에서 같이 들어간다.

CLIP과 그 후계자들 — 대비 학습이라는 출발선

VLM 이야기의 출발점은 OpenAI CLIP(2021)이다. 4억 장의 (이미지, 텍스트) 쌍으로 **대비 손실(contrastive loss)** 을 학습해 ViT 이미지 인코더와 텍스트 인코더가 같은 공간에 임베딩되도록 만들었다. 핵심 아이디어는 한 미니배치 안에서 매칭되는 쌍은 코사인 유사도를 높이고, 매칭되지 않는 쌍은 낮추는 것이다.

from PIL import Image

device = "cuda" if torch.cuda.is_available() else "cpu"

model, preprocess = clip.load("ViT-L/14", device=device)

image = preprocess(Image.open("cat.jpg")).unsqueeze(0).to(device)

texts = clip.tokenize(["a photo of a cat", "a photo of a dog", "a photo of a car"]).to(device)

with torch.no_grad():

image_features = model.encode_image(image)

text_features = model.encode_text(texts)

logits_per_image, logits_per_text = model(image, texts)

probs = logits_per_image.softmax(dim=-1).cpu().numpy()

print("Label probs:", probs)

2026년 5월 시점, "CLIP 그 자체"를 그대로 쓰는 곳은 거의 없다. 대신 **SigLIP, SigLIP 2, EVA-CLIP, MetaCLIP**이 사실상의 표준이다.

- **SigLIP (Google, 2023)**: softmax 대신 sigmoid 손실. 대규모 배치 없이도 잘 학습되고 정확도도 더 높다. arXiv:2303.15343.

- **SigLIP 2 (Google, 2024)**: 다국어와 로컬 피처 강화. 한국어·일본어 검색 품질이 큰 폭으로 개선됐다.

- **EVA-CLIP (BAAI)**: ViT-E/14, ViT-G/14까지 스케일. 오픈 SOTA 임베딩.

- **MetaCLIP (Meta, 2024)**: 데이터 큐레이션 레시피를 공개. 동일 모델 크기에서 CLIP 대비 일관된 개선.

CLIP 계열은 2026년에도 여전히 "RAG의 이미지 검색 백본", "데이터셋 필터링", "제로샷 분류", "비디오 클립 랭킹"의 1순위로 들어간다. 생성형 VLM이 폭발해도 이 자리는 사라지지 않는다.

LLaVA — 비주얼 인스트럭션 튜닝의 사실상 표준

오픈 생성형 VLM의 출발점은 **LLaVA(Large Language and Vision Assistant)** 다. 2023년 4월 첫 논문(arXiv:2304.08485) 이후 LLaVA-1.5, LLaVA-NeXT, LLaVA-OneVision, LLaVA-NeXT-Interleave로 진화해 왔고, 2026년 5월에는 **LLaVA-NeXT-Interleave**가 사실상의 레퍼런스 아키텍처다.

LLaVA의 핵심은 두 가지다.

1. **단순한 정렬(projector) 레이어**: CLIP/SigLIP 비전 인코더의 출력 토큰을 LLM 임베딩 공간에 맞추는 작은 MLP(또는 Q-Former 변형). 비전 인코더는 frozen, LLM도 처음엔 frozen, projector만 학습.

2. **두 단계 학습**:

- **Stage 1 (feature alignment)**: 이미지-캡션 쌍으로 projector만 학습.

- **Stage 2 (visual instruction tuning)**: GPT-4가 합성한 인스트럭션 데이터(LLaVA-Instruct)로 projector + LLM 미세조정.

이 단순함 때문에 LLaVA는 "내 LLM에 비전을 붙이는 가장 짧은 경로"가 됐다. 2026년 현재 LLaVA-NeXT는 Vicuna, Mistral, Llama 3.1/3.3, Qwen 2.5 등 다양한 LLM 백본을 지원한다.

from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration

from PIL import Image

processor = LlavaNextProcessor.from_pretrained("llava-hf/llava-v1.6-mistral-7b-hf")

model = LlavaNextForConditionalGeneration.from_pretrained(

"llava-hf/llava-v1.6-mistral-7b-hf",

torch_dtype=torch.float16,

device_map="auto",

)

image = Image.open("chart.png")

prompt = "[INST] <image>\nWhat is the trend shown in this chart? [/INST]"

inputs = processor(prompt, image, return_tensors="pt").to("cuda")

output = model.generate(**inputs, max_new_tokens=256)

print(processor.decode(output[0], skip_special_tokens=True))

InternVL3 — 오픈 VLM의 현재 챔피언

상하이 AI Lab의 **InternVL3 (2025년 4분기)** 는 오픈 VLM 중 MMMU에서 가장 높은 점수를 받는 모델군이다. 1B, 2B, 8B, 14B, 38B, 78B 라인업으로 풀린다.

InternVL3의 특징은 다음과 같다.

- **InternViT-6B / InternViT-300M** 비전 인코더를 자체 학습. ViT-L/14를 단순히 가져다 쓰는 대신 동적 해상도(dynamic resolution)와 타일링 지원.

- **MLP projector + LLM(InternLM, Qwen)** 조합. LLaVA와 비슷한 구조지만 데이터 스케일이 훨씬 크다.

- **다단계 학습**: pretraining → multimodal SFT → DPO(직접 선호 최적화) → RLHF 옵션.

- **다국어**: 영어, 중국어, 한국어, 일본어 모두 합리적인 성능. 한국어 OCR도 합격선.

InternVL3-78B는 2026년 5월 기준 MMMU에서 GPT-4o(2024-08), Claude 3.7 Vision, Gemini 2.0 Pro와 한 자릿수 차이까지 좁혀 있다. 라이선스는 InternLM 기반이라 상업적 사용 시 약관 확인 필수.

Qwen2.5-VL — 알리바바의 세 단계 학습 레시피

알리바바 Qwen 팀의 **Qwen2.5-VL (3B, 7B, 32B, 72B)** 은 2025년 1월 공개 이후 오픈 VLM 시장의 또 다른 핵심 축이다. 핵심은 세 단계 학습이다.

1. **Stage 1 — 비전 인코더 사전학습**: 자체 ViT를 대규모 이미지-텍스트 쌍으로 학습.

2. **Stage 2 — 멀티모달 사전학습**: ViT + projector + LLM 전체를 깨우는 대규모 인터리브드(image-text interleaved) 데이터 학습.

3. **Stage 3 — 인스트럭션 튜닝**: 고품질 SFT + DPO로 명령 따르기 강화.

Qwen2.5-VL은 **동영상 입력**과 **그라운딩(grounding)** 을 1급 시민으로 지원한다. 예를 들어 "이 이미지에서 빨간 자동차의 좌표를 (x1,y1,x2,y2) 형식으로 출력해줘" 같은 요청을 자연스럽게 처리한다. 또한 32B/72B는 **에이전트(agent)** 용도에 맞춰 UI 스크린샷을 보고 다음 액션을 출력하는 능력이 강화됐다 — Anthropic의 Computer Use 류 작업에 그대로 들어갈 수 있다.

라이선스는 Apache 2.0(7B 이하)과 Qwen Research License(32B/72B) 혼합. 상업적 사용 시 모델별 라이선스 확인 필수.

Pixtral · Molmo · Idefics3 · MiniCPM-V — 그 외 핵심 오픈 VLM

InternVL3과 Qwen2.5-VL 외에도 2026년 5월 기준 다음 모델들이 자기 자리를 확보했다.

- **Pixtral 12B / Pixtral Large (Mistral, 2024-2025)**: 자체 비전 인코더와 Mistral Large 백본. Apache 2.0(12B) / MRL(Large). 유럽 데이터·언어 친화적.

- **Molmo (Allen AI, 2024)**: PixMo 데이터셋으로 학습. **포인팅(pointing)** 능력이 특화 — 이미지 위 좌표를 정밀하게 출력하는 데 강하다. 1B/7B/72B 라인업, Apache 2.0.

- **Idefics3 (Hugging Face, 2024)**: 완전 오픈 데이터 + 완전 오픈 학습 코드. 재현성이 가장 큰 장점.

- **MiniCPM-V 3.0 (OpenBMB, 2025)**: 8B 미만으로 GPT-4V 급 성능 표방. 엣지·온디바이스 워크로드 1순위.

- **Phi-3.5-Vision / Phi-4-Multimodal (Microsoft)**: 소형 VLM. 4B 안팎으로 노트북에서 굴러간다.

- **CogVLM2 / GLM-4V (Zhipu AI)**: 중국 시장에서 강함. 한국어도 합리적.

선택 가이드: **데이터 라이선스 깨끗함**이 최우선이면 Idefics3·Molmo, **OCR/문서**가 핵심이면 InternVL3·Qwen2.5-VL, **에이전트/UI**가 핵심이면 Qwen2.5-VL 32B+, **온디바이스**가 핵심이면 MiniCPM-V·Phi-3.5-Vision.

폐쇄형 프런티어 VLM — GPT-4o · Claude 4.7 · Gemini 2.5

폐쇄형은 여전히 일부 영역(차트 정확도, 문서 추출, 멀티 이미지 추론, 안전성)에서 우위가 있다.

- **GPT-4o Vision (OpenAI)**: `chat.completions.create`에 `image_url` 또는 base64 이미지를 넣으면 끝. `gpt-4o`와 `gpt-4o-mini`로 비용·속도 트레이드오프.

- **Claude 4.7 Vision (Anthropic)**: `messages.create`에서 `content` 안에 `image` 블록. 1M 컨텍스트로 PDF 수십 페이지를 한 번에 처리 가능. 차트·표·다이어그램 추출에 강함.

- **Gemini 2.5 Pro / Flash Vision (Google)**: 비디오 입력 네이티브, 긴 컨텍스트. YouTube URL 직접 입력 가능.

OpenAI 비전 API 호출 예:

from openai import OpenAI

client = OpenAI()

with open("invoice.png", "rb") as f:

b64 = base64.b64encode(f.read()).decode()

resp = client.chat.completions.create(

model="gpt-4o-2026-05",

messages=[{

"role": "user",

"content": [

{"type": "text", "text": "Extract invoice number, date, total amount as JSON."},

{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{b64}"}},

}],

)

print(resp.choices[0].message.content)

폐쇄형의 결정적 장점은 안정성과 안전 필터, 그리고 멀티 이미지 컨텍스트의 일관성이다. 오픈 모델은 단일 이미지에서는 거의 따라잡았지만, "PDF 30페이지의 일관된 추출"이나 "여러 이미지 간 차이 분석" 같은 작업에서는 여전히 폐쇄형 모델이 조금 더 안정적이다.

DINOv2 · DINOv3 — 텍스트 없이 학습된 비전 백본

CLIP이 (이미지, 텍스트) 쌍으로 학습된다면, **DINOv2 (Meta, 2023)** 는 self-supervised로만 학습된 ViT 백본이다. arXiv:2304.07193. 텍스트가 전혀 없이도 detection·segmentation·depth estimation의 강력한 사전학습 표상이 된다.

2025년 후반에 공개된 **DINOv3 (가칭)** 또는 그 후계작은 더 큰 데이터(약 17억 장 큐레이션된 자연 이미지)와 더 큰 모델로 강화됐다. 2026년 5월 기준 DINOv2 라인업이 여전히 가장 널리 쓰인다.

- ViT-S/14, ViT-B/14, ViT-L/14, ViT-g/14 라인업.

- frozen feature만 써도 분할·검출·분류에서 강력.

- DINOv2 + linear classifier로 ImageNet-1k에서 84%+를 달성하는데, 이건 fine-tuning 없이 나온 결과다.

산업 현장에서는 "텍스트 정렬이 필요 없는 비전 태스크"(이상치 탐지, 산업용 검사, 의료 영상 사전학습)에서 DINOv2가 CLIP보다 더 좋은 출발점이 되는 경우가 많다.

SAM 2 — 이미지+비디오 범용 분할

**Segment Anything Model 2 (Meta, 2024)** 는 이미지뿐 아니라 **비디오에서도 객체를 추적·분할**할 수 있는 범용 분할 모델이다. arXiv:2408.00714. 한 프레임에서 점·박스·마스크로 프롬프트하면 동영상 전체에 걸쳐 마스크가 전파된다.

2026년 5월 기준 SAM 2는 다음 워크로드의 표준이 됐다.

- **비디오 어노테이션 자동화**: 라벨링 회사들이 SAM 2를 인-the-loop로 박아 비용을 70% 이상 절감.

- **로보틱스·자율주행 인지 보조**: 추적할 객체를 한 번 지정하면 시퀀스 전체에서 자동 분할.

- **VLM 그라운딩 백엔드**: VLM이 "이 사진의 빨간 자동차" 를 가리키면 SAM 2가 정확한 마스크를 생성.

SAM 2는 그 자체로 텍스트를 입력받지 않는다. 텍스트→객체 매칭은 GroundingDINO·OWL-ViT 같은 오픈 보캐 디텍터를 앞에 붙여 처리한다.

Florence-2 — Microsoft의 멀티태스크 비전 파운데이션

**Florence-2 (Microsoft, 2024)** 는 캡셔닝·디텍션·세그멘테이션·OCR·VQA를 한 모델로 처리하는 시퀀스-투-시퀀스 비전 파운데이션이다. arXiv:2311.06242. 모델은 0.23B(base)와 0.77B(large) 두 가지뿐인데, 비슷한 크기의 단일 태스크 SOTA 모델과 경쟁할 정도다.

Florence-2의 강점은 **태스크 프롬프트(task prompt)** 다. `<CAPTION>`, `<DETAILED_CAPTION>`, `<OD>`, `<DENSE_REGION_CAPTION>`, `<OCR>` 같은 특수 토큰으로 작업을 전환한다. 엣지·온디바이스에서 "비전 스위스 아미 나이프"가 필요할 때 1순위로 고려할 만하다.

VLM 학습 데이터셋 — LAION에서 ShareGPT4V까지

VLM의 성능은 데이터셋이 좌우한다. 2026년 5월 기준 핵심 데이터셋은 다음과 같다.

- **LAION-5B / LAION-COCO / LAION-Aesthetics**: 50억 쌍 규모. 저작권·안전 이슈로 일부가 내려갔지만 여전히 가장 큰 공개 코퍼스. CLIP·SigLIP 학습의 기반.

- **DataComp / DataComp-1B**: 데이터 큐레이션을 경쟁시키는 벤치마크 + 큐레이션된 1B 쌍.

- **COYO-700M (Kakao Brain)**: 카카오브레인 공개. 한국어 친화적.

- **ShareGPT4V**: GPT-4V로 생성한 고품질 캡션·인스트럭션. LLaVA-1.5/NeXT에 결정적.

- **LLaVA-Instruct-150K / 665K**: 비주얼 인스트럭션 튜닝의 사실상 표준 데이터.

- **The Cauldron (Hugging Face)**: Idefics2/3 학습에 쓰인 50개 데이터셋 합본.

- **OBELICS**: 웹에서 추출한 대규모 인터리브드 이미지-텍스트 문서.

- **AI2D, ScienceQA, ChartQA, DocVQA, TextVQA**: 평가 + 학습에 모두 쓰이는 도메인 특화 셋.

데이터 라이선스 청결성이 결정적이다. 2026년 들어 유럽 AI Act가 발효되면서 "이 모델이 어떤 데이터로 학습됐는가"에 대한 공개 의무가 점점 강해지고 있다. Idefics3, Molmo, OpenFlamingo 같은 "완전 공개" 모델의 가치가 그만큼 커졌다.

VLM 평가 — MMMU · MathVista · MMVet · ChartQA · DocVQA · RealWorldQA

VLM 평가는 LLM 평가보다 훨씬 분화돼 있다. 핵심 벤치는 다음과 같다.

- **MMMU (Massive Multi-discipline Multimodal Understanding)**: 30개 분야 대학 수준 시험. 2026년 5월 기준 "VLM의 종합 IQ" 역할. eval.ai/web/challenges/challenge-page/2179.

- **MMMU-Pro**: 텍스트 단서를 제거한 더 어려운 버전. 진짜 비전 추론 필요.

- **MathVista**: 수학적 시각 추론. 차트·기하·도표 문제.

- **MMVet / MMBench / SEED-Bench**: 종합 평가, 카테고리별 강약점.

- **ChartQA / DocVQA / InfographicVQA**: 차트·문서·인포그래픽 이해.

- **TextVQA / ST-VQA**: 이미지 속 텍스트 읽기.

- **RealWorldQA (xAI)**: 실세계 사진의 공간 이해.

- **Video-MME / MVBench / VideoMME**: 비디오 VLM 평가.

- **CV-Bench**: 클래식 비전 태스크(분류·검출·깊이)를 VLM에 던지는 평가.

2026년 5월 시점 MMMU 리더보드 상위권은 GPT-4o(2024-11~), Gemini 2.5 Pro, Claude 4.7 Vision, InternVL3-78B, Qwen2.5-VL-72B, Molmo-72B, Pixtral Large가 차례로 자리한다. 오픈과 폐쇄의 격차는 5~8%p 수준으로 좁아졌다.

OCR-centric VLM — GOT-OCR 2.0 · Nougat · Donut

문서·표·수식 OCR은 일반 VLM이 아직 약한 영역이다. 2026년 5월 시점 이 영역은 OCR-specific VLM이 따로 자리 잡았다.

- **GOT-OCR 2.0 (StepFun, 2024)**: arXiv:2409.01704. 580M 파라미터로 GPT-4V 급 OCR을 표방. 일반 텍스트, 수식, 악보, 화학식, 차트까지 한 모델로.

- **Nougat (Meta, 2023)**: arXiv:2308.13418. 학술 PDF를 마크다운으로 변환. 수식 처리가 강점.

- **Donut (Naver Clova, 2022)**: arXiv:2111.15664. OCR-free 문서 이해. 한국어 영수증/카드 명세서에 강함.

- **Surya (VikParuchuri OSS)**: 90개 언어 OCR. 오픈 라이센스로 가장 실무 친화적.

- **Mistral OCR (2025)**: Mistral이 별도 OCR API를 출시. 문서 추출 정확도 최상위권.

일반 VLM(InternVL3, Qwen2.5-VL)도 OCR이 많이 좋아졌지만, **양식·표·다단 레이아웃·수식**이 섞인 문서에서는 여전히 전용 모델이 정확도와 비용 모두에서 유리하다.

비디오 VLM — Video-LLaVA · VideoLLaMA · InternVideo · Qwen2-VL-Video

이미지에서 비디오로 가면 모델 풀이 좁아진다. 2026년 5월 시점 비디오 VLM 핵심은 다음과 같다.

- **Video-LLaVA (PKU, 2023)**: arXiv:2311.10122. 이미지·비디오 통합 인코더 + LLM.

- **VideoLLaMA 2/3 (DAMO)**: 오디오까지 멀티모달로 확장.

- **InternVideo 2 (상하이 AI Lab)**: 비디오 파운데이션. action recognition·retrieval 강함.

- **Qwen2.5-VL Video**: 단일 모델로 이미지·비디오 통합. 시간축 ID 토큰을 명시적으로 사용.

- **LongVU (Meta)**: 긴 비디오 압축에 특화.

- **MovieChat / VideoChat / Video-ChatGPT**: 대화형 비디오 어시스턴트 계열.

비디오 VLM의 결정적 난점은 **토큰 폭발**이다. 30프레임/초 × 1분 = 1800 프레임에 각 프레임이 256~1024 토큰을 차지하면 LLM 컨텍스트가 즉시 한계에 닿는다. 그래서 모든 비디오 VLM은 **프레임 샘플링·토큰 압축·시간축 풀링**을 어떻게 하느냐가 본질이다.

효율적 추론 — vLLM · SGLang · TensorRT-LLM이 VLM을 어떻게 다루나

2026년 5월 시점 VLM 서빙의 표준은 명확하다.

- **vLLM 0.7+**: PagedAttention + 이미지 토큰 캐싱. LLaVA, Qwen2.5-VL, InternVL2/3, Pixtral, Idefics3, MiniCPM-V 등을 1급 시민으로 지원.

- **SGLang**: RadixAttention + 구조화된 디코딩. 멀티 이미지·인터리브드 입력에 강함.

- **TensorRT-LLM (NVIDIA)**: H100/H200/B200에서 최저 지연. VLM은 ONNX export → TRT 엔진화 두 단계.

- **MLC-LLM / llama.cpp**: 온디바이스. iPhone·Android·Mac mini에서 Phi-3.5-Vision, MiniCPM-V를 굴린다.

vLLM으로 Qwen2.5-VL을 OpenAI 호환 서버로 띄우는 일반적 패턴:

pip install "vllm>=0.7.0"

vllm serve Qwen/Qwen2.5-VL-7B-Instruct \

--max-model-len 32768 \

--gpu-memory-utilization 0.92 \

--limit-mm-per-prompt image=4 \

--tensor-parallel-size 1 \

--host 0.0.0.0 --port 8000

클라이언트는 OpenAI SDK 그대로 쓸 수 있다 — 이미지를 `image_url`로 base64로 넣어주면 끝.

프로덕션 배포 — 토큰 예산 · 배치 전처리 · 캐싱

VLM을 실서비스에 넣을 때 핵심 변수는 텍스트 LLM과 다르다.

1. **이미지 토큰 비용**: 한 장이 256~3000 토큰을 차지. 해상도와 타일링 설정으로 컨트롤. Qwen2.5-VL의 `min_pixels`/`max_pixels`, InternVL3의 `max_num_tiles`, OpenAI의 `detail: low/high/auto`.

2. **배치 이미지 전처리**: PIL은 단일 스레드라 병목. `Pillow-SIMD` + 멀티프로세스 또는 GPU 디코딩(NVIDIA DALI)으로 처리.

3. **이미지 캐싱**: 같은 이미지가 반복 요청되면 SHA256 키로 임베딩·토큰을 캐시. Redis 또는 객체 스토어.

4. **콘텐츠 안전**: NSFW 분류기와 OCR-기반 PII 필터를 앞단에 박는다. CLIP-기반 안전 분류기는 거의 무료.

5. **토큰 예산 사전 추정**: 사용자에게 응답을 시작하기 전, 입력 이미지 토큰 수를 미리 계산해 비용을 노출.

6. **PDF·다중 이미지**: 페이지 단위로 잘라 병렬 처리. Claude 4.7 Vision은 PDF 네이티브, 다른 모델은 PyMuPDF로 페이지를 PNG로 변환.

토큰 예산 한 줄 추정 예 (Qwen2.5-VL 기준):

def estimate_image_tokens(width: int, height: int, min_pixels=256*28*28, max_pixels=1280*28*28) -> int:

pixels = width * height

pixels = max(min_pixels, min(max_pixels, pixels))

Qwen2.5-VL uses 28x28 patches and merges them 2x2

patches = pixels / (28 * 28)

tokens = int(patches / 4)

return tokens

print(estimate_image_tokens(1920, 1080)) # ~1064 tokens

VLM 파인튜닝 — LoRA · QLoRA · SwiftVLM

오픈 VLM을 자체 도메인에 맞추는 두 갈래 접근:

- **LoRA / QLoRA 어댑터**: LLM 백본의 q_proj/k_proj/v_proj/o_proj에 LoRA, projector는 풀 학습. 비전 인코더는 frozen이 기본.

- **Full fine-tuning**: 데이터가 많고 GPU가 충분할 때만. 비전 인코더까지 깨우면 캡션 품질이 가파르게 좋아진다.

도구 추천: **LLaMA-Factory, ms-swift(SwiftVLM), Unsloth Vision, axolotl**. 2026년 5월 시점 **ms-swift**가 Qwen·InternVL·LLaVA·Idefics를 가장 폭넓게 지원한다.

훈련 데이터 형식은 ShareGPT/LLaVA 스타일 JSON이 사실상 표준이다. 한 샘플은 `{"image": "path/to.jpg", "conversations": [...]}` 형태로, 비주얼 인스트럭션 튜닝 코퍼스와 호환된다.

그라운딩과 영역 수준 이해 — 좌표를 출력하는 VLM

2026년 VLM의 가장 큰 변화 중 하나는 **그라운딩(grounding)** 의 일반화다. 모델이 "이게 자동차다"만 말하는 대신 "(x1, y1, x2, y2) 좌표에 자동차가 있다"고 정확히 출력한다.

핵심 모델:

- **Qwen2.5-VL**: bbox·points·polygons를 토큰으로 출력. UI 자동화에 적합.

- **Molmo**: 포인팅에 특화. 화면 위 정확한 좌표 출력이 강점.

- **CogVLM2-Grounding**: 디텍션·세그멘테이션 친화 토큰.

- **Florence-2**: 태스크 프롬프트로 디텍션·캡셔닝 전환.

- **Kosmos-2 (Microsoft)**: 인터리브드 텍스트-바운딩박스 토큰의 초기 표준화.

이 능력은 **에이전트 워크플로**의 결정적 조각이다. "이 스크린샷에서 '저장' 버튼을 눌러라" 같은 명령에서 VLM이 좌표를 직접 출력하면 추가 디텍션 모델 없이 클릭이 가능하다. Claude Computer Use, OpenAI Operator, Anthropic Computer Use 모두 같은 원리다.

한국 VLM 씬 — HyperCLOVA X Vision · LG EXAONE Vision · NAVER Cloud

한국에서도 자체 VLM이 다수 나와 있다.

- **HyperCLOVA X Vision (NAVER)**: 한국어·한국 문서 이해에 특화. 영수증·신분증·차트 추출 성능이 한국어 도메인에서 가장 강함. NAVER Cloud API로 제공.

- **EXAONE Vision (LG AI Research)**: EXAONE 3.5/4.0 라인업의 멀티모달 확장. 산업·과학 도메인 강함.

- **HCX-DASH (NAVER)**: 작은 사이즈의 멀티모달, 한국어 OCR + VQA에 강점.

- **Kanana / Kanana-V (Kakao)**: 카카오 자체 LLM의 비전 확장.

- **KoLLaVA, KORani, MAUM Vision**: 학계·중소기업 발 한국어 VLM.

- **COYO-700M (Kakao Brain)**: 데이터셋 기여.

- **Upstage Solar Vision**: Solar Pro의 비전 확장. 문서·표 추출에 강점, 영어·한국어 이중 강함.

한국어 OCR·문서 이해는 여전히 자체 모델이 강하다. 일반 멀티모달 추론은 InternVL3·Qwen2.5-VL의 한국어 성능이 충분히 합리적이라 "오픈 모델 + 한국어 SFT" 조합도 흔하다.

일본 VLM 씬 — Stockmark · Sakana AI · ABEJA · Preferred Networks

일본도 자체 VLM 생태계가 단단하다.

- **Stockmark-VL / Stockmark-100B-VL**: 일본어 비즈니스 문서·뉴스 분석에 특화.

- **Sakana AI EvoVLM-JP**: 진화적 모델 머징(model merging)으로 일본어 VLM을 효율적으로 만든 사례. arXiv 2403.13187.

- **ABEJA LUCAS Vision**: 일본어 산업 도메인.

- **Preferred Networks PLaMo-Vision**: PLaMo 라인업의 비전 확장. 의료·로보틱스 강세.

- **NEC cotomi Vision**: 일본 기업용 문서 처리.

- **CyberAgent CALM Vision**: 광고·미디어 응용.

- **LINE/Yahoo LY Corporation Vision**: 검색·콘텐츠 모더레이션 인하우스.

일본어 OCR·문서·표 이해는 한국과 마찬가지로 자체 모델이 강하다. 한국·일본은 둘 다 "글로벌 오픈 모델 + 자국어 미세조정 + 자국 도메인 데이터" 전략이 표준이다.

조합 패턴 — 실제 프로덕션은 어떻게 묶는가

2026년 5월 시점 실무에서 자주 보이는 VLM 스택 조합 7가지:

1. **이커머스 검색**: SigLIP 2 + ChromaDB/Qdrant + GPT-4o 리랭킹. 이미지 유사도 검색의 표준.

2. **금융 문서 자동 추출**: Claude 4.7 Vision(PDF 네이티브) + 자체 검증 규칙 + Surya OCR fallback.

3. **이커머스 상품 등록**: InternVL3-38B(자체 호스팅) + DINOv2 임베딩으로 중복 상품 탐지.

4. **콘텐츠 모더레이션**: SigLIP 안전 분류기 + InternVL3 또는 Qwen2.5-VL로 정밀 판정.

5. **고객 지원 이미지 트리아지**: MiniCPM-V 3.0 온프레미스 + GPT-4o 폴백.

6. **에이전트(컴퓨터 사용)**: Qwen2.5-VL-32B(또는 Claude 4.7) + SAM 2 + 자체 액션 모델.

7. **의료/산업 검사**: DINOv2 frozen 백본 + 도메인 헤드. 텍스트 정렬 불필요한 영역의 표준.

여러 VLM을 라우팅(LiteLLM, Portkey, OpenRouter)으로 묶고, 비싼 폐쇄형은 어려운 케이스에만 폴백시키는 패턴이 표준이 됐다.

안전 · 거버넌스 · EU AI Act 영향

VLM은 LLM보다 위험이 더 분화돼 있다. 2026년 5월 시점 주요 이슈:

- **PII 노출**: 이미지 OCR로 신분증·신용카드·여권이 자동 읽힌다. 인입 단계에서 PII 마스킹.

- **얼굴 인식**: EU AI Act는 공공장소 실시간 얼굴 인식을 사실상 금지. 자국 법규 확인 필수.

- **NSFW · 폭력**: 안전 분류기를 입력·출력 양쪽에 박는다.

- **딥페이크 탐지**: 모델이 생성한 이미지인지 탐지하는 별도 분류기(WeVerify, Hive, Reality Defender).

- **헬스케어 사용**: FDA·PMDA·MFDS는 의료용 AI에 별도 규제. VLM은 보조 도구로 분류되는 경우가 많지만 케이스별 확인 필요.

도입 로드맵 — 0에서 프로덕션까지

VLM을 처음 도입하는 팀을 위한 6주 로드맵:

- **1주차 — 유스케이스 정의**: 단일 이미지 분류인가, 문서 추출인가, 에이전트 액션인가, RAG인가. 평가 셋 200~500장 수집.

- **2주차 — 폐쇄형 베이스라인**: GPT-4o, Claude 4.7, Gemini 2.5로 평가. 비용·지연·정확도 측정.

- **3주차 — 오픈 모델 평가**: InternVL3, Qwen2.5-VL, MiniCPM-V를 같은 평가 셋에 돌린다. vLLM으로 셀프호스팅 비용 비교.

- **4주차 — 도메인 적응**: SFT(LoRA)로 자체 도메인 데이터 1k~10k 샘플 학습. 성능이 폐쇄형에 근접하면 셀프호스팅 결정.

- **5주차 — 인프라**: vLLM/SGLang + 모니터링(W&B Weave, Langfuse, Arize Phoenix) + 캐싱(Redis) + 안전 필터.

- **6주차 — 점진적 출시**: 카나리 5% → 25% → 100%. 입력 이미지 분포 드리프트 모니터링.

핵심 함정: "MMMU 점수만 보고 모델 선택", "안전 필터 없이 인입", "PDF를 한 번에 통째로 보내 토큰 폭발", "이미지 캐싱 없이 같은 사진 반복 호출".

마치며 — 2026년 5월, VLM은 "기본 인프라"가 됐다

2024년에는 "GPT-4V를 쓰자"가 답이었다. 2026년 5월에는 답이 갈라진다.

- **단일 이미지 추론**: 오픈 모델로 충분. InternVL3·Qwen2.5-VL이 기본.

- **PDF·복수 이미지·일관성**: Claude 4.7 Vision이 여전히 우위.

- **OCR·문서 추출**: 전용 모델(GOT-OCR 2.0, Mistral OCR, Surya)이 더 정확하고 싸다.

- **에이전트·UI 자동화**: Qwen2.5-VL 32B+ 또는 Claude Computer Use.

- **온디바이스**: MiniCPM-V, Phi-3.5-Vision, Apple Intelligence Vision.

- **비전 백본(텍스트 없음)**: DINOv2/v3. CLIP은 검색에만.

VLM은 "별도 통합 작업이 필요한 신기술"에서 "텍스트 LLM처럼 그냥 부르면 되는 기본 인프라"로 넘어왔다. 다음 12개월의 차별화 포인트는 모델 그 자체가 아니라 **데이터 큐레이션 · 평가 셋 · 도메인 SFT · 안전 · 비용 통제**에서 나올 것이다.

References

- CLIP — Learning Transferable Visual Models From Natural Language Supervision: arxiv.org/abs/2103.00020

- SigLIP — Sigmoid Loss for Language Image Pre-Training: arxiv.org/abs/2303.15343

- LLaVA — Visual Instruction Tuning: arxiv.org/abs/2304.08485

- LLaVA-1.5 — Improved Baselines with Visual Instruction Tuning: arxiv.org/abs/2310.03744

- Qwen-VL: arxiv.org/abs/2308.12966

- Qwen2-VL: arxiv.org/abs/2409.12191

- InternVL: arxiv.org/abs/2312.14238

- DINOv2: arxiv.org/abs/2304.07193

- Segment Anything: arxiv.org/abs/2304.02643

- SAM 2: arxiv.org/abs/2408.00714

- Florence-2: arxiv.org/abs/2311.06242

- GOT-OCR 2.0: arxiv.org/abs/2409.01704

- Nougat: arxiv.org/abs/2308.13418

- Donut: arxiv.org/abs/2111.15664

- Video-LLaVA: arxiv.org/abs/2311.10122

- Kosmos-2: arxiv.org/abs/2306.14824

- Sakana AI Evolutionary Optimization: arxiv.org/abs/2403.13187

- LLaVA GitHub: github.com/haotian-liu/LLaVA

- InternVL GitHub: github.com/OpenGVLab/InternVL

- Qwen2.5-VL HuggingFace: huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

- vLLM Multimodal Docs: docs.vllm.ai/en/latest/models/supported_models.html

- SGLang: github.com/sgl-project/sglang

- MMMU Leaderboard: mmmu-benchmark.github.io

- MathVista: mathvista.github.io