- Published on
2026년 5월 기준 비전-언어 모델(VLM)의 모든 것을 한 글에 담는다. CLIP 계열(SigLIP, EVA-CLIP)부터 오픈 VLM(LLaVA-NeXT, InternVL3, Qwen2.5-VL, Pixtral, Molmo, Idefics3, MiniCPM-V), 폐쇄형(GPT-4o, Claude 4.7, Gemini 2.5), 비전 파운데이션(DINOv2/v3, SAM 2, Florence-2), 학습 레시피, 평가(MMMU, MathVista, ChartQA, DocVQA), OCR-centric VLM, 비디오 VLM, vLLM/SGLang 서빙, 그리고 한국·일본 VLM 씬까지 깊이 정리한다.