Published on2026년 6월 26일Vision LLM 아키텍처 — 이미지가 언어가 되기까지llmvision-language-modelmultimodalvitqwen2-vlarchitecture비전-언어 모델은 이미지를 비전 인코더로 처리한 뒤 프로젝터를 거쳐 LLM이 이해할 수 있는 토큰으로 바꿉니다. 패치 임베딩부터 임의 해상도 처리까지, 이미지가 언어 토큰이 되는 전 과정을 구조적으로 살펴봅니다.