Vision-language-model

Published on
2026년 6월 26일
OCR을 넘어서 — OCR-free 문서 이해와 통합 모델
ai-papers ocr-free document-understanding multimodal donut vision-language-model
전통적인 OCR 파이프라인은 검출-인식-레이아웃을 단계로 나누지만 오류가 누적됩니다. Donut류와 VLM 기반의 OCR-free 문서 이해, 고해상도와 표 처리, 통합 모델의 흐름까지 문서 AI의 전환을 정리합니다.
Published on
2026년 6월 26일
Vision LLM 아키텍처 — 이미지가 언어가 되기까지
llm vision-language-model multimodal vit qwen2-vl architecture
비전-언어 모델은 이미지를 비전 인코더로 처리한 뒤 프로젝터를 거쳐 LLM이 이해할 수 있는 토큰으로 바꿉니다. 패치 임베딩부터 임의 해상도 처리까지, 이미지가 언어 토큰이 되는 전 과정을 구조적으로 살펴봅니다.
Published on
2026년 6월 26일
Vision LLM 학습법 — input과 output을 어떻게 가르치나
mlops vision-language-model multimodal training instruction-tuning fine-tuning
비전-언어 모델은 정렬 사전학습부터 인스트럭션 파인튜닝까지 단계적으로 학습됩니다. 비전 인코더 동결 전략, 데이터 구성, 입력 포맷과 출력 형태, 손실 계산까지 무엇을 어떻게 가르치는지 학습 파이프라인 관점에서 정리합니다.

OCR을 넘어서 — OCR-free 문서 이해와 통합 모델