Donut

Published on
2026년 6월 26일
OCR을 넘어서 — OCR-free 문서 이해와 통합 모델
ai-papers ocr-free document-understanding multimodal donut vision-language-model
전통적인 OCR 파이프라인은 검출-인식-레이아웃을 단계로 나누지만 오류가 누적됩니다. Donut류와 VLM 기반의 OCR-free 문서 이해, 고해상도와 표 처리, 통합 모델의 흐름까지 문서 AI의 전환을 정리합니다.
Published on
2026년 5월 15일
문서 AI / OCR 2026 — Mistral OCR / Marker / Surya / LlamaParse / Docling / OlmoOCR 심층 가이드
ocr document-ai pdf mistral-ocr marker surya llamaparse docling olmoocr nougat tesseract layoutlm donut rag deep-dive
2026년의 문서 AI는 더 이상 "Tesseract로 텍스트 뽑기"가 아니다. Mistral OCR(2025.3) 같은 전용 API, Marker / Surya / Docling / OlmoOCR 같은 오픈소스 PDF-to-Markdown 엔진, LayoutLMv3·Donut 같은 사전학습 문서 모델, Pixtral 12B·Florence-2 같은 멀티모달 LLM이 모두 같은 문제(스캔된 PDF에서 구조와 의미를 뽑기)에 다른 접근으로 달려든다. 이 글은 13개 후보를 OCR / 레이아웃 / 추출 / RAG-ingestion 네 단계로 정렬하고, 청구서·계약서·논문·RAG 각각에 무엇을 골라야 할지까지 정리한다.

OCR을 넘어서 — OCR-free 문서 이해와 통합 모델