- Published on
2026년 비전 모델 개발은 더 이상 ResNet 한 줄 가져다 학습하는 시대가 아니다. CNN, ViT, DETR, SAM 2, 그리고 LLaVA·Qwen-VL·Gemini Vision·Claude Vision 같은 VLM 까지 — 같은 사진 한 장에 대해서도 어떤 모델을 쓰느냐로 비용이 100배, 정확도가 30%p 갈린다. 이 글은 분류·탐지·세그멘테이션·OCR·캡셔닝·VQA 라는 6가지 태스크에 대해, 어떤 아키텍처를 어떤 데이터 규모로 어떤 도구체인으로 어떻게 학습/파인튜닝/프롬프팅할지 의사결정 트리로 정리한다. timm, Hugging Face transformers, Ultralytics YOLO, OpenMMLab, LoRA/QLoRA, Label Studio, CVAT, Roboflow, ONNX, TensorRT, Core ML, TFLite 까지 실전 도구체인 포함.