Vit

All Posts

Published on
2026년 6월 26일
Vision LLM 아키텍처 — 이미지가 언어가 되기까지
llm vision-language-model multimodal vit qwen2-vl architecture
비전-언어 모델은 이미지를 비전 인코더로 처리한 뒤 프로젝터를 거쳐 LLM이 이해할 수 있는 토큰으로 바꿉니다. 패치 임베딩부터 임의 해상도 처리까지, 이미지가 언어 토큰이 되는 전 과정을 구조적으로 살펴봅니다.
Published on
2026년 5월 14일
비전 모델 개발·파인튜닝 완전 가이드 2026 — CNN, ViT, DETR, SAM 2, VLM 까지 실전 의사결정 트리
computer-vision vision-model cnn vit detr sam vlm fine-tuning pytorch ai-engineering
2026년 비전 모델 개발은 더 이상 ResNet 한 줄 가져다 학습하는 시대가 아니다. CNN, ViT, DETR, SAM 2, 그리고 LLaVA·Qwen-VL·Gemini Vision·Claude Vision 같은 VLM 까지 — 같은 사진 한 장에 대해서도 어떤 모델을 쓰느냐로 비용이 100배, 정확도가 30%p 갈린다. 이 글은 분류·탐지·세그멘테이션·OCR·캡셔닝·VQA 라는 6가지 태스크에 대해, 어떤 아키텍처를 어떤 데이터 규모로 어떤 도구체인으로 어떻게 학습/파인튜닝/프롬프팅할지 의사결정 트리로 정리한다. timm, Hugging Face transformers, Ultralytics YOLO, OpenMMLab, LoRA/QLoRA, Label Studio, CVAT, Roboflow, ONNX, TensorRT, Core ML, TFLite 까지 실전 도구체인 포함.
Published on
2026년 3월 17일
컴퓨터 비전 완전 정복: CNN부터 ViT, YOLO, Stable Diffusion까지
computer-vision cnn yolo vit stable-diffusion sam 2026-03
ResNet, EfficientNet CNN 아키텍처부터 YOLO 객체 탐지, SAM 세그멘테이션, Vision Transformer, Stable Diffusion 생성 모델까지 컴퓨터 비전 완전 정복 가이드입니다.
Published on
2026년 3월 1일
Vision Transformer(ViT) 논문 완벽 분석: 이미지 한 장은 16x16 단어의 가치가 있다
vit vision-transformer computer-vision transformer image-classification patch-embedding ai-papers deep-learning self-attention
Google의 ViT 논문을 심층 분석한다. 이미지를 패치 시퀀스로 변환하는 혁신적 접근, Patch Embedding과 Position Embedding의 원리, CNN 대비 성능과 데이터 효율성 트레이드오프, 그리고 DeiT, Swin Transformer, BEiT 등 후속 연구까지 총정리한다.

Vit

vit (4)

Vision LLM 아키텍처 — 이미지가 언어가 되기까지

비전 모델 개발·파인튜닝 완전 가이드 2026 — CNN, ViT, DETR, SAM 2, VLM 까지 실전 의사결정 트리

컴퓨터 비전 완전 정복: CNN부터 ViT, YOLO, Stable Diffusion까지

Vision Transformer(ViT) 논문 완벽 분석: 이미지 한 장은 16x16 단어의 가치가 있다