- Published on
2026년의 컴퓨터 비전 스택은 더 이상 "픽셀을 만지는 일"이 아니다. OpenCV 4.10이 ONNX 추론을 기본기로 받아들이고, MediaPipe Studio가 모바일 실시간 파이프라인을 한 줄로 줄이고, YOLO v11이 Ultralytics에서 NAS·세그멘테이션·자세 추정까지 한 모델에 묶고, SAM 2가 비디오 마스크를 실시간으로 추적하고, Grounding DINO 1.6과 Florence-2가 "텍스트로 박스를 그리는" 오픈-보캐브 검출을 표준으로 만들었다. 이 글은 OpenCV·MediaPipe·Detectron3·YOLO 계열·MMDetection·SAM 2·Grounding DINO·Florence-2·YOLO-World·VLM(GPT-4o·Claude 3.5·Gemini 2.0·Qwen2-VL·InternVL 2.5)·3D 비전(DUSt3R·MASt3R·VGGT)·Depth Anything v3·DINOv3·임베디드 추론(ONNX Runtime·TensorRT·OpenVINO·CoreML)까지 2026년 컴퓨터 비전 스택 전체를 한 호흡으로 정리한다.