Published on2026년 6월 27일로봇이 보고 듣고 움직이다 — VLA 모델 RT-2와 OpenVLA 리뷰ai-papersroboticsvlart-2openvlafoundation-modelsmanipulation비전-언어-행동(VLA) 모델은 카메라 영상과 자연어 지시를 받아 로봇의 행동을 직접 출력합니다. RT-2, Open X-Embodiment, OpenVLA를 중심으로 VLA 패러다임의 아이디어, 아키텍처, 액션 토큰화, 강점과 한계를 정리합니다.