Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

로봇 학습의 오랜 병목은 데이터입니다. 로봇이 스스로 시행착오로 배우려면 실제 하드웨어를 오래 굴려야 하고, 사람이 일일이 조종해 시연을 모으는 것도 느리고 비쌉니다. 언어 모델이 인터넷의 방대한 텍스트로 도약한 것을 본 로봇 연구자들은 자연스러운 질문을 던집니다. "인터넷에 넘치는 사람 영상에서 로봇이 배울 수는 없을까?"

유튜브에는 요리하고, 조립하고, 물건을 정리하는 사람의 영상이 무한에 가깝게 쌓여 있습니다. 그 안에는 "손이 어떻게 물건에 접근하고, 어떤 순서로 조작하며, 무엇을 목표로 하는가"라는 풍부한 지식이 담겨 있습니다. 문제는 사람의 몸과 로봇의 몸이 다르다는 점, 그리고 영상에는 로봇이 따라 할 행동 명령(action)이 명시되어 있지 않다는 점입니다.

이 글은 사람 영상으로부터 로봇이 배우는 방법을 살펴봅니다. 무엇을 배울 수 있는지(어포던스·궤적·목표), 무엇이 어려운지(도메인 갭), 어떻게 극복하는지(표현학습·사전학습·모방), 그리고 로봇 데이터와 어떻게 결합하는지까지 다룹니다. 실존하는 접근과 그 한계를 정직하게 짚겠습니다.

왜 지금 이 질문인가

이 아이디어 자체는 새롭지 않습니다. "관찰로부터의 학습"은 오래된 로봇 연구 주제입니다. 그런데 최근 들어 이 질문이 특히 뜨거워진 데는 이유가 있습니다.

첫째, 언어 모델의 성공이 강력한 유비를 제공했습니다. 언어 모델은 라벨 없는 방대한 텍스트를 사전학습해 세상 지식을 흡수한 뒤, 적은 데이터로 특정 과제에 적응했습니다. 로봇도 같은 길을 갈 수 있다면, 라벨 없는 사람 영상이 그 "방대한 사전학습 데이터"가 될 수 있습니다.

언어 모델과의 유비

언어 모델: 방대한 텍스트(라벨X) ──▶ 사전학습 ──▶ 소량 과제로 적응

│

로봇: 방대한 사람 영상(라벨X) ──▶ 사전학습 ──▶ 소량 로봇 데이터로 적응

│

같은 발상: "넓게 배우고, 좁게 맞춘다"

둘째, 도구가 성숙했습니다. 손 자세 추정, 물체 검출, 영상 이해 모델이 충분히 좋아져, 영상에서 유용한 신호를 뽑는 일이 현실적이 되었습니다. 셋째, 로봇 데이터의 병목이 더 절실해졌습니다. VLA 같은 큰 모델을 학습시키려면 방대한 데이터가 필요한데, 로봇 시연만으로는 그 규모를 채우기 어렵습니다. 그래서 값싼 사람 영상에 대한 기대가 커진 것입니다.

이 세 흐름이 겹치면서, "사람 영상에서 배우는 로봇"은 오래된 꿈에서 활발한 현재 연구로 옮겨왔습니다.

사람 영상에서 무엇을 배울 수 있나

사람 영상은 행동 명령이 없지만, 그럼에도 여러 층위의 유용한 신호를 담고 있습니다.

사람 영상 한 장면에서 뽑아낼 수 있는 신호

┌──────────────────────────────────────┐

│ 어포던스: 이 컵의 손잡이는 "쥘 수 있다" │

│ 궤적: 손이 A→B로 이렇게 움직였다 │

│ 목표: 결국 물을 컵에 따르는 것이었다 │

│ 순서: 뚜껑 열기 → 붓기 → 닫기의 단계 │

│ 접촉: 언제 손이 물체에 닿고 떨어지는가 │

└──────────────────────────────────────┘

- 어포던스(affordance): 물체가 어떤 상호작용을 허락하는지에 대한 지식입니다. 손잡이는 쥐고, 버튼은 누르고, 서랍은 당깁니다. 사람 영상을 보면 어떤 부위가 어떻게 다뤄지는지 배울 수 있습니다.

- 궤적(trajectory): 손이나 물체가 공간에서 그리는 경로입니다. 로봇의 관절 각도와 직접 대응하지는 않지만, "무엇이 어디로 움직였는가"라는 목표 수준의 정보는 옮길 수 있습니다.

- 목표(goal)와 순서: 영상의 최종 상태와 중간 단계는, 로봇에게 "무엇을 이루어야 하는가"를 알려줍니다.

핵심은 저수준 명령(어느 관절을 얼마나 움직여라)이 아니라, 고수준 지식(무엇을, 어떤 순서로, 어디로)을 옮기는 데 있습니다.

신호를 실제로 어떻게 뽑나

이런 신호를 영상에서 추출하는 데는 이미 성숙한 컴퓨터 비전 도구들이 쓰입니다. 손의 자세는 손 관절 추정(hand pose estimation)으로, 물체의 위치와 종류는 검출·분할로, 손과 물체의 접촉은 이 둘을 결합해 추론합니다. 이렇게 뽑아낸 신호가 로봇 학습의 재료가 됩니다.

사람 영상 → 신호 추출 파이프라인

원본 프레임 ──▶ 손 관절 추정 ──▶ 손 궤적 (시간에 따른 3D 손 위치)

├─▶ 물체 검출/분할 ──▶ 무엇을, 어디서 다루나

└─▶ 접촉 추론 ──▶ 언제 잡고 놓나(파지 이벤트)

결과: "손이 언제 어떤 물체를 어떻게 다뤘는가"의 구조화된 기록

여기서 나온 손 궤적은 로봇 그리퍼의 궤적으로 곧바로 매핑되지는 않지만, "어디를 향해 접근하고, 어디서 파지가 일어나는가"라는 골격을 제공합니다. 이 골격에 로봇 고유의 저수준 제어를 채워 넣는 것이 이후 단계의 일입니다.

어포던스를 지도로 만들기

어포던스는 종종 히트맵 형태로 학습됩니다. 이미지 위에 "여기를 잡을 수 있다"는 확률을 색으로 칠한 지도입니다. 사람이 실제로 물체의 어느 부위를 잡는지 영상에서 관찰하면, 그 부위에 높은 어포던스 점수를 부여해 학습할 수 있습니다.

어포던스 히트맵 (개념)

컵 이미지 어포던스 지도

┌────────┐ ┌────────┐

│ ▢▢ │ │ .. │ . = 낮음(잡기 어려움)

│ ▢▢█ │ ──▶ │ ..## │ # = 높음(손잡이, 잡기 좋음)

│ 손잡이 │ │ ### │

└────────┘ └────────┘

로봇은 # 영역을 파지 후보로 우선 고려

이 어포던스 지도는 로봇이 새로운 물체를 만났을 때 "어디를 잡을지" 결정하는 사전 지식으로 쓰입니다. 사람이 무수히 많은 물체를 다루는 영상에서 학습하면, 로봇은 처음 보는 물체에 대해서도 그럴듯한 파지 지점을 추측할 수 있습니다.

도메인 갭 — 가장 큰 벽

사람 영상으로 배우는 일의 핵심 난관은 도메인 갭(domain gap)입니다. 사람과 로봇은 여러 면에서 다릅니다.

사람 시연 로봇 실행

┌──────────────────┐ ┌──────────────────┐

│ 형태: 다섯 손가락 │ 갭 1 │ 형태: 2지 그리퍼 │

│ 시점: 1인칭/3인칭 │ 갭 2 │ 시점: 로봇 카메라 │

│ 속도·리듬: 사람 │ 갭 3 │ 속도: 제어 주기 │

│ 행동표기: 없음 │ 갭 4 │ 행동: 관절 명령 필요│

└──────────────────┘ └──────────────────┘

이 간극들을 어떻게 메우느냐가 연구의 핵심

- 형태 갭(embodiment gap): 사람 손은 다섯 손가락에 관절이 많지만, 로봇 그리퍼는 흔히 두 손가락입니다. 사람의 섬세한 손동작을 그대로 옮길 수 없습니다.

- 시점 갭(viewpoint gap): 영상은 사람의 눈이나 제3자 시점이지만, 로봇은 자기 카메라로 봅니다. 같은 장면도 완전히 다르게 보입니다.

- 행동 갭(action gap): 영상에는 픽셀만 있고, 로봇이 실행할 관절 명령이 없습니다. 이 "행동 레이블의 부재"가 가장 근본적입니다.

이 갭들 때문에 사람 영상을 로봇에 곧바로 흉내 내게 할 수 없습니다. 그래서 연구는 갭을 우회하거나 메우는 여러 전략을 발전시켜 왔습니다.

형태 갭을 다루는 방법들

형태 갭에 대응하는 방식은 크게 세 갈래로 볼 수 있습니다.

형태 갭 대응 전략

1) 손을 로봇 손으로 리타게팅

사람 손 관절 ──▶ 로봇 그리퍼 형상으로 대응

(완벽하지 않지만 파지 지점·접근 방향은 옮겨짐)

2) 손 자체를 무시하고 물체 중심으로

"손"이 아니라 "물체가 어떻게 움직였나"에 집중

──▶ 로봇은 같은 물체 변화를 자기 방식으로 재현

3) 목표 상태만 취함

시연의 최종/중간 상태를 목표로 삼고

──▶ 로봇은 그 목표를 자기 몸으로 도달

특히 물체 중심(object-centric) 관점은 형태 갭을 우아하게 피합니다. "사람 손이 어떻게 움직였나"는 로봇과 다르지만, "컵이 식탁에서 선반으로 옮겨졌다"는 결과는 로봇이든 사람이든 동일하기 때문입니다. 결과에 집중하면 몸의 차이가 덜 중요해집니다.

시점 갭과 도메인 적응

시점 갭에는 도메인 적응(domain adaptation) 기법이 쓰입니다. 사람 시점 영상과 로봇 시점 영상이 "같은 특징 공간"에 놓이도록 표현을 정렬하는 것입니다. 그러면 사람 영상으로 배운 것이 로봇 시점에서도 통합니다.

시점 정렬(개념)

사람 시점 특징 ─┐

├──▶ 공유 특징 공간 ◀── 시점 차이를 지운 표현

로봇 시점 특징 ─┘ │

▼

여기서 배운 지식은 양쪽에 통용

이 정렬이 잘 되면, 3인칭으로 촬영된 요리 영상에서 배운 지식이 로봇의 1인칭 카메라에서도 유용해집니다. 다만 시점 차이가 극단적이면(예: 위에서 내려다본 영상 vs 손끝 카메라) 정렬이 어려워지고, 성능이 떨어집니다.

표현학습과 사전학습

가장 널리 쓰이는 전략은 사람 영상으로 좋은 시각 표현(representation)을 먼저 배우는 것입니다. 행동을 직접 흉내 내는 대신, 영상을 이해하는 능력을 사전학습(pre-training)해 두고, 그 위에 적은 로봇 데이터로 실제 조작을 미세조정(fine-tuning)합니다.

2단계 학습 전략

1단계: 대규모 사람 영상으로 표현 사전학습

┌────────────────────────────┐

│ 웹 비디오 ──▶ 인코더 학습 │ "세상 이해"

│ (물체·손·움직임의 특징) │

└────────────────────────────┘

│ 학습된 표현 전이

▼

2단계: 소량 로봇 데이터로 미세조정

┌────────────────────────────┐

│ 로봇 시연 ──▶ 정책 학습 │ "실제 조작"

│ (관절 명령까지 연결) │

└────────────────────────────┘

이 접근의 장점은 명확합니다. 비싼 로봇 데이터는 적게 쓰고, 값싼 사람 영상은 많이 씁니다. 사전학습된 표현이 "물체가 무엇이고 손이 어떻게 움직이는가"를 이미 알고 있으므로, 실제 조작 학습은 훨씬 빨라집니다. 언어 모델의 사전학습-미세조정 패러다임을 로봇에 옮긴 셈입니다.

관련해서 사람 영상에서 시각-언어 특징을 학습해 로봇 정책의 백본으로 쓰는 연구들이 있습니다. 다만 어떤 표현이 조작에 정말 유용한지는 여전히 활발히 탐구되는 문제이며, 만능 해법은 없습니다.

원샷/퓨샷 모방

또 다른 흥미로운 방향은 원샷(one-shot) 또는 퓨샷(few-shot) 모방입니다. 사람이 새로운 작업을 한 번(혹은 몇 번) 보여주면, 로봇이 그것을 곧바로 따라 하는 것을 목표로 합니다.

원샷 모방의 이상

사람이 1회 시연 ──▶ 로봇이 즉시 재현

┌──────────┐ ┌──────────┐

│ "이렇게 │ │ 로봇이 유사│

│ 접어요" │ ─────▶ │ 작업 수행 │

└──────────┘ └──────────┘

(사전에 다양한 작업으로 "배우는 법"을 학습해 둠)

이것이 가능하려면, 로봇이 미리 수많은 작업에 걸쳐 "시연을 보고 따라 하는 법 자체"를 배워 두어야 합니다(메타 학습의 발상). 그러면 새 작업의 시연 하나만으로도 일반화가 가능해집니다. 현실에서는 아직 제한된 작업 범위에서만 잘 동작하며, 형태·시점 갭이 클수록 성능이 떨어집니다. 그럼에도 "한 번 보여주면 따라 한다"는 방향은 로봇 활용을 크게 넓힐 잠재력이 있어 꾸준히 연구됩니다.

목표 조건 학습 — 사람 영상을 목표로 쓰기

또 다른 유용한 관점은 사람 영상을 목표(goal)의 원천으로 보는 것입니다. 로봇에게 "이런 상태를 만들어라"라고 목표를 주면, 로봇은 스스로 그 목표에 도달하는 방법을 찾습니다. 사람 영상은 바로 이 "원하는 상태"의 풍부한 예시를 제공합니다.

목표 조건 정책(goal-conditioned policy)

사람 영상의 목표 프레임 ──▶ "이 상태를 만들어라"

│

▼

현재 상태 + 목표 상태 ──▶ 정책 ──▶ 행동

│

▼

목표에 가까워졌나? ── 아니오 ──▶ 반복

└─ 예 ──▶ 완료

이 방식의 장점은 행동 레이블이 없어도 된다는 점입니다. 사람 영상에서 "어떤 명령을 내렸는가"는 몰라도, "어떤 상태를 원했는가(목표)"는 프레임에서 읽어낼 수 있기 때문입니다. 로봇은 그 목표를 자기 몸으로 달성하는 법을 로봇 데이터나 시행착오로 따로 배웁니다.

사람 영상을 보상 신호로

한 걸음 더 나아가, 사람 영상을 강화학습의 보상(reward) 정의에 쓰는 접근도 있습니다. 로봇의 현재 상태가 사람 시연의 진행과 얼마나 닮았는지를 측정해, 닮을수록 높은 보상을 주는 식입니다. 그러면 로봇은 "사람이 한 것처럼 되어 가는" 방향으로 학습합니다.

사람 영상 기반 보상(개념)

사람 시연 진행: [시작]──[중간]──[완료]

│ │ │

로봇 상태와 비교: 유사도 측정

│

▼

보상 = 사람 진행과의 유사도 ──▶ 높을수록 "잘 따라가는 중"

이 접근은 세밀한 보상 함수를 사람이 일일이 설계하지 않아도 된다는 매력이 있습니다. 다만 유사도를 무엇으로 측정하느냐가 까다롭고, 잘못 설계하면 로봇이 "겉보기만 비슷한" 편법을 찾을 위험이 있습니다. 이는 앞선 안전·정렬 글에서 다룬 명세 게이밍과 맞닿아 있습니다.

웹 비디오 스케일업

언어와 이미지 모델이 데이터 규모로 도약했듯, 로봇도 웹 비디오 스케일업의 꿈을 좇습니다. 인터넷의 방대한 사람 활동 영상을 학습에 끌어들이면, 좁은 로봇 데이터셋을 넘어 폭넓은 세상 지식을 얻을 수 있으리라는 기대입니다.

데이터 규모 비교(개념적)

로봇 시연 ▓▓ 작지만 정확(행동 레이블 있음)

사람 시연 영상 ▓▓▓▓▓▓ 중간(직접 조작, 레이블 없음)

웹 비디오 전체 ▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 방대(다양, 노이즈 많음)

└── 규모는 크지만 로봇에 직접 쓰기 어려운 만큼 정제·연결이 필요

다만 규모가 곧 유용성은 아닙니다. 웹 비디오는 다양하지만 노이즈가 많고, 로봇 작업과 무관한 내용이 대부분입니다. 관련 있는 조작 장면을 골라내고, 유용한 신호(손 자세, 물체 상호작용)를 추출하며, 도메인 갭을 넘어 전이하는 일이 모두 난제입니다. 그래서 실제로는 웹 비디오만으로 로봇을 학습시키기보다, 웹 비디오로 넓은 표현을 얻고 로봇 데이터로 정확한 행동을 잇는 결합 방식이 주류입니다.

로봇 데이터와의 결합

가장 실용적인 흐름은 사람 영상과 로봇 데이터를 함께 쓰는 공동 학습(co-training)입니다. 넓지만 부정확한 사람 데이터와, 좁지만 정확한 로봇 데이터의 장점을 합칩니다.

결합 학습의 구조

웹/사람 영상 ─────┐

(넓은 세상 지식) │

▼

┌───────────┐

│ 공동 학습 │──▶ 일반화 잘 되는 로봇 정책

└───────────┘

▲

로봇 시연 ────────┘

(정확한 행동 명령)

최근의 비전-언어-행동(VLA) 모델 흐름에서 이 결합이 두드러집니다. 웹의 시각-언어 데이터로 사전학습된 모델에 로봇 궤적을 함께 학습시키는 공동 미세조정(co-fine-tuning)은, 넓은 세상 이해와 구체적 조작 능력을 동시에 얻으려는 시도입니다. 예컨대 웹 규모 시각-언어 지식을 로봇 행동으로 연결한 RT-2, 여러 로봇의 데이터를 교차로 모은 Open X-Embodiment, 오픈 VLA 모델인 OpenVLA 등이 이런 방향의 대표적 사례입니다. 이들은 로봇마다 처음부터 배우는 대신, 방대한 사전 지식을 공유하려는 큰 흐름을 보여 줍니다. (구체적 성능과 기능은 버전·설정에 따라 다를 수 있습니다.)

데이터의 층위

사람 영상 학습에서 쓰이는 데이터는 성격에 따라 여러 층위로 나뉩니다. 각 층위는 규모와 정확성을 다르게 맞바꿉니다.

| --- | --- | --- | --- |

| 웹 시각-언어 | 매우 큼 | 없음 | 넓은 세상·언어 이해 사전학습 |

이 표의 핵심은 "위로 갈수록 많지만 부정확하고, 아래로 갈수록 적지만 정확하다"는 점입니다. 좋은 시스템은 이 층위들을 사다리처럼 밟아 올라갑니다. 넓은 층에서 세상을 이해하고, 좁은 층에서 정확한 행동을 익힙니다.

커리큘럼처럼 쌓기

이 층위들을 학습 순서로 배열하면 일종의 커리큘럼이 됩니다.

학습 커리큘럼 (넓고 값싼 것부터 → 좁고 비싼 것으로)

[웹 시각-언어] ──▶ [1인칭 영상] ──▶ [사람 시연] ──▶ [로봇 시연]

세상·언어 손·물체 어포던스 정확한 행동

이해 상호작용 ·궤적

│ │

└────── 각 단계가 다음 단계의 토대가 됨 ──────────┘

이 순서에는 직관적 이유가 있습니다. 세상과 물체를 전혀 모르는 상태에서 로봇 데이터로 곧바로 배우면, 적은 데이터로 너무 많은 것을 배워야 해 비효율적입니다. 반면 넓은 데이터로 기초를 다진 뒤라면, 로봇 데이터는 마지막 "행동 연결"만 담당하면 되므로 훨씬 적게 써도 됩니다.

사례로 보는 감각

개념을 구체화하기 위해, 사람 영상 신호가 로봇 학습에 흘러드는 전형적인 파이프라인을 정리하면 다음과 같습니다.

전형적 파이프라인

1) 수집: 사람 조작 영상 대량 확보

2) 추출: 손 자세·물체·접촉·궤적 신호 뽑기

3) 표현: 이 신호로 시각 인코더 사전학습

4) 전이: 로봇 카메라 시점으로 표현 적응

5) 결합: 소량 로봇 시연으로 행동까지 학습

6) 배치: 실환경에서 검증하며 보정

이 흐름에서 각 단계가 도메인 갭을 조금씩 메웁니다. 어느 단계도 완벽하지 않으므로, 실제 시스템은 여러 단계를 겹쳐 서로의 약점을 보완합니다.

효과를 어떻게 평가하나

"사람 영상이 정말 도움이 되었는가"를 증명하려면 공정한 비교가 필요합니다. 가장 흔한 방법은 통제된 실험입니다. 사람 영상을 쓴 로봇과 쓰지 않은 로봇을 같은 작업에서 겨루게 해, 성공률·학습 효율·일반화를 비교합니다.

공정한 비교 설계(ablation)

조건 A: 로봇 데이터만으로 학습

조건 B: 사람 영상 사전학습 + 로봇 데이터

│

▼

같은 작업·같은 로봇 데이터량으로 평가

│

▼

측정: 성공률 / 필요 데이터량 / 새 물체 일반화

B가 A보다 나으면 → 사람 영상이 기여했다는 증거

측정 지표로는 몇 가지가 함께 쓰입니다. 작업 성공률은 가장 직접적이고, 데이터 효율(같은 성능에 필요한 로봇 시연 수)은 사람 영상의 실용적 가치를 보여 주며, 일반화는 훈련에 없던 물체·배치에서의 성공을 봅니다. 특히 일반화 지표가 중요한데, 사람 영상의 진짜 약속이 "넓은 세상 지식"이기 때문입니다.

주의할 함정도 있습니다. 잘 고른 몇 가지 데모 영상만으로 성공을 보이면, 그것이 넓은 능력인지 좁은 과적합인지 알기 어렵습니다. 그래서 평가는 로봇이 처음 보는 조건에서, 여러 번 반복해, 실패까지 포함해 정직하게 보고되어야 합니다.

실무 워크플로에서의 고려

사람 영상 학습을 실제로 돌릴 때 부딪히는 현실적 고려들이 있습니다.

- 계산 자원: 대규모 영상 사전학습은 무겁습니다. 많은 팀에게는 공개된 사전학습 모델을 가져다 쓰는 편이 현실적입니다.

- 로봇 데이터와의 균형: 사람 영상을 너무 많이 섞으면 로봇의 정확한 행동이 흐려지고, 너무 적으면 넓은 지식을 못 얻습니다. 비율 조정이 미묘합니다.

- 안전 검증: 사람 영상으로 배운 행동도 앞선 안전 글에서 다룬 안전층을 반드시 거쳐야 합니다. "사람이 하던 대로"가 항상 안전한 것은 아닙니다.

실무 파이프라인의 현실

이상: 웹 영상 ──▶ 마법 ──▶ 유능한 로봇

현실: 웹 영상 ──▶ [정제] ──▶ [사전학습 or 기존 모델]

──▶ [로봇 데이터 결합] ──▶ [안전층] ──▶ [현장 검증]

│

각 단계마다 사람의 판단과 비용이 든다

한계와 열린 질문

- 형태 갭은 근본적입니다. 사람 손의 섬세함을 두 손가락 그리퍼로 옮기는 데는 물리적 한계가 있습니다.

- 행동 레이블의 부재는 여전히 큰 벽입니다. 영상에서 정확한 로봇 명령을 유추하는 일은 본질적으로 모호합니다.

- 전이의 신뢰성이 문제입니다. 표현이 얼마나 잘 옮겨지는지는 작업과 환경에 크게 좌우됩니다.

- 평가가 어렵습니다. "사람 영상이 정말 도움이 되었는가"를 공정하게 측정하는 것 자체가 연구 과제입니다.

- 과대 해석 경계. 인상적인 데모가 곧 범용 능력을 뜻하지는 않습니다. 좁은 조건에서의 성공을 일반화로 오해하지 않아야 합니다.

언제 빛나고 언제 흐려지나

사람 영상 학습은 만능이 아니라, 어울리는 문제가 있습니다. 어떤 경우에 효과가 크고 어떤 경우에 어려운지를 아는 것이 실용의 핵심입니다.

사람 영상 학습의 적합도

잘 맞는 문제 어려운 문제

┌──────────────────┐ ┌──────────────────┐

│ 사람이 흔히 하는 일 │ │ 로봇 특유의 정밀 작업│

│ (요리·정리·조작) │ │ (사람이 안 하는 것) │

│ 물체 중심 목표 │ │ 미세한 힘 제어 │

│ 넓은 물체 일반화 │ │ 사람 손 특유의 기교 │

└──────────────────┘ └──────────────────┘

사람이 일상에서 흔히 하는 일, 그리고 물체의 상태 변화로 목표를 표현할 수 있는 일에서는 사람 영상이 큰 힘을 발휘합니다. 인터넷에 예시가 넘치고, 형태 갭을 물체 중심으로 우회할 수 있기 때문입니다. 반면 사람이 잘 하지 않는 로봇 특유의 작업(정밀 조립의 특정 동작 등)이나, 사람 손의 다섯 손가락이 있어야 가능한 기교에서는 사람 영상의 도움이 제한적입니다.

이 구분은 실무에서 중요합니다. 모든 작업에 사람 영상을 억지로 끼워 넣기보다, 사람 영상이 실제로 유리한 작업을 골라 적용하는 것이 자원을 아끼는 길입니다. 좋은 엔지니어링은 "쓸 수 있다"와 "써야 한다"를 구분합니다.

세 갈래 접근을 한눈에

지금까지 다룬 학습 신호의 종류를 정리하면, 사람 영상을 쓰는 방식은 크게 세 갈래로 나뉩니다.

| 접근 | 사람 영상에서 얻는 것 | 로봇이 채우는 것 | 특징 |

| --- | --- | --- | --- |

세 접근은 배타적이지 않고 자주 섞여 쓰입니다. 표현으로 기초를 다지고, 목표로 방향을 주며, 보상으로 세부를 다듬는 식의 조합이 가능합니다. 어떤 조합이 최선인지는 작업과 가용 데이터에 따라 달라지므로, 정답을 고르기보다 여러 방식을 실험으로 비교하는 태도가 실용적입니다.

마치며

사람 영상에서 배우는 로봇은 매력적인 꿈입니다. 인터넷에 쌓인 인간 활동의 지식을, 값비싼 로봇 데이터의 병목을 넘어 로봇에게 전할 수 있다면, 로봇 학습은 언어 모델이 겪은 것 같은 도약을 이룰지도 모릅니다.

동시에 이 길에는 형태·시점·행동의 근본적 갭이 놓여 있습니다. 현재의 실용적 접근은 사람 영상으로 넓은 표현을 얻고, 로봇 데이터로 정확한 행동을 잇는 결합에 있습니다. VLA 모델의 공동 학습 흐름이 그 대표적 증거입니다. 완성된 해법은 아직 없지만, 방향은 분명합니다. 값싸고 방대한 사람의 지식과, 비싸지만 정확한 로봇의 경험을 어떻게 잘 엮느냐 — 여기에 웹 스케일 로봇 학습의 미래가 달려 있습니다.

이 세 편의 로봇 글을 관통하는 실은 하나입니다. 로봇을 유능하게 만드는 일과, 그 유능함을 우리가 이해하고 신뢰할 수 있게 만드는 일은 별개가 아니라는 것입니다. 세상을 잘 보고(인식), 안전하게 행동하며(안전·정렬), 인간의 방대한 경험에서 배우는(사람 영상 학습) 세 축이 함께 자랄 때, 로봇은 비로소 우리 곁에서 쓸모 있고 믿을 만한 존재가 됩니다. 기술은 빠르게 움직이지만, 이 세 축의 균형을 잃지 않는 것이 오래가는 진보의 조건입니다.

참고 자료

- [RT-2: Vision-Language-Action Models (arXiv: 2307.15818)](https://arxiv.org/abs/2307.15818)

- [Open X-Embodiment (arXiv: 2310.08864)](https://arxiv.org/abs/2310.08864)

- [OpenVLA (arXiv: 2406.09246)](https://arxiv.org/abs/2406.09246)

- [R3M: 로봇용 시각 표현 (arXiv: 2203.12601)](https://arxiv.org/abs/2203.12601)

- [Ego4D: 대규모 1인칭 영상 데이터셋 (arXiv: 2110.07058)](https://arxiv.org/abs/2110.07058)

- [DROID 로봇 데이터셋 (arXiv: 2403.12945)](https://arxiv.org/abs/2403.12945)

- [Physical Intelligence 공식 사이트](https://www.physicalintelligence.company/)

- [ROS(로봇 운영체제) 공식 문서](https://docs.ros.org/)