Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

언어 모델은 하나의 큰 모델이 번역, 요약, 코딩, 대화를 모두 해냅니다. 이미지 모델도 하나의 모델이 다양한 이미지를 만들어냅니다. 이렇게 "하나의 큰 모델이 여러 일을 폭넓게 해내는" 파운데이션 모델의 성공은 자연스레 로봇에도 같은 질문을 던지게 만들었습니다.

> 로봇에도 파운데이션 모델이 가능할까? 하나의 정책이 여러 로봇, 여러 작업을 두루 해낼 수 있을까?

전통적인 로봇 학습은 대체로 "하나의 로봇, 하나의 작업"에 특화되어 있었습니다. 컵을 집는 정책, 문을 여는 정책, 서랍을 닫는 정책을 따로따로 만들었고, 로봇이 바뀌면 처음부터 다시 학습해야 했습니다. **로봇 파운데이션 모델**은 이 벽을 넘어, 하나의 **제너럴리스트 정책(generalist policy)**으로 여러 상황을 다루려는 시도입니다.

이 글에서는 제너럴리스트 정책이란 무엇인지, 이를 가능케 하는 대규모 로봇 데이터(특히 Open X-Embodiment), 서로 다른 로봇을 하나로 다루는 크로스 임바디먼트, 시각·언어·행동을 함께 다루는 VLA와의 관계, 그리고 스케일링과 남은 과제를 정리합니다. 이 분야는 매우 빠르게 변하므로, 구체적 성능·구조는 발표와 세대에 따라 다를 수 있음을 미리 밝힙니다.

제너럴리스트 정책이란

**정책(policy)**은 로봇이 관측을 입력받아 행동을 출력하는 함수입니다. 카메라 이미지와 지시를 보고, 다음에 팔을 어디로 움직일지 정하는 것이지요.

기존의 **스페셜리스트 정책**은 특정 작업 하나에 최적화됩니다. 잘 작동하지만 확장성이 떨어집니다. 작업이 100개면 정책도 100개가 필요하고, 로봇 종류가 늘면 그만큼 곱해집니다.

**제너럴리스트 정책**은 다릅니다. 하나의 정책이 여러 작업과(경우에 따라) 여러 로봇을 다룹니다. 무엇을 할지는 주로 **언어 지시**로 전달합니다.

┌──────── 스페셜리스트(작업마다 따로) ────────┐

│ 정책 A: 컵 집기 │

│ 정책 B: 문 열기 │

│ 정책 C: 서랍 닫기 ... 작업 수만큼 증가 │

└────────────────────────────────────────────┘

┌──────── 제너럴리스트(하나로) ───────────────┐

│ │

│ 지시: "빨간 컵을 집어 서랍에 넣어" │

│ 관측: 카메라 이미지 + 로봇 상태 │

│ │ │

│ ▼ │

│ [ 하나의 큰 정책 ] ──▶ 행동(팔·그리퍼 목표) │

│ │

│ 같은 정책이 수십~수백 작업을 처리 시도 │

└─────────────────────────────────────────────┘

핵심 아이디어는 언어 모델과 같습니다. 규모(데이터·모델)를 키우고 다양성을 확보하면, 개별 작업을 일일이 프로그래밍하지 않아도 하나의 정책이 폭넓게 일반화하기를 기대하는 것입니다.

대규모 로봇 데이터: Open X-Embodiment

파운데이션 모델의 연료는 데이터입니다. 언어 모델은 인터넷의 방대한 텍스트를 먹고 자랐습니다. 그런데 로봇 데이터는 인터넷에 널려 있지 않습니다. 실제 로봇이 물건을 집고 옮기는 시연 데이터는 일일이 사람이 모아야 하고, 로봇마다 형식이 제각각입니다.

이 문제에 대한 중요한 시도가 **Open X-Embodiment**(arXiv 2310.08864)입니다. 여러 연구 기관이 각자 가진 로봇 데이터셋을 하나의 공통 형식으로 모아, 수많은 로봇과 작업을 아우르는 대규모 데이터 모음을 만들었습니다.

여러 기관·여러 로봇의 데이터셋

┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐

│ 로봇 A │ │ 로봇 B │ │ 로봇 C │ │ ... │

│ 데이터 │ │ 데이터 │ │ 데이터 │ │ │

└───┬────┘ └───┬────┘ └───┬────┘ └───┬────┘

└──────────┴──────────┴──────────┘

│ 공통 형식으로 통합

▼

┌──────────────────────────────┐

│ Open X-Embodiment 데이터 │

│ (다양한 로봇·작업의 궤적 모음) │

└──────────────┬───────────────┘

│ 이 위에서 하나의 정책 학습

▼

여러 로봇을 다루는 제너럴리스트 정책

이 데이터 위에서 학습한 정책들(예: RT-X 계열)은, 여러 로봇의 데이터를 함께 학습했을 때 개별 로봇만으로 학습한 것보다 더 잘 일반화하는 경향을 보였습니다. 서로 다른 로봇의 경험이 서로에게 도움이 될 수 있다는 신호입니다.

데이터의 세 종류

로봇 정책을 학습하는 데이터는 어디서 오는지에 따라 성격이 크게 다릅니다.

| 출처 | 장점 | 단점 |

| --- | --- | --- |

| 실물 원격 조종 | 진짜 물리, 진짜 접촉 | 수집 비싸고 느림 |

| 시뮬레이션 | 대량·저렴·안전 | sim2real 간극 |

| 사람 영상 | 방대하고 다양 | 로봇 몸과 불일치 |

실무에서는 이 셋을 조합합니다. 시뮬레이션으로 기본기를 대량으로 익히고, 실물 데이터로 현실의 빈틈을 메우며, 사람 영상에서 폭넓은 상식을 얻는 식입니다. 어느 하나만으로는 충분하지 않기 때문에, 데이터를 어떻게 섞을 것인가가 실전의 핵심 설계 문제입니다.

데이터 다양성의 중요성

파운데이션 모델의 일반화는 데이터의 **양**만큼 **다양성**에 좌우됩니다. 같은 물체를 같은 환경에서 백만 번 집는 데이터보다, 다양한 물체를 다양한 환경에서 집는 데이터가 훨씬 폭넓은 정책을 만듭니다.

좁은 데이터 넓은 데이터

┌───────────────┐ ┌───────────────┐

│ 컵 · 밝은 방 │ │ 컵·병·공구·천 │

│ 하나의 로봇 │ │ 여러 로봇·조명 │

└───────────────┘ │ 다양한 배경 │

│ └───────────────┘

▼ │

본 것만 잘함 ▼

(낯선 상황에 약함) 낯선 상황에도 일반화 가능성 ↑

이것이 Open X-Embodiment 같은 노력이 중요한 이유입니다. 한 연구실의 데이터만으로는 다양성이 부족하지만, 여러 기관의 데이터를 모으면 물체·환경·로봇의 다양성이 크게 늘어납니다. 다양성이 곧 일반화의 연료입니다.

왜 함께 학습이 도움이 되는가

직관적으로는 "로봇마다 몸이 다른데 데이터를 섞으면 오히려 헷갈리지 않을까?" 싶습니다. 그러나 실제로는 함께 학습이 도움이 되는 경우가 많습니다. 이유는 서로 다른 로봇이 공유하는 **공통 구조** 때문입니다.

로봇 A의 경험 로봇 B의 경험 로봇 C의 경험

"물건을 집는다" "물건을 집는다" "물건을 집는다"

│ │ │

└────────┬────────┴────────┬────────┘

▼ ▼

공유되는 "집기"의 본질(접근·파지·들기)

│

▼

어느 한 로봇의 데이터가 부족해도

다른 로봇의 경험으로 그 개념을 보강

물체를 집고, 옮기고, 놓는 과제의 본질은 몸이 달라도 상당 부분 공유됩니다. 그래서 한 로봇에서 많이 본 상황을, 다른 로봇이 적게 봤더라도 공유된 개념으로 메울 수 있습니다. 이것이 대규모·다양한 데이터를 함께 학습하는 파운데이션 접근이 개별 학습을 이기는 근본 이유입니다.

크로스 임바디먼트: 서로 다른 몸을 하나로

**크로스 임바디먼트(cross-embodiment)**는 서로 다른 "몸(embodiment)"을 가진 로봇들을 하나의 정책으로 다루는 것을 말합니다. 팔이 하나인 로봇, 두 개인 로봇, 그리퍼가 다른 로봇, 관절 수가 다른 로봇 — 이들은 물리적으로 다르지만, "물건을 집어 옮긴다"는 과제의 본질은 공유합니다.

크로스 임바디먼트의 어려움은 명백합니다.

- **행동 공간이 다르다**: 로봇마다 관절 수와 제어 방식이 달라, 같은 "행동"이라도 표현이 다릅니다.

- **관측이 다르다**: 카메라 위치, 개수, 시야가 제각각입니다.

- **물리가 다르다**: 팔 길이, 힘, 속도가 다릅니다.

이를 다루는 한 가지 방법은 행동과 관측을 가능한 한 **공통의 추상 표현**으로 맞추는 것입니다. 예를 들어 그리퍼 끝의 목표 위치·방향처럼, 여러 로봇에 공통되는 표현으로 정책을 정의하면, 각 로봇의 구체적 관절 명령은 뒤에서 변환할 수 있습니다.

공통 정책 (추상 행동: 그리퍼 목표 위치·자세)

│

┌────┴──────────────┬──────────────────┐

▼ ▼ ▼

로봇 A용 변환 로봇 B용 변환 로봇 C용 변환

(관절 명령) (관절 명령) (관절 명령)

│ │ │

▼ ▼ ▼

실제 로봇 A 실제 로봇 B 실제 로봇 C

이렇게 하면 하나의 정책이 학습한 "개념적 기술"을 여러 로봇이 나눠 쓸 수 있고, 한 로봇에서 얻은 데이터가 다른 로봇의 성능도 끌어올릴 수 있습니다.

VLA와의 관계

로봇 파운데이션 모델 이야기에서 빠질 수 없는 것이 **VLA(Vision-Language-Action)** 모델입니다. VLA는 시각(카메라)과 언어(지시)를 입력받아 행동을 출력하는 정책으로, 언어·비전 모델의 성과를 로봇 행동으로 연결합니다.

- **RT-2** (Google DeepMind, arXiv 2307.15818): 이미 웹 데이터로 학습된 비전-언어 모델(VLM)을 로봇 데이터로 파인튜닝합니다. 행동을 이산화(discretized action)된 토큰으로 다루어, 언어 모델의 출력 방식과 통합했습니다. 웹의 시각·언어 지식이 로봇 행동으로 전이될 수 있다는 점이 인상적입니다.

- **OpenVLA** (arXiv 2406.09246): 약 97만 개의 실제 로봇 시연으로 학습한 7B 규모 오픈 VLA 모델입니다. DINOv2·SigLIP 비전 인코더와 Llama 2 언어 모델을 결합했으며, 오픈 모델이라 연구·재현에 큰 도움을 줍니다.

- **π0** (Physical Intelligence): 플로우 매칭/디퓨전 방식으로 연속적인 고주파 행동을 생성해, 이산화 토큰과는 다른 방향에서 정밀한 조작을 노립니다.

- **GR00T N1** (NVIDIA): 빠른 반응의 System 1(디퓨전 계열)과 계획의 System 2를 결합한 듀얼 구조를 표방합니다.

- **Helix** (Figure AI): 휴머노이드를 겨냥한 일반화 VLA 흐름의 사례로 언급됩니다.

여기서 자주 쓰이는 기법이 **co-fine-tuning**입니다. 웹의 시각-언어 데이터와 로봇 궤적 데이터를 함께 학습해, 웹에서 얻은 폭넓은 상식과 로봇의 구체적 조작 능력을 한 모델 안에 담으려는 것입니다. 또한 **LoRA** 같은 효율적 파인튜닝 기법으로 큰 모델을 적은 비용으로 특정 로봇·작업에 적응시키는 방법도 함께 쓰입니다.

행동을 어떻게 표현하는가

VLA 모델의 핵심 설계 결정 하나는 "행동을 어떤 형태로 출력할 것인가"입니다. 크게 두 갈래가 있습니다.

- **이산화(discretized) 행동**: 행동 공간을 여러 칸으로 쪼개어, 언어 모델이 단어를 고르듯 행동 토큰을 하나씩 고릅니다. RT-2가 대표적입니다. 언어 모델의 구조를 그대로 재사용할 수 있다는 큰 장점이 있습니다.

- **연속(continuous) 행동**: 행동을 실수 값으로 직접 생성합니다. π0처럼 플로우 매칭/디퓨전을 쓰면, 부드럽고 고주파의 정밀한 움직임을 만들 수 있습니다.

이산화 방식(RT-2류)

행동 = [토큰1][토큰2][토큰3]... ← 언어 모델처럼 하나씩 선택

│ 단순·재사용 쉬움, 다만 해상도가 칸 수에 제한됨

연속 방식(π0류)

행동 = 실수 벡터를 디퓨전/플로우로 생성

│ 부드럽고 정밀, 다만 학습·추론이 더 복잡

어느 쪽이 좋은지는 과제에 따라 다릅니다. 거친 픽앤플레이스에는 이산화도 충분하지만, 정밀한 조립이나 유연한 움직임에는 연속 행동이 유리한 경향이 있습니다. 이는 여전히 활발히 탐구되는 설계 공간입니다.

VLA의 내부 구조

전형적인 VLA는 대략 다음 부품으로 이루어집니다.

카메라 이미지 ──▶ [비전 인코더] ──┐

├──▶ [언어·융합 백본] ──▶ [행동 헤드] ──▶ 행동

언어 지시 ──────▶ [텍스트 인코더] ─┘

(로봇 상태) ────────────────────────┘

· 비전 인코더: DINOv2·SigLIP 등 (이미지를 특징으로)

· 백본: Llama 계열 등 대형 언어 모델 (시각·언어 융합·추론)

· 행동 헤드: 이산 토큰 또는 연속 행동 생성

OpenVLA가 DINOv2·SigLIP 비전 인코더와 Llama 2를 결합했다고 앞서 말한 것이 바로 이 구조입니다. 웹에서 사전학습된 강력한 비전·언어 부품을 가져오고, 그 위에 로봇 행동을 내는 헤드를 붙여 로봇 데이터로 학습합니다. 사전학습된 부품 덕분에, 로봇 데이터가 상대적으로 적어도 웹의 지식을 활용할 수 있습니다.

스케일링 관점

언어 모델의 교훈 하나는 "규모를 키우면 능력이 예상보다 폭넓게 향상된다"는 것이었습니다. 로봇 파운데이션 모델도 같은 기대를 안고 있습니다.

데이터 규모·다양성 ↑ 모델 규모 ↑

│ │

└───────────┬───────────┘

▼

더 넓은 작업·로봇으로의 일반화(기대)

│

┌───────────┴───────────┐

▼ ▼

본 적 없는 물체에도 대응 지시만 바꿔 새 작업 수행

(기대이며, 보장은 아님) (기대이며, 보장은 아님)

다만 언어와 로봇 사이에는 결정적 차이가 있습니다. 텍스트는 인터넷에 사실상 무한히 있지만, 로봇 데이터는 물리 세계에서 실제로 몸을 움직여 모아야 합니다. 데이터 수집 비용이 훨씬 크고 느립니다. 그래서 시뮬레이션 데이터 활용, 사람 영상에서의 학습, 데이터 효율적 방법 등이 스케일링을 보완하는 방향으로 활발히 연구됩니다. 스케일링이 로봇에서도 언어만큼 매끄럽게 통할지는 아직 열린 질문입니다.

언어 모델의 교훈, 그리고 한계

언어 모델에서 관측된 스케일링 법칙(데이터·모델·연산을 키우면 손실이 예측 가능하게 감소)은 로봇에도 영감을 줍니다. 하지만 몇 가지 이유로 그대로 옮겨지지 않을 수 있습니다.

- **데이터 병목**: 로봇 데이터는 물리적으로 모아야 해, 텍스트처럼 무한히 늘리기 어렵습니다.

- **평가의 모호함**: 언어는 다음 토큰 예측이라는 깔끔한 목표가 있지만, 로봇의 "성공"은 정의하기 복잡합니다.

- **물리적 제약**: 아무리 좋은 정책도 하드웨어의 물리 한계를 넘을 수 없습니다.

그럼에도 방향성은 유효합니다. 더 많고 다양한 데이터, 더 큰 모델, 더 나은 학습 방법이 로봇 정책의 일반화를 넓히는 경향은 여러 연구에서 관찰됩니다. 다만 "얼마나, 어떻게" 통할지는 언어만큼 깔끔하게 정리되지 않았습니다.

과제: 데이터·안전·평가

로봇 파운데이션 모델은 약속만큼 과제도 큽니다.

데이터

앞서 말했듯 로봇 데이터는 모으기 비쌉니다. 실제 로봇을 사람이 원격 조종하거나 시연으로 데이터를 쌓아야 하며, 다양성(여러 물체·환경·로봇)을 확보하기가 특히 어렵습니다. 시뮬레이션이 도움을 주지만 sim2real 간극이라는 대가가 따릅니다.

안전

물리 세계에서 실제로 움직이는 로봇은 실수하면 물건을 부수거나 사람을 다치게 할 수 있습니다. 언어 모델이 틀린 문장을 내놓는 것과, 로봇이 잘못된 힘으로 움직이는 것은 위험의 성격이 다릅니다. 그래서 힘·속도 제한, 비상 정지, 접촉 안전 설계가 정책 자체와 함께 반드시 고려되어야 합니다.

평가

"이 정책이 얼마나 좋은가"를 공정히 재는 일도 어렵습니다. 언어 모델처럼 정해진 벤치마크로 점수를 매기기 어렵고, 실물 로봇 실험은 재현이 까다롭습니다. 표준화된 작업 세트, 성공률 정의, 재현 가능한 평가 프로토콜을 만드는 일이 이 분야의 성숙에 매우 중요합니다.

┌──────────── 로봇 파운데이션 모델의 세 과제 ────────────┐

│ │

│ 데이터 ──▶ 비싸고 느린 수집, 다양성 확보 어려움 │

│ 안전 ──▶ 물리적 위험, 힘·접촉·비상정지 설계 필수 │

│ 평가 ──▶ 재현 어려움, 표준 벤치마크 미성숙 │

│ │

│ 이 셋을 함께 풀어야 실용적 일반화에 도달 │

└─────────────────────────────────────────────────────────┘

배포와 추론: 실물에서 돌리기

큰 파운데이션 모델을 실제 로봇에서 돌리는 데는 현실적 제약이 따릅니다. 로봇은 실시간으로 움직여야 하므로, 모델이 아무리 똑똑해도 추론이 느리면 소용없습니다.

┌──────────── 실물 배포의 제약 ────────────┐

│ │

│ 실시간성 ──▶ 모델이 제어 주기 안에 응답해야│

│ 계산 자원 ──▶ 로봇에 실린 컴퓨터의 한계 │

│ 지연 ──▶ 관측→행동 지연이 작아야 안정 │

│ 안전 ──▶ 이상 출력에 대한 방어 필요 │

│ │

└──────────────────────────────────────────┘

이 때문에 실무에서는 여러 절충이 쓰입니다. 큰 모델을 증류(distillation)해 작고 빠른 모델로 만들거나, 느린 고수준 계획과 빠른 저수준 실행을 분리하거나(앞서 본 계층 구조), 양자화로 모델을 경량화합니다. GR00T N1이 표방하는 System 1/System 2 구조도 이런 맥락에서 이해할 수 있습니다. 빠른 반응이 필요한 부분과 느린 계획이 필요한 부분을 분리하는 것입니다.

안전을 다시 보다

로봇 파운데이션 모델의 안전은 언어 모델의 안전과 질적으로 다릅니다. 언어 모델의 잘못된 출력은 텍스트지만, 로봇의 잘못된 출력은 물리적 움직임입니다.

- **출력 검증**: 정책이 낸 행동이 물리적으로 안전한 범위인지(속도·힘·관절 한계) 실행 전에 검사합니다.

- **비상 정지**: 언제든 사람이 로봇을 즉시 멈출 수 있어야 합니다.

- **접촉 안전**: 사람이나 물체와의 접촉에서 과도한 힘이 나지 않도록 하드웨어·소프트웨어가 함께 막습니다.

- **분포 밖 인식**: 학습에서 본 적 없는 낯선 상황을 만나면, 무리하게 행동하기보다 멈추거나 도움을 요청하는 것이 안전합니다.

핵심은, 정책의 지능만으로 안전을 보장할 수 없다는 점입니다. 정책 위·아래에 별도의 안전 계층을 두어, 정책이 실수해도 물리적 피해로 이어지지 않게 하는 이중 안전망이 필요합니다.

작은 사례로 보기: "테이블 정리"

추상적인 이야기를 하나의 그림으로 좁혀 봅니다. "테이블 위 물건을 정리해"라는 지시를 제너럴리스트 정책이 어떻게 다룰지 상상해 봅니다.

지시: "테이블을 정리해"

│

▼

[파운데이션 정책이 장면 이해]

│ 컵·접시·수저를 인식, 각각의 목적지 추론

▼

순차 실행:

컵을 집어 ──▶ 싱크대로 (촉각으로 파지 유지)

접시를 집어 ──▶ 정해진 위치로 (미끄러짐 감시)

수저를 모아 ──▶ 통에 넣기 (정밀 조작)

│

▼

장면 재확인 ──▶ 남은 물건 있으면 반복

여기서 파운데이션 모델의 힘이 드러납니다. "정리"라는 추상적 언어 지시를, 구체적 물체와 목적지로 풀어내는 상식은 웹 데이터에서 옵니다. 그리고 각 물체를 실제로 집어 옮기는 조작 능력은 로봇 데이터에서 옵니다. 이 둘의 결합이 제너럴리스트 정책이 지향하는 그림입니다. 다만 이는 이상적 시나리오이며, 실제로 이 수준의 신뢰성에 도달하는 것은 여전히 어려운 과제입니다.

전망

로봇 파운데이션 모델은 아직 초기입니다. 하지만 방향은 뚜렷합니다. 대규모·다양한 데이터를 공통 형식으로 모으고, 크로스 임바디먼트로 여러 로봇의 경험을 공유하며, VLA로 언어·비전의 성과를 행동으로 연결하는 흐름은 계속 강해지고 있습니다.

가까운 미래의 현실적인 그림은 아마 "완전한 만능 로봇"보다는, **넓게 일반화하되 특정 작업에는 소량 데이터로 빠르게 적응하는** 정책일 것입니다. 웹 지식으로 넓은 상식을 갖추고, 로봇 데이터로 조작을 익히고, 새 현장에서는 약간의 시연으로 미세 조정하는 식입니다. 그 조합이 실용성과 일반화 사이의 현실적 균형점에 가깝습니다.

사람 영상에서 배우기

로봇 데이터가 귀하다면, 인터넷에 넘치는 **사람 영상**을 활용할 수는 없을까요? 사람이 요리하고, 조립하고, 물건을 다루는 영상은 방대합니다. 이 영상에서 조작의 지식을 뽑아낼 수 있다면, 데이터 병목을 크게 완화할 수 있습니다.

사람 영상(방대) ──▶ "무엇을 어떻게 하는가"의 지식

│

▼ 로봇 몸으로 옮기는 다리(bridge)가 필요

│

로봇 실행 데이터(소량) ──▶ 몸의 차이를 메우는 보정

│

▼

사람의 폭넓은 지식 + 로봇의 구체적 실행

어려움은 명확합니다. 사람의 손과 로봇의 그리퍼는 다르고, 영상에는 힘 정보가 없으며, 시점도 로봇과 다릅니다. 그래서 사람 영상을 그대로 정책으로 쓸 수는 없고, "무엇을 하는가"의 상위 지식을 뽑아 로봇 데이터와 결합하는 식의 접근이 연구됩니다. 사람 영상은 데이터 병목의 유망한 돌파구이지만, 몸의 차이를 메우는 일은 여전히 열린 문제입니다.

평가를 위한 노력

앞서 평가가 어렵다고 했습니다. 이를 개선하려는 방향을 조금 더 구체적으로 봅니다.

- **표준 과제 세트**: 여러 로봇·환경에서 공통으로 쓸 수 있는 과제 모음을 정의합니다.

- **성공 기준의 명확화**: "성공"이 무엇인지(예: 물체가 목적지에 놓였는가)를 애매하지 않게 규정합니다.

- **재현 가능한 프로토콜**: 조명·물체·초기 배치까지 기록해, 다른 팀이 같은 조건을 재현할 수 있게 합니다.

- **시뮬레이션 벤치마크**: 실물 실험의 재현 부담을 덜기 위해, 표준화된 시뮬 환경에서의 평가도 병행합니다.

이런 공용 평가 기반이 갖춰지면, "우리 모델이 더 낫다"는 주장을 공정하게 검증할 수 있게 됩니다. 시각·언어 분야가 벤치마크 덕분에 빠르게 발전했듯, 로봇에서도 평가의 표준화가 성숙의 열쇠입니다.

언어 모델과 로봇 정책: 무엇이 같고 다른가

로봇 파운데이션 모델은 언어 모델의 아이디어를 빌려왔지만, 중요한 차이가 있습니다. 이를 한 표로 정리합니다.

| 관점 | 언어 모델 | 로봇 파운데이션 모델 |

| --- | --- | --- |

| 데이터 | 웹에 사실상 무한 | 물리 세계에서 힘들게 수집 |

| 출력 | 텍스트(무해) | 물리적 움직임(위험 가능) |

| 평가 | 벤치마크로 비교적 명확 | 표준·재현이 어려움 |

| 실수의 대가 | 틀린 문장 | 물건 손상·안전 위험 |

| 피드백 | 다음 토큰 예측 | 물리적 성공/실패 |

이 차이들 때문에, 언어 모델의 성공 공식을 로봇에 그대로 복사할 수는 없습니다. 그럼에도 "대규모·다양한 데이터로 하나의 큰 모델을 학습해 폭넓게 일반화한다"는 핵심 철학은 로봇에서도 유효한 방향으로 보입니다. 차이를 이해하고 로봇에 맞게 조정하는 것이 이 분야의 과제입니다.

오픈 모델의 의미

OpenVLA가 오픈 모델이라는 점은 이 분야에 특별한 의미를 가집니다. 언어 모델 분야에서 오픈 모델들이 연구·재현·응용을 크게 가속했듯, 로봇에서도 오픈 정책과 오픈 데이터는 발전의 촉매입니다.

오픈 데이터(Open X-Embodiment) + 오픈 모델(OpenVLA)

│

▼

누구나 재현·검증·개선 가능

│

▼

연구 공동체 전체의 발전 가속

로봇 데이터 수집이 비싼 만큼, 데이터와 모델을 공유하는 문화는 특히 값집니다. 한 기관이 모든 것을 혼자 하기보다, 데이터를 모으고 모델을 공유하며 함께 발전하는 방식이 이 분야를 빠르게 성숙시켜 왔습니다. 물론 상용·비공개 흐름도 강하게 존재하며, 두 흐름은 서로를 자극하며 나아갑니다.

오픈과 클로즈드 중 어느 쪽이 우세할지 단언하기는 이릅니다. 언어 모델 분야에서도 둘은 병존하며 서로 경쟁해 전체를 끌어올려 왔습니다. 로봇에서도 마찬가지로, 공개된 공통 기반이 연구를 떠받치고 그 위에서 각 사가 독자적 노하우를 쌓는 구도가 이어질 가능성이 높습니다. 중요한 것은, 두 흐름 모두 "대규모의 다양한 데이터를 어떻게 모으고 어떻게 활용하는가"라는 같은 근본 질문을 마주하고 있다는 점입니다.

로봇 파운데이션 모델을 둘러싼 오해

빠르게 발전하는 분야인 만큼 과장과 오해도 흔합니다. 몇 가지를 짚어 균형을 잡습니다.

- **"곧 만능 로봇이 온다"**: 데모는 인상적이지만, 낯선 환경·물체로의 신뢰성 있는 일반화는 여전히 어렵습니다.

- **"데이터만 늘리면 된다"**: 양뿐 아니라 다양성과 품질이 중요하고, 데이터 수집 자체가 큰 병목입니다.

- **"시뮬레이션이면 충분하다"**: 시뮬레이션은 강력하지만 sim2real 간극이 남고, 실물 데이터가 여전히 필요합니다.

- **"하나의 모델이 모든 로봇을 대체한다"**: 현실적으로는 넓게 일반화하되 현장에서 소량 데이터로 적응하는 형태가 유력합니다.

기술을 정확히 이해하려면, 인상적인 데모와 견고한 실용성 사이의 거리를 냉정히 보는 시각이 필요합니다.

마치며

"하나의 정책으로 여러 일을"이라는 목표는 로봇공학에 언어 모델식 사고를 가져왔습니다. 제너럴리스트 정책, 대규모 데이터, 크로스 임바디먼트, VLA는 그 흐름의 핵심 조각들입니다. 데이터·안전·평가라는 세 과제가 여전히 크지만, 그 벽을 조금씩 낮춰 가는 과정이 곧 이 분야의 현재입니다.

언젠가 하나의 로봇 정책이, 하나의 언어 모델이 그러하듯, 우리가 말로 부탁하는 일을 폭넓게 해내는 날 — 그 방향으로 연구는 착실히 나아가고 있습니다.

그 여정에서 잊지 말아야 할 것은, 로봇은 물리 세계에 몸을 담근 존재라는 점입니다. 텍스트를 다루는 모델과 달리, 로봇의 모든 결정은 실제 힘과 접촉으로 이어집니다. 그래서 이 분야의 발전은 언제나 지능과 안전, 일반화와 신뢰성을 함께 저울질하는 과정일 수밖에 없습니다. 그 균형을 잃지 않는 연구가, 결국 우리가 믿고 곁에 둘 수 있는 로봇을 만들 것입니다.

참고 자료

- Open X-Embodiment (arXiv): [https://arxiv.org/abs/2310.08864](https://arxiv.org/abs/2310.08864)

- RT-2: Vision-Language-Action Models (arXiv): [https://arxiv.org/abs/2307.15818](https://arxiv.org/abs/2307.15818)

- OpenVLA: An Open-Source Vision-Language-Action Model (arXiv): [https://arxiv.org/abs/2406.09246](https://arxiv.org/abs/2406.09246)

- LoRA: Low-Rank Adaptation (arXiv): [https://arxiv.org/abs/2106.09685](https://arxiv.org/abs/2106.09685)

- Physical Intelligence (π0): [https://www.physicalintelligence.company/](https://www.physicalintelligence.company/)

- Google DeepMind Robotics: [https://deepmind.google/discover/blog/](https://deepmind.google/discover/blog/)

- NVIDIA Isaac / GR00T 맥락: [https://developer.nvidia.com/isaac](https://developer.nvidia.com/isaac)

- Hacker News (로봇 파운데이션 모델 토론): [https://news.ycombinator.com/](https://news.ycombinator.com/)