Skip to content
Published on

휴머노이드를 위한 두 개의 뇌 — GR00T N1과 Helix

Authors

들어가며: 왜 휴머노이드는 어려운가

지금까지 살펴본 VLA 모델은 주로 책상 위 단일 팔 매니퓰레이터를 다뤘습니다. 휴머노이드는 차원이 다른 도전입니다. 두 팔과 두 손, 머리, 그리고 균형을 잡으며 걷는 다리까지, 제어해야 할 자유도가 폭발적으로 늘어납니다. 게다가 사람의 환경(문 손잡이, 계단, 식기)에 맞춰 설계되어 있어 정밀함과 안정성이 동시에 요구됩니다.

이런 복잡성을 하나의 모놀리식 신경망으로 풀려고 하면 딜레마에 부딪힙니다. 빠르게 반응하려면 모델이 작고 가벼워야 하는데, 똑똑하게 추론하려면 크고 무거워야 합니다. 균형을 잡는 다리의 제어는 초당 수백 회 갱신되어야 하지만, "냉장고에서 음료를 꺼내 컵에 따라"라는 지시를 이해하는 데에는 그렇게 빠른 주파수가 필요 없습니다.

해법으로 제시된 것이 듀얼 시스템(dual-system) 아키텍처입니다. 인간 인지의 빠른 직관(System 1)과 느린 숙고(System 2)라는 비유에서 영감을 받아, 로봇의 두뇌를 두 부분으로 나눕니다. 이 글에서는 NVIDIA GR00T N1과 Figure AI Helix를 중심으로 이 구조를 살펴봅니다. 실존하는 사실에 근거하되, 세부 사양은 버전에 따라 다를 수 있으므로 확실한 것만 일반화하여 다룹니다.

듀얼 시스템 아키텍처

빠른 뇌와 느린 뇌

듀얼 시스템의 핵심 발상은 역할 분담입니다.

┌────────────────────────────────────────────────────────────┐
│            휴머노이드 듀얼 시스템 아키텍처 (개념)            │
└────────────────────────────────────────────────────────────┘

   카메라·언어 지시
  ┌─────────────────────────┐
  │  System 2 (느린 뇌)      │   낮은 주파수(예: 수 Hz)
  │  - 비전-언어 이해         │
  │  - 장면 해석·작업 계획    │   "무엇을 할 것인가"
  │  - 의미적 추론            │
  └───────────┬─────────────┘
              │  잠재 표현(의도·목표) ──▶
  ┌─────────────────────────┐
  │  System 1 (빠른 뇌)      │   높은 주파수(예: 수십~수백 Hz)
  │  - 저수준 운동 제어       │
  │  - diffusion/연속 행동    │   "어떻게 움직일 것인가"
  │  - 균형·정밀 조작         │
  └───────────┬─────────────┘
       관절 토크/위치 명령  ──▶  로봇 실행
  • System 2 (느린 뇌): 큰 비전-언어 모델이 장면을 이해하고 무엇을 해야 할지 계획합니다. 자연어 지시를 받아 의미적으로 추론합니다. 무겁기 때문에 상대적으로 낮은 주파수로 동작합니다.
  • System 1 (빠른 뇌): 작고 빠른 정책이 실제 관절을 제어합니다. System 2가 내려준 의도(잠재 표현)를 조건으로 받아, 부드럽고 연속적인 행동을 고주파로 생성합니다. 균형 유지나 정밀 파지처럼 즉각적인 반응이 필요한 일을 담당합니다.

이 분리의 장점은 명확합니다. 똑똑함(느리지만 풍부한 추론)과 민첩함(빠르지만 단순한 반사)을 한 시스템 안에서 동시에 확보할 수 있습니다.

두 시스템의 연결

두 시스템은 잠재 표현(latent)으로 연결됩니다. System 2는 "이 컵을 향해 손을 뻗어 쥐어라"라는 의도를 명시적 좌표가 아니라 연속적인 잠재 벡터로 전달하고, System 1은 그 벡터를 조건으로 구체적인 관절 명령을 만들어냅니다. 이렇게 하면 System 2가 매 순간의 세세한 제어를 신경 쓰지 않고도 고수준 의도를 표현할 수 있습니다.

두 시스템의 시간 척도와 데이터 흐름

  t(시간) ──────────────────────────────────────────▶

  System 2:   [계획]            [재계획]            [재계획]
              │                  │                   │
              ▼ (잠재 의도)      ▼                   ▼
  System 1:   ▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮
              (빠른 제어 스텝이 촘촘히 이어짐)

  → 느린 계획이 빠른 제어의 "방향키"를 갱신

NVIDIA GR00T N1

GR00T N1은 NVIDIA가 휴머노이드를 위한 기반 모델(foundation model)로 제시한 오픈 모델입니다. 큰 틀에서 앞서 설명한 듀얼 시스템 철학을 따릅니다. 비전-언어 이해를 담당하는 느린 모듈과, diffusion 기반으로 부드러운 저수준 행동을 빠르게 생성하는 모듈을 결합합니다.

┌────────────────────────────────────────────────────────────┐
│                  GR00T N1 (개념적 구성)                     │
└────────────────────────────────────────────────────────────┘

   다중 카메라·언어 지시
  ┌──────────────────────────┐
  │  비전-언어 모듈 (느린)    │  장면 이해·지시 해석
  └────────────┬─────────────┘
               │  잠재 컨텍스트
  ┌──────────────────────────┐
  │  diffusion 행동 모듈(빠른)│  연속 행동을 디노이징으로 생성
  └────────────┬─────────────┘
        휴머노이드 관절 제어

GR00T N1의 학습에서 중요한 점은 데이터의 다양성입니다. 휴머노이드 실제 시연만으로는 데이터가 턱없이 부족하므로, 여러 출처의 데이터를 함께 활용하는 전략을 씁니다.

┌────────────────────────────────────────────────────────────┐
│        다양한 데이터 출처를 결합하는 학습 (개념)            │
└────────────────────────────────────────────────────────────┘

  ┌────────────┐  ┌────────────┐  ┌────────────┐  ┌──────────┐
  │ 실제 로봇   │  │ 시뮬레이션  │  │ 사람 영상   │  │ 웹 VL    │
  │ 시연        │  │ (합성 궤적) │  │ (동작 관찰) │  │ 데이터   │
  └─────┬──────┘  └─────┬──────┘  └─────┬──────┘  └────┬─────┘
        └───────────────┴────┬─────────┴──────────────┘
                  ┌────────────────────┐
                  │  공동 학습          │
                  │ (co-fine-tuning)    │
                  └─────────┬──────────┘
                  휴머노이드 정책(GR00T N1)
  • 실제 로봇 시연: 가장 정확하지만 가장 비쌉니다.
  • 시뮬레이션: 대량의 합성 궤적을 저렴하게 생성합니다. 다만 현실과의 차이(sim-to-real gap)를 줄이는 것이 과제입니다.
  • 사람 동작 영상: 사람의 손·몸 움직임을 관찰해 풍부한 행동 사전지식을 얻습니다.
  • 웹 비전-언어 데이터: 의미적 일반화를 위한 상식을 제공합니다.

이렇게 출처가 다른 데이터를 함께 학습(co-fine-tuning)하면, 비싼 실제 시연의 양을 보완하면서 일반화를 끌어올릴 수 있습니다. NVIDIA가 GR00T를 오픈으로 제시한 이유 중 하나는, 휴머노이드 연구의 공통 토대를 제공해 생태계를 키우려는 것입니다.

Figure AI Helix

Helix는 Figure AI가 휴머노이드를 위해 제시한 일반화 VLA입니다. 마찬가지로 빠른 제어와 느린 추론을 결합하는 듀얼 시스템 계열의 접근을 취합니다. Helix가 강조하는 지점은 휴머노이드의 상체 제어를 폭넓게 일반화하는 것, 그리고 이전에 학습하지 않은 물체와 지시에 대해서도 자연어로 지시받아 동작하는 것입니다.

┌────────────────────────────────────────────────────────────┐
│                  Helix (개념적 흐름)                        │
└────────────────────────────────────────────────────────────┘

   온보드 카메라 + 음성/텍스트 지시
  ┌──────────────────────────┐
  │  느린 시스템 (이해·계획)  │  장면·지시를 의미적으로 해석
  └────────────┬─────────────┘
               │  잠재 의도
  ┌──────────────────────────┐
  │  빠른 시스템 (운동 제어)  │  상체·손의 연속 제어를 고주파로
  └────────────┬─────────────┘
        휴머노이드 상체·양손 동작

Helix 계열 접근의 의의는 다음과 같습니다.

  • 자연어 일반화: 사람이 말로 지시하면 새로운 작업도 시도할 수 있는 방향을 지향합니다.
  • 온보드 동작: 로봇에 탑재된 자원으로 추론하는 것을 목표로 하여, 실제 가정·작업 환경에서의 자율 동작을 겨냥합니다.
  • 상체 정밀 제어: 양손 협응이 필요한 작업(물건을 함께 옮기기, 정리하기)을 다루려 합니다.

정확한 모델 크기, 제어 주파수, 평가 수치 등 세부 사양은 공개 정보와 버전에 따라 다를 수 있으므로, 여기서는 구조적 아이디어 위주로 일반화하여 설명합니다.

GR00T N1과 Helix 비교

항목GR00T N1 (NVIDIA)Helix (Figure AI)
성격휴머노이드 기반 모델(오픈 지향)휴머노이드 제품용 일반화 VLA
공통 구조듀얼 시스템(느린 이해 + 빠른 제어)듀얼 시스템(느린 이해 + 빠른 제어)
빠른 뇌diffusion 기반 연속 행동고주파 연속 제어
학습 데이터실제+시뮬+사람영상+웹 VL 결합로봇 시연 중심의 일반화 학습
강조점공통 토대·재현성자연어 일반화·온보드 자율성

두 접근 모두 핵심은 같습니다. 무거운 의미 이해와 가벼운 빠른 제어를 분리하되 잠재 표현으로 매끄럽게 잇는 것입니다. 표의 세부는 출처·버전에 따라 다를 수 있습니다.

더 깊이: 두 시스템의 핸드오프

잠재 표현으로 의도를 전달하기

듀얼 시스템의 묘미는 느린 뇌가 빠른 뇌에게 "무엇을 원하는지"를 전달하는 방식에 있습니다. 명시적 좌표(예: "손을 (0.3, 0.1, 0.5)로 옮겨")로 전달할 수도 있지만, 더 유연한 방법은 연속적인 잠재 벡터로 의도를 표현하는 것입니다. 빠른 뇌는 이 벡터를 조건으로 받아 구체적인 관절 명령을 만듭니다.

┌──────────────────────────────────────────────────────────┐
│            System 2 → System 1 핸드오프 (개념)           │
└──────────────────────────────────────────────────────────┘

  System 2 (느린 뇌)
     │  장면 이해 + 작업 계획
  ┌──────────────────┐
  │ 잠재 의도 벡터 z  │   "이 컵을 향해 부드럽게 다가가 쥐어라"
  └────────┬─────────┘     (좌표가 아니라 추상적 의도)
           │  주기적으로 갱신(낮은 주파수)
  System 1 (빠른 뇌)
     │  z를 조건으로 연속 행동 생성(높은 주파수)
  ┌──────────────────┐
  │ 관절 토크/위치     │  ──▶  로봇 실행
  └──────────────────┘

이 방식의 장점은 빠른 뇌가 의도를 "어떻게" 실현할지 스스로 정할 수 있다는 점입니다. 장애물이 갑자기 나타나거나 물체가 미끄러지면, 빠른 뇌가 같은 의도를 유지하면서도 즉각 경로를 조정합니다. 느린 뇌가 매 순간의 세부를 일일이 지시할 필요가 없습니다.

시간 척도의 정렬

두 시스템이 서로 다른 주파수로 도는 만큼, 시간 척도를 잘 맞추는 것이 중요합니다.

주파수 정렬 (개념적 수치, 실제는 구현마다 다름)

  System 2:  몇 Hz 수준        (계획·재계획)
  System 1:  수십~수백 Hz 수준  (저수준 제어)

  → 하나의 느린 계획 동안 빠른 제어가 여러 번 실행
  → 환경이 빠르게 변하면 빠른 뇌가 먼저 대응하고,
     느린 뇌는 다음 계획에서 큰 그림을 갱신

정확한 제어 주파수는 하드웨어, 모델 크기, 작업 성격에 따라 달라질 수 있습니다. 핵심은 "빠른 반응은 빠른 뇌가, 큰 결정은 느린 뇌가" 맡는 역할 분담입니다.

이동과 조작의 통합

휴머노이드만의 어려움

단일 팔 매니퓰레이터와 달리 휴머노이드는 균형을 잡으며 동시에 손으로 작업해야 합니다. 다리의 제어(이동·균형)와 팔의 제어(조작)가 서로 영향을 줍니다. 예를 들어 무거운 물체를 한 손으로 들면 무게중심이 이동해 균형 제어가 즉시 반응해야 합니다.

┌──────────────────────────────────────────────────────────┐
│          이동-조작의 상호작용 (개념)                     │
└──────────────────────────────────────────────────────────┘

   상체(팔·손)            하체(다리·균형)
   조작 작업              지지·이동
       │                     │
       └────── 무게중심 변화 ─┘
        ┌──────────────────┐
        │  전신 협응 필요    │  팔을 뻗으면 다리가 균형을 보정
        └──────────────────┘

  → 빠른 뇌(System 1)가 전신을 함께 고려해 제어해야 안정적

많은 휴머노이드 시스템은 이동(locomotion)과 조작(manipulation)을 분리해 다루기도 하고, 점점 더 전신을 함께 제어하는 방향으로 나아가고 있습니다. 듀얼 시스템에서는 빠른 뇌가 이런 전신 협응을 고주파로 담당하는 것이 자연스럽습니다.

시뮬레이션과 sim-to-real

왜 시뮬레이션이 필요한가

휴머노이드 실제 시연은 수집이 매우 어렵고 위험합니다. 그래서 시뮬레이션에서 대량의 합성 데이터를 생성해 학습을 보완합니다. 하지만 시뮬레이션과 실제 세계 사이에는 물리, 센서, 외관의 차이(sim-to-real gap)가 있어, 시뮬에서 잘 되던 정책이 실제에서 실패하기도 합니다.

도메인 무작위화

이 간극을 줄이는 대표적 기법이 도메인 무작위화(domain randomization)입니다. 시뮬레이션에서 조명, 질감, 물리 파라미터(마찰·질량 등)를 무작위로 바꿔가며 학습하면, 모델이 특정 조건에 과적합하지 않고 다양한 변동에 강건해집니다.

┌──────────────────────────────────────────────────────────┐
│            도메인 무작위화 (개념)                        │
└──────────────────────────────────────────────────────────┘

  시뮬레이션에서 매 학습마다 무작위로 변경:
    - 조명·색상·질감
    - 마찰·질량·관성
    - 카메라 위치·노이즈
  ┌──────────────────┐
  │  다양한 변동에     │   특정 조건에 과적합하지 않음
  │  강건한 정책       │   ──▶  실제 환경으로 전이 용이
  └──────────────────┘

도메인 무작위화 외에도, 실제 데이터로 시뮬을 보정하거나, 실제와 시뮬을 함께 학습하는 방법, 사람 동작 영상을 추가로 활용하는 방법 등이 결합됩니다. GR00T가 강조한 다중 출처 데이터 결합도 이 큰 흐름의 일부입니다.

과제

휴머노이드 VLA는 매력적이지만, 풀어야 할 과제가 많습니다.

  • 안전성: 사람과 같은 공간에서 무거운 로봇이 움직이므로 충돌·낙상의 위험을 엄격히 관리해야 합니다. 분포 밖 상황에서의 실패는 물리적 피해로 이어질 수 있습니다.
  • 지연(latency): 느린 뇌의 계획이 너무 느리면 빠른 뇌가 낡은 의도로 동작하게 됩니다. 두 시스템의 시간 척도를 잘 맞춰야 합니다.
  • 데이터 부족: 휴머노이드 실제 시연은 수집이 매우 어렵습니다. 시뮬레이션과 사람 영상으로 보완하되 sim-to-real gap을 줄여야 합니다.
  • 일반화와 신뢰성의 균형: 새로운 작업을 시도하는 능력과, 알려진 작업을 안정적으로 수행하는 능력 사이의 균형이 필요합니다.
  • 평가의 어려움: 휴머노이드는 환경·하드웨어 차이가 커서 결과 재현과 공정한 비교가 어렵습니다.
듀얼 시스템에서의 지연 문제 (개념)

  System 2 계획 주기가 너무 느릴 때:

   t ───────────────────────────────────▶
   계획(낡음) ─────────────── 다음 계획
   System 1:  ▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮  ← 그동안 낡은 의도로 제어
                                    환경이 바뀌면 어긋남

  → 계획 주파수, 의도 갱신 방식, 안전 가드를 함께 설계해야 함

왜 지금 휴머노이드인가

일반화된 형태의 매력

휴머노이드가 주목받는 이유 중 하나는 "사람의 환경에 그대로 맞는 형태"라는 점입니다. 우리의 집, 공장, 사무실은 사람의 손과 키, 걸음에 맞춰 설계되어 있습니다. 사람 모양의 로봇은 환경을 바꾸지 않고도 문을 열고, 계단을 오르고, 사람이 쓰던 도구를 그대로 다룰 수 있다는 잠재력이 있습니다.

일반화된 형태의 논리 (개념)

  전용 로봇:  작업마다 다른 기계 설계
              + 단일 작업에 최적
              - 새 작업마다 새 하드웨어

  휴머노이드: 하나의 형태로 다양한 작업
              + 사람 환경·도구 재사용
              - 제어 난도 높음(자유도·균형)

  → "하드웨어 일반화"와 "소프트웨어 일반화(VLA)"가 만나는 지점

물론 이는 잠재력이자 어려움이기도 합니다. 사람 모양은 다재다능하지만, 그만큼 제어해야 할 자유도가 많고 균형이라는 추가 난제를 안습니다. 듀얼 시스템과 VLA의 발전이 이 어려움을 풀 도구로 기대를 모으는 이유입니다.

기반 모델과 데이터 플라이휠

언어·비전 분야가 그랬듯, 로봇도 더 많은 데이터로 더 나은 정책을 학습하고, 더 나은 정책이 더 많은 배치로 이어져 다시 데이터를 모으는 선순환(데이터 플라이휠)을 기대합니다.

데이터 플라이휠 (개념)

   더 많은 데이터 ──▶ 더 나은 정책
        ▲                  │
        │                  ▼
   더 많은 배치  ◀── 더 넓은 작업 수행
        (현장에서 새 데이터 수집)

  ※ 안전·신뢰성이 충족되어야 이 순환이 실제로 돌아감

GR00T를 오픈으로 제공하거나 통합 데이터셋(Open X-Embodiment)을 공유하는 흐름은 이 플라이휠을 공동체 차원에서 돌리려는 시도로 볼 수 있습니다. 다만 이 순환이 실제로 돌려면 안전성과 신뢰성이라는 전제가 충족되어야 합니다.

어떤 작업을 노리는가

휴머노이드 VLA가 겨냥하는 작업은 대체로 사람의 일상·작업 환경에서 손이 많이 가는 일들입니다.

대표적인 목표 작업 영역 (개념)

  ┌─ 정리·이송: 물건을 옮기고 분류하고 정돈
  ├─ 양손 협응: 두 손으로 함께 다뤄야 하는 작업
  ├─ 부드러운 조작: 천·끈·유연한 물체 다루기
  └─ 도구 사용: 사람이 쓰던 도구를 그대로 활용

  → 정형화하기 어려운 "다양하고 변동 많은" 작업일수록
     VLA의 일반화·언어 지시의 가치가 커짐

전통적인 산업용 로봇은 고도로 정형화된 반복 작업에 강합니다. 반면 휴머노이드 VLA가 노리는 영역은 물체·배치·지시가 매번 달라지는, 정형화하기 어려운 작업입니다. 이런 변동성이 큰 작업일수록 의미적 일반화와 자연어 지시의 가치가 두드러집니다. 물론 신뢰성과 안전성이 충분히 확보되기 전까지는 사람의 감독 아래 점진적으로 적용 범위를 넓혀가는 것이 현실적입니다.

인지 비유를 다시 보기

듀얼 시스템은 인간 인지의 "빠른 직관(System 1)과 느린 숙고(System 2)"라는 비유에서 출발했습니다. 다만 이 비유는 영감의 출발점일 뿐, 인간 뇌의 정확한 모형은 아닙니다.

비유와 공학적 구현의 차이 (개념)

  인지 비유:   빠른 직관  ↔  느린 숙고
                  │             │
  공학 구현:   고주파 제어  ↔  저주파 계획
              (작은 정책)     (큰 VLM)

  → 비유는 "역할 분담"의 직관을 줄 뿐
     실제 설계는 지연·주파수·안전·데이터로 결정

엔지니어링에서 중요한 것은 비유의 충실함이 아니라, 빠른 반응과 느린 추론을 어떻게 효율적으로 분담하고 매끄럽게 잇느냐입니다. 두 시스템의 경계, 잠재 표현의 형태, 갱신 주기, 안전 계층 같은 설계 선택이 실제 성능을 좌우합니다.

전망

듀얼 시스템 아키텍처는 "빠른 반사와 느린 사고를 동시에"라는 휴머노이드의 본질적 요구에 잘 들어맞는 설계입니다. 큰 비전-언어 모델의 의미 이해를 잃지 않으면서도, 균형과 정밀 조작에 필요한 고주파 제어를 확보할 수 있기 때문입니다. NVIDIA GR00T N1처럼 공통 토대를 오픈으로 제공하려는 흐름과, Figure AI Helix처럼 실제 제품에서의 자율 동작을 겨냥하는 흐름이 함께 진전하고 있습니다.

앞으로의 방향은 분명해 보입니다. 더 다양한 데이터(시뮬·사람 영상·웹)를 결합한 공동 학습, sim-to-real 간극을 줄이는 기법, 안전을 보장하는 가드레일, 그리고 두 시스템의 시간 척도를 매끄럽게 잇는 설계가 핵심입니다. 휴머노이드가 사람의 환경에서 폭넓게 일반화하는 날까지는 풀어야 할 문제가 많지만, "두 개의 뇌"라는 아이디어는 그 길의 든든한 토대가 될 것입니다.

마지막으로, 지금까지 세 편의 글을 관통하는 큰 그림을 한 장으로 정리합니다.

┌──────────────────────────────────────────────────────────┐
│            로봇 VLA의 큰 그림 (세 편의 연결)             │
└──────────────────────────────────────────────────────────┘

  1편: VLM을 정책으로 → 이산 액션 토큰 (RT-2, OpenVLA)
        │  (의미적 일반화, 그러나 이산화·주파수 한계)
  2편: 연속 행동 생성 → 부드러움·고주파 (Diffusion Policy, π0)
        │  (다중모드·매끄러움, flow-matching으로 빠른 제어)
  3편: 휴머노이드로 확장 → 듀얼 시스템 (GR00T N1, Helix)
        (느린 이해 + 빠른 제어, 전신 협응·sim-to-real)

  공통 토대: 다양한 데이터(Open X-Embodiment), 효율적 적응(LoRA),
            안전 가드레일, 그리고 인식과 행동의 통합

이 흐름은 "인식과 행동을 하나의 학습 시스템으로 잇는다"는 일관된 방향을 보여줍니다. 각 단계는 앞 단계의 한계를 보완하며, 더 일반적이고 더 부드럽고 더 복잡한 기종으로 나아갑니다. 안전과 신뢰성이라는 전제를 충실히 지킨다면, 로봇이 사람의 말을 이해하고 사람의 환경에서 폭넓게 일하는 미래가 한 걸음씩 가까워질 것입니다.

참고 자료