💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

휴머노이드 로봇은 오래된 꿈입니다. 사람처럼 두 발로 서서 걷고, 손으로 물건을 집어 다루며, 사람이 쓰는 공간과 도구를 그대로 사용하는 기계. 최근 몇 년 사이 이 꿈은 연구실 데모를 넘어 조금씩 현실의 작업 현장으로 걸어 나오고 있습니다.

그런데 "두 발로 걷는다"는 문장은 말처럼 간단하지 않습니다. 사람은 걸을 때 매 순간 넘어지고 있고, 그 넘어짐을 다음 발로 붙잡는 일을 무의식적으로 반복합니다. 로봇에게 이 일은 수십 개의 관절을 실시간으로 조율하면서, 접촉하는 발바닥의 힘 분포를 관리하고, 상체의 자세와 팔의 움직임까지 함께 고려해야 하는 고차원 제어 문제입니다.

이 글에서는 휴머노이드 제어를 크게 두 축으로 나누어 살펴봅니다. 하나는 **이족보행(bipedal locomotion) 제어**이고, 다른 하나는 온몸의 관절을 하나의 목표 아래 함께 움직이는 **전신 제어(whole-body control)**입니다. 그리고 이 둘이 어떻게 조작(manipulation)과 통합되는지, 최근의 학습 기반 접근과 파운데이션 모델 흐름이 무엇을 바꾸고 있는지까지 이어서 이야기합니다.

정확성을 위해 미리 밝혀둡니다. 로봇 제조사의 구체적인 사양이나 성능 수치는 발표 시점과 하드웨어 세대에 따라 크게 달라지므로, 이 글에서는 널리 알려진 개념과 공개된 방법론을 중심으로 다루고 구체 수치는 신중하게 일반화합니다.

문제의 지형: 왜 두 발 걷기가 어려운가

바퀴 달린 로봇은 안정적입니다. 지지면(support polygon)이 넓고, 정지해 있어도 넘어지지 않습니다. 반면 두 발 로봇은 다릅니다.

- **좁은 지지면**: 한 발로 서는 순간 지지면은 발바닥 하나로 줄어듭니다.

- **본질적 불안정성**: 사람의 몸은 발목 위로 거꾸로 선 진자(inverted pendulum)에 가깝습니다. 가만히 두면 넘어집니다.

- **불연속 접촉**: 걸음마다 발이 땅에 닿았다 떨어지며, 접촉 상태가 순간순간 바뀝니다.

- **고차원**: 전신 휴머노이드는 보통 관절 자유도가 수십 개에 이릅니다.

이 지형을 이해하기 위해 자주 쓰는 단순 모델이 **선형 도립진자 모델(Linear Inverted Pendulum Model, LIPM)**입니다. 상체 질량을 하나의 점(무게중심, CoM)으로 보고, 그 아래를 길이 없는 막대로 지면에 연결한 진자로 근사합니다.

(CoM) ● ── 무게중심

│

│ 도립진자: 위로 서 있으려 하지만

│ 가만히 두면 넘어지는 구조

│

──────────┴────────── 지면

발(ZMP)

이 단순화 덕분에 복잡한 전신 동역학을 다루기 전에, "무게중심을 어디에 두어야 넘어지지 않는가"라는 질문을 먼저 다룰 수 있습니다.

ZMP: 넘어지지 않는 기준점

이족보행 제어에서 가장 오래되고 중요한 개념 중 하나가 **ZMP(Zero Moment Point, 영모멘트점)**입니다.

ZMP는 지면 반력이 만들어내는 모멘트가 0이 되는 지면 위의 한 점입니다. 직관적으로 말하면, 발바닥이 땅을 누르는 압력의 "중심"에 해당합니다. 핵심 규칙은 이렇습니다.

> ZMP가 지지면(발바닥, 혹은 두 발이 만드는 다각형) 안에 머무는 동안, 발은 땅에서 들리거나 회전하지 않고 안정적으로 접촉을 유지한다.

즉 걸음을 계획할 때, 매 순간의 ZMP가 지지 다각형을 벗어나지 않도록 무게중심 궤적을 설계하면 "동적으로 안정한" 보행을 만들 수 있습니다.

지지 다각형(두 발) 한 발 지지 구간

┌───────────────┐ ┌────────┐

│ ● ZMP │ 안정 │ │ ● ZMP가 밖으로

│ (안쪽) │ │ ●────┼──▶ 벗어나면 불안정

└───────────────┘ └────────┘

전통적인 ZMP 기반 보행 생성기는 대체로 다음 흐름을 따릅니다.

1. 발을 디딜 위치(footstep)의 순서를 정한다.

2. 각 발 위치에서 허용되는 ZMP 궤적을 정한다.

3. 그 ZMP를 만족하는 무게중심(CoM) 궤적을 역으로 계산한다.

4. 무게중심 궤적과 발 궤적을 만족하도록 관절 각도를 역기구학으로 푼다.

이 방식은 예측 가능하고 안정적이지만, 미리 정해진 궤적을 따라가는 성격이 강해 거친 지형이나 예상 못한 외란에는 상대적으로 취약할 수 있습니다.

걸음의 해부학: 보행 주기

한 걸음을 자세히 뜯어보면, 발이 땅에 닿아 있는 **입각기(stance phase)**와 발이 공중에 떠 있는 **유각기(swing phase)**가 번갈아 나타납니다. 걷기와 뛰기를 가르는 결정적 차이도 여기에 있습니다.

- **걷기**: 항상 최소 한 발은 땅에 닿아 있습니다. 두 발이 모두 닿는 짧은 **양발 지지(double support)** 구간이 존재합니다.

- **뛰기**: 두 발이 모두 공중에 뜨는 **비행 구간(flight phase)**이 생깁니다. 착지 순간의 충격 관리가 훨씬 중요해집니다.

걷기의 한 주기 (오른발 기준)

┌────────────┬──────────┬────────────┬──────────┐

│ 오른발 │ 양발 │ 오른발 │ 양발 │

│ 입각기 │ 지지 │ 유각기 │ 지지 │

│ (땅에 붙음) │ │ (공중) │ │

└────────────┴──────────┴────────────┴──────────┘

힘을 받침 체중 이동 앞으로 뻗음 착지·교대

양발 지지 구간은 짧지만 매우 중요합니다. 이 순간에 무게중심을 다음 지지 발 쪽으로 옮겨야 하고, ZMP도 부드럽게 이동해야 합니다. 이 전환이 어긋나면 걸음이 뚝뚝 끊기거나 균형을 잃습니다. 보행 생성기의 상당 부분이 바로 이 전환을 매끄럽게 만드는 데 쓰입니다.

하드웨어: 무엇이 로봇을 움직이는가

제어 이야기를 하기 전에, 그 명령을 실제로 실행하는 하드웨어를 짚고 넘어가야 합니다. 아무리 좋은 정책도 몸이 그것을 실현하지 못하면 소용없기 때문입니다.

| 구성 요소 | 역할 | 핵심 고려사항 |

| --- | --- | --- |

| 액추에이터 | 관절을 움직이는 근육 | 토크·속도·백드라이버빌리티 |

| 감속기 | 모터 힘을 증폭 | 효율·백래시·강성 |

| 관성 센서(IMU) | 몸통 자세·각속도 측정 | 드리프트·노이즈 |

| 관절 엔코더 | 각 관절의 각도·속도 | 해상도·지연 |

| 힘·토크 센서 | 발·손의 접촉력 측정 | 정밀도·내구성 |

특히 **백드라이버빌리티(back-drivability)**가 중요합니다. 외부에서 관절을 밀었을 때 얼마나 순순히 밀리는가를 뜻합니다. 감속비가 아주 높은 전통적 관절은 힘은 세지만 뻣뻣해서, 예상 못한 충격을 흡수하지 못하고 그대로 전달합니다. 반대로 적절히 백드라이버블한 관절은 충격을 흡수하고, 힘 제어(force control)를 부드럽게 만들어 사람 곁에서 더 안전합니다. 최근의 역동적 휴머노이드가 힘 제어에 유리한 액추에이터를 채택하는 이유입니다.

제어의 계층과 시간 척도

지금까지 본 여러 요소는 사실 서로 다른 **시간 척도**에서 동작합니다. 이를 하나의 그림으로 정리하면 전체 시스템이 어떻게 맞물리는지 보입니다.

느림 ◀──────────────────────────────────────────▶ 빠름

과제 계획 보행/발디딤 계획 전신 제어(WBC) 저수준 모터 제어

(수 Hz 이하) (수~수십 Hz) (수백 Hz) (수 kHz)

│ │ │ │

"무엇을 할지" "어디에 발을 둘지" "온몸을 어떻게" "관절 전류"

│ │ │ │

└────────▶────────┴────────▶──────────┴────────▶────────┘

상위 → 하위로 목표 전달

하위 → 상위로 상태 피드백

이 계층 구조가 중요한 이유는, 각 층이 자신에게 맞는 속도로 자신에게 맞는 문제만 풀기 때문입니다. 느린 계획층이 kHz로 돌 필요는 없고, 빠른 모터 제어가 전체 작업을 알 필요도 없습니다. 관심사를 분리(separation of concerns)하는 이 설계는 소프트웨어 공학의 계층화와 정확히 같은 철학입니다.

MPC: 앞을 내다보며 걷기

ZMP 아이디어를 한 단계 발전시킨 것이 **모델 예측 제어(Model Predictive Control, MPC)**입니다. MPC는 매 제어 주기마다 다음을 반복합니다.

1. 현재 상태를 관측한다.

2. 동역학 모델을 이용해 미래 일정 구간(예측 지평, horizon)의 움직임을 예측한다.

3. 그 구간에서 비용(균형 이탈, 에너지, 목표 이탈 등)을 최소화하는 제어 입력 시퀀스를 최적화로 구한다.

4. 그중 첫 스텝만 실제로 실행하고, 다음 주기에 다시 처음부터 반복한다.

현재 상태 ─┐

▼

┌──────────────────────────────┐

│ 예측 지평에서 미래 궤적 최적화 │

│ t ── t+1 ── t+2 ── ... ── t+N │

└───────────────┬──────────────┘

│ 첫 입력만 실행

▼

로봇에 명령 적용

│

▼ (다음 주기에 다시 관측 → 재최적화)

반복 (receding horizon)

MPC의 강점은 "앞을 내다본다"는 데 있습니다. 지금 당장은 조금 손해처럼 보여도 몇 스텝 뒤 균형에 유리한 선택을 할 수 있고, 외란이 들어오면 다음 주기에 곧바로 계획을 갱신합니다. 다리·팔·몸통을 단순화한 강체 모델(예: 단일 강체 동역학, SRBD) 위에서 접촉력을 직접 최적화하는 MPC는 동적인 걷기·뛰기·계단 오르기 같은 움직임에서 널리 쓰입니다.

대가는 계산량입니다. 예측 지평이 길고 모델이 정교할수록 실시간(수백 Hz~수 kHz) 최적화가 부담이 됩니다. 그래서 실무에서는 모델을 적절히 단순화하고, 고속 저수준 제어와 저속 계획을 계층으로 나눕니다.

전신 제어: 온몸을 하나의 목표로

지금까지는 주로 "무게중심과 발"에 집중했습니다. 하지만 휴머노이드는 두 팔, 몸통, 목까지 수십 개의 관절을 동시에 씁니다. 걸으면서 물건을 들고, 문을 밀고, 넘어지려는 순간 팔을 뻗어 버티는 일은 다리만으로 되지 않습니다.

**전신 제어(Whole-Body Control, WBC)**는 이 모든 관절을 하나의 최적화 문제로 묶습니다. 여러 개의 목표(task)를 동시에 만족시키되, 물리적 제약(관절 한계, 접촉력, 마찰) 안에서 균형을 유지하도록 관절 토크나 가속도를 계산합니다.

┌──────────── 상위 계획(느림) ───────────┐

│ 발 디딤 계획 · 보행 패턴 · 목표 자세 │

└────────────────────┬───────────────────┘

│ 목표(task) 전달

▼

┌──────────── 전신 제어(WBC) ─────────────┐

│ 다중 목표 우선순위: │

│ 1) 균형(무게중심/ZMP 유지) ← 최우선 │

│ 2) 발/손 궤적 추종 │

│ 3) 자세·시선 등 부가 목표 │

│ 제약: 관절 한계 · 접촉 마찰 · 토크 한계 │

└────────────────────┬───────────────────┘

│ 관절 토크/가속도

▼

┌──────────── 저수준 구동(빠름) ────────────┐

│ 각 관절 모터 전류/토크 제어 (고주파) │

└────────────────────────────────────────┘

WBC의 핵심 아이디어는 **우선순위**입니다. 균형 유지처럼 절대 양보할 수 없는 목표를 최상위에 두고, 손 궤적 추종 같은 목표는 그 아래에 둡니다. 상위 목표를 해치지 않는 범위(영공간, null space) 안에서만 하위 목표를 추구하도록 만들면, 팔을 뻗다가 넘어지는 일을 막을 수 있습니다.

구현은 보통 **정규 최적화(예: 이차계획법, QP)** 형태로 이루어집니다. 개념을 아주 단순화한 의사코드는 다음과 같습니다.

개념적 전신 제어 QP (단순화된 의사코드)

변수: 관절 가속도 qdd, 접촉력 f

목표: 여러 task 오차를 최소화, 제약은 물리 법칙과 한계

minimize sum_i w_i * || J_i @ qdd + dJ_i @ qd - a_desired_i ||^2

subject to

M @ qdd + h == S.T @ tau + Jc.T @ f # 전신 동역학 방정식

friction_cone(f) # 접촉 마찰 원뿔 제약

tau_min <= tau <= tau_max # 토크 한계

qdd within joint_limits # 관절 한계

여기서 각 `J_i`는 특정 목표(무게중심, 발, 손 등)에 대한 야코비안이고, `w_i`는 우선순위 가중치입니다. 실제로는 가중치 대신 엄격한 계층(hierarchical QP)을 쓰기도 합니다. 중요한 것은 "온몸을 물리 법칙 안에서 여러 목표를 조율해 움직인다"는 관점입니다.

균형과 낙상 회복

아무리 잘 걸어도 밀리고, 미끄러지고, 헛디디는 순간은 옵니다. 균형 회복 전략은 대체로 사람과 비슷하게 세 단계로 나뉩니다.

| 전략 | 설명 | 사람의 예 |

| --- | --- | --- |

| 발목 전략 | 발목 토크로 무게중심을 미세 조정 | 작은 흔들림에 발목으로 버티기 |

| 엉덩이 전략 | 상체를 굽혀 무게중심을 빠르게 이동 | 크게 밀렸을 때 허리를 굽혀 균형 |

| 스텝 전략 | 발을 새로 내디뎌 지지면을 옮김 | 세게 밀렸을 때 한 발 내딛기 |

외란이 작으면 발목으로, 커지면 엉덩이로, 더 커지면 발을 내디디는 순서입니다. 스텝 전략에서 특히 중요한 개념이 **캡처 포인트(capture point)** 혹은 발산 성분(divergent component of motion)입니다. 대략적으로, "지금 여기에 발을 내디디면 무게중심이 그 위에서 멈춘다"는 지점을 실시간으로 계산해 다음 발 위치를 정하는 것입니다.

그럼에도 넘어질 때가 있습니다. 최근에는 **낙상 자체를 관리**하는 연구도 활발합니다. 넘어짐이 불가피할 때 충격을 줄이는 자세를 취하고, 바닥에 누운 상태에서 다시 일어서는(get-up) 동작을 학습으로 익히는 것입니다. 값비싼 하드웨어를 보호하고, 쓰러진 뒤에도 스스로 복구하는 능력은 실전 배치에서 매우 중요합니다.

학습 기반 로코모션: RL의 부상

전통적인 모델 기반 제어(ZMP, MPC, WBC)는 물리를 명시적으로 다루기 때문에 해석 가능하고 안정적입니다. 하지만 모델이 부정확하거나 지형이 예측 불가능하면 한계가 생깁니다. 이 지점에서 **강화학습(Reinforcement Learning, RL)** 기반 로코모션이 주목받았습니다.

아이디어는 단순합니다. 시뮬레이션 안에서 로봇에게 "앞으로 잘 걸으면 보상, 넘어지면 벌점"을 주고, 수많은 시행착오를 거쳐 걷기 정책(policy)을 학습시킵니다. 정책은 보통 관측(관절 각도·속도, 몸통 자세, 명령 속도 등)을 입력받아 관절 목표(토크나 목표 각도)를 출력하는 신경망입니다.

┌─────────────────── 시뮬레이션 학습 루프 ───────────────────┐

│ │

│ 관측 s_t ──▶ [정책 신경망] ──▶ 행동 a_t │

│ ▲ │ │

│ │ ▼ │

│ 시뮬레이터(수천 개 병렬 환경) ◀── 관절 목표 적용 │

│ │ │ │

│ └──── 보상 r_t (전진·안정·에너지) ◀─────────────────────┘

│ │

│ 수십억 스텝의 시행착오로 정책 갱신 │

└────────────────────────────────────────────────────────────┘

RL 로코모션의 강점은 **거친 지형과 외란에 대한 강건성**입니다. 다양한 지형과 방해를 시뮬레이션에서 무작위로 겪게 하면, 정책은 미리 프로그래밍하지 않은 회복 동작까지 스스로 익힙니다. 계단, 자갈밭, 미끄러운 바닥에서도 넘어지지 않고 걷는 사족보행·이족보행 정책들이 이 방식으로 만들어졌습니다.

보상 설계라는 예술

RL의 성패는 상당 부분 **보상 함수 설계**에 달려 있습니다. "잘 걸으면 보상"이라는 한 문장을 실제 수식으로 옮기려면 여러 항을 신중히 조합해야 합니다. 개념적으로는 다음과 같은 항들을 더합니다.

총 보상 =

+ 전진 속도 추종 (명령 속도에 가까울수록 +)

+ 생존 (넘어지지 않고 살아 있으면 +)

- 에너지 소모 (관절 토크가 클수록 -)

- 몸통 흔들림 (자세가 크게 기울면 -)

- 발 미끄러짐 (접촉 중 발이 미끄러지면 -)

- 관절 한계 근접 (한계에 붙으면 -)

여기서 각 항의 **가중치**가 정책의 성격을 결정합니다. 에너지 항을 세게 주면 아끼며 걷는 정책이, 속도 항을 세게 주면 저돌적인 정책이 나옵니다. 가중치를 잘못 두면 로봇이 "보상을 편법으로 챙기는" 예상 밖 행동(reward hacking)을 학습하기도 합니다. 예를 들어 전진 보상만 크게 주면, 균형을 무시하고 앞으로 쓰러지듯 나아가는 이상한 걸음을 배울 수 있습니다. 그래서 보상 설계는 과학이자 경험의 예술입니다.

커리큘럼 학습

처음부터 계단이나 자갈밭을 주면 정책은 아무것도 배우지 못하고 계속 넘어지기만 합니다. 그래서 **커리큘럼(curriculum)**을 씁니다. 처음에는 평지에서 천천히 걷는 쉬운 과제를 주고, 정책이 성공하기 시작하면 지형의 거칠기와 명령 속도를 점점 높입니다. 사람이 걸음마부터 배우듯, 로봇도 난도를 단계적으로 올려야 잘 배웁니다.

평가: 잘한다는 것을 어떻게 재는가

"이 로봇이 잘 걷는다"를 공정하게 비교하려면 지표가 필요합니다. 흔히 쓰이는 것들은 이렇습니다.

- **성공률**: 정해진 과제(예: 계단 10칸 오르기)를 몇 번 중 몇 번 성공했는가.

- **외란 강건성**: 옆에서 얼마나 세게 밀어도 넘어지지 않는가.

- **이동 효율(CoT, cost of transport)**: 단위 거리를 가는 데 든 에너지. 낮을수록 효율적입니다.

- **속도·지형 범위**: 얼마나 빠르게, 얼마나 다양한 지형을 다룰 수 있는가.

문제는 이 지표들을 재는 실험 환경이 연구마다 달라, 서로 다른 논문의 숫자를 직접 비교하기 어렵다는 점입니다. 표준화된 평가 프로토콜의 부재는 이 분야의 오래된 숙제입니다. 데모 영상 하나로 "우리가 최고"라고 말하기 쉬운 만큼, 재현 가능한 공정한 평가의 중요성은 오히려 더 커지고 있습니다.

Sim2Real: 시뮬레이션에서 실물로

RL의 결정적 난관은 **시뮬레이션과 현실의 간극(sim-to-real gap)**입니다. 시뮬레이터의 물리는 완벽하지 않고, 실제 모터에는 지연·마찰·백래시가 있으며, 센서에는 노이즈가 있습니다. 시뮬레이션에서 완벽하던 정책이 실물에서 넘어지는 일은 흔합니다.

이를 좁히는 핵심 기법이 **도메인 랜덤화(domain randomization)**입니다. 학습 중에 물리 파라미터(질량, 마찰, 모터 강성, 지연 등)를 무작위로 흔들어, 정책이 특정 값에 과적합하지 않고 넓은 범위에서 동작하도록 만듭니다. 현실이 어떤 값이든 학습 분포 안에 들어오면, 정책은 그것을 "겪어본 상황 중 하나"로 처리합니다.

시뮬레이션(하나의 완벽한 물리) 현실(불확실한 하나의 물리)

● ← 여기에만 최적화 ? ← 여기서 실패 위험

도메인 랜덤화 적용 후:

● ● ● ● ● ● ← 넓게 분포된 여러 물리로 학습

└──────────▶ 현실(?)이 이 분포 안에 들어오면 강건하게 동작

이 밖에도 실측 데이터로 시뮬레이터를 보정하는 시스템 식별, 실물에서 소량의 데이터로 미세 조정하는 방법, 관측을 몸에서 직접 얻을 수 있는 값(고유수용감각, proprioception) 위주로 구성해 센서 의존을 줄이는 설계 등이 함께 쓰입니다.

보행과 조작의 통합: 로코-매니퓰레이션

걷기만 잘해도 부족합니다. 실제 일은 "걸어가서 무언가를 집어 다른 곳에 놓는" 것입니다. 이동(locomotion)과 조작(manipulation)을 함께 다루는 문제를 **로코-매니퓰레이션(loco-manipulation)**이라 부릅니다.

이 둘은 서로를 방해합니다. 무거운 물건을 한 손에 들면 무게중심이 옮겨가 균형이 흔들리고, 문을 밀려고 몸을 기울이면 발의 힘 분포가 바뀝니다. 그래서 잘 만든 시스템은 팔의 조작 목표와 다리의 균형 목표를 **하나의 전신 제어 안에서** 함께 풉니다.

┌── 조작 목표 ──┐ ┌── 이동/균형 목표 ──┐

│ 손 위치·힘 │ │ 무게중심 · 발 디딤 │

└──────┬────────┘ └─────────┬──────────┘

│ │

└───────────┬───────────────┘

▼

전신 제어(WBC)에서 함께 최적화

│

▼

"들면서 걷기" · "밀면서 버티기"가 하나의 움직임으로

학습된 정책의 계층: 행동 파운데이션 모델로의 흐름

최근 흐름은 제어를 계층으로 쌓는 방향입니다. 아래층에는 걷기·균형 같은 빠르고 강건한 저수준 정책(주로 RL로 학습)이 있고, 위층에는 "무엇을 할지"를 정하는 느린 고수준 정책이 있습니다.

이 위층에서 최근 주목받는 개념이 **행동 파운데이션 모델(behavior foundation model)** 흐름입니다. 다양한 작업과 몸(embodiment)에서 모은 대규모 데이터로 하나의 큰 정책을 학습해, 여러 동작을 폭넓게 다루려는 시도입니다. 특히 로봇 분야에서는 시각·언어·행동을 함께 다루는 **VLA(Vision-Language-Action)** 모델이 빠르게 발전하고 있습니다.

- **RT-2** (Google DeepMind, arXiv 2307.15818): 비전-언어 모델(VLM)을 로봇 데이터로 파인튜닝해, 행동을 이산화(discretized action)된 토큰으로 출력하도록 만든 접근입니다.

- **OpenVLA** (arXiv 2406.09246): 약 97만 개의 실제 로봇 시연으로 학습한 7B 규모의 오픈 VLA 모델로, DINOv2·SigLIP 비전 인코더와 Llama 2 언어 모델을 결합했습니다.

- **π0** (Physical Intelligence): 플로우 매칭/디퓨전 기반으로 연속적인 고주파 행동을 생성하는 방향의 정책입니다.

- **GR00T N1** (NVIDIA): 빠른 반응을 담당하는 System 1(디퓨전 계열)과 계획을 담당하는 System 2를 결합한 듀얼 구조를 표방합니다.

- **Helix** (Figure AI): 휴머노이드를 겨냥한 일반화 VLA 흐름의 사례로 언급됩니다.

이런 상위 모델이 "빨간 컵을 집어 서랍에 넣어"라는 목표를 손·발의 목표로 풀어내면, 아래층의 로코모션·WBC 정책이 그 목표를 물리적으로 실현하는 식의 분업이 자연스럽게 나타납니다. 다만 이 분야는 매우 빠르게 변하고 있어, 구체적인 성능·구조는 발표와 세대에 따라 다를 수 있습니다.

실물 휴머노이드 로봇들

사실에 근거해, 널리 알려진 사례를 개념 수준에서만 짚습니다. 세부 사양은 세대·발표 시점에 따라 크게 달라지므로 여기서는 방향성만 언급합니다.

| 로봇 | 개발 주체 | 알려진 특징(개념 수준) |

| --- | --- | --- |

| Atlas | Boston Dynamics | 역동적 전신 움직임과 이동 시연으로 널리 알려짐 |

| Figure | Figure AI | 상용 작업을 겨냥한 휴머노이드, VLA 흐름과 연계 언급 |

| Unitree 휴머노이드 | Unitree Robotics | 상대적으로 접근성 높은 이족보행 플랫폼으로 알려짐 |

| Digit | Agility Robotics | 물류·창고 작업을 겨냥한 휴머노이드로 소개됨 |

각 사의 최신 모델, 정확한 관절 수, 속도, 가반하중 등은 공식 자료에서 확인하는 것이 안전합니다.

함정과 한계

- **시뮬레이션 과신**: 시뮬레이션 성공이 실물 성공을 보장하지 않습니다. sim2real 간극은 여전히 큰 벽입니다.

- **안전**: 무거운 로봇이 사람 곁에서 움직이는 이상, 넘어짐·충돌·오작동에 대한 안전 설계가 전제되어야 합니다.

- **에너지와 지속시간**: 두 발로 서서 움직이는 것은 에너지 소모가 큽니다. 배터리 지속시간은 실용성의 큰 제약입니다.

- **일반화의 착시**: 시연 영상은 특정 조건에서 최적화된 경우가 많습니다. 낯선 환경·물체로의 일반화는 별개의 어려운 문제입니다.

- **평가의 어려움**: "잘 걷는다", "잘 다룬다"를 공정하게 비교할 표준 지표가 아직 성숙 중입니다.

- **하드웨어 신뢰성**: 수십 개의 고출력 액추에이터를 오래, 반복적으로 견디게 만드는 것은 소프트웨어만큼 어려운 공학 문제입니다.

제어 패러다임 비교

지금까지 본 접근들을 한눈에 정리하면, 각자의 자리가 분명해집니다.

| 접근 | 핵심 아이디어 | 강점 | 약점 |

| --- | --- | --- | --- |

중요한 것은 이들이 경쟁 관계라기보다 **계층의 다른 층**을 맡는다는 점입니다. 잘 만든 시스템은 상위에 파운데이션 모델, 중간에 MPC·WBC, 하위에 학습된 저수준 정책을 두는 식으로 여러 접근을 조합합니다. "하나의 은탄환"을 찾기보다, 각 층에 맞는 도구를 배치하는 공학적 감각이 실전에서는 더 중요합니다.

원격 조종과 데이터 수집

학습 기반 조작·보행의 병목은 결국 **데이터**입니다. 휴머노이드에게 새로운 일을 가르치는 가장 직접적인 방법 중 하나는 사람이 원격으로 로봇을 조종하며 시연을 보여주는 것입니다.

사람 조작자 ──▶ [원격 조종 장치]

│ (동작 매핑)

▼

휴머노이드 로봇 ──▶ 실제 동작 수행

│

▼

(관측·행동 쌍을 데이터로 기록)

│

▼

모방학습으로 정책 학습 ──▶ 이후 자율 수행

원격 조종에는 여러 방식이 있습니다. 사람의 팔 움직임을 모션 캡처로 로봇 팔에 매핑하기도 하고, VR 컨트롤러로 손의 목표 위치를 지시하기도 합니다. 어느 쪽이든 목표는 "사람의 의도를 로봇의 몸으로 옮기고, 그 과정을 데이터로 남기는" 것입니다. 이렇게 모은 시연은 뒤에서 모방학습이나 파운데이션 모델 학습의 연료가 됩니다.

다만 원격 조종에는 어려움이 있습니다. 사람과 로봇의 몸이 다르면(팔 길이, 관절 배치) 동작이 그대로 옮겨지지 않고, 지연이 있으면 조작감이 떨어집니다. 그래도 실제 로봇에서 나온 데이터라는 점에서, 시뮬레이션만으로 채우기 어려운 빈틈을 메워 줍니다.

앞으로의 방향

휴머노이드 제어는 여러 흐름이 동시에 수렴하는 지점에 있습니다.

- **모델 기반과 학습의 융합**: ZMP·MPC의 안정성과 RL의 강건성을 결합하려는 하이브리드 접근이 늘고 있습니다. 저수준은 학습, 상위 계획은 모델 기반 식의 역할 분담입니다.

- **조작과 보행의 통합 심화**: 로코-매니퓰레이션을 하나의 정책으로 다루려는 시도가 계속됩니다.

- **파운데이션 모델의 상향식 침투**: VLA와 행동 파운데이션 모델이 상위 계획층을 점점 대체하며, 언어로 지시하는 인터페이스가 자연스러워지고 있습니다.

- **하드웨어의 성숙**: 힘 제어에 유리하고 내구성 있는 액추에이터, 가벼운 소재, 오래가는 배터리가 실용성의 열쇠입니다.

이 흐름들이 어디서 만날지는 아직 열려 있습니다. 확실한 것은, 어느 한 기술만으로 휴머노이드가 완성되지는 않는다는 점입니다. 물리, 학습, 하드웨어, 안전이 함께 성숙해야 합니다.

한 가지 강조하고 싶은 것은, 화려한 데모 영상과 매일의 작업을 확실히 해내는 실용성 사이에는 아직 큰 거리가 있다는 점입니다. 특정 조건에서 최적화된 한 번의 성공과, 낯선 환경에서 반복적으로 성공하는 신뢰성은 전혀 다른 난도입니다. 이 거리를 냉정히 바라보는 것이 기술을 정확히 이해하는 출발점입니다.

마치며

휴머노이드 제어는 물리와 학습이 만나는 지점입니다. ZMP와 MPC, 전신 제어 같은 모델 기반 방법은 물리를 명시적으로 다뤄 안정성과 해석 가능성을 줍니다. 강화학습과 sim2real은 거친 현실에 대한 강건성을 더합니다. 그리고 그 위로 VLA와 행동 파운데이션 모델 흐름이 "무엇을 할지"를 넓게 다루려 합니다.

두 발로 걷는 일과 손으로 다루는 일을 하나의 몸 안에서 함께 해내는 것 — 그 통합이 지금 이 분야의 가장 뜨거운 전선입니다. 아직 갈 길은 멀지만, 로봇이 사람의 공간을 사람처럼 걸어 다니며 일하는 미래는, 데모 영상 속에서 조금씩 실제 작업으로 옮겨가고 있습니다.

참고 자료

- RT-2: Vision-Language-Action Models (arXiv): [https://arxiv.org/abs/2307.15818](https://arxiv.org/abs/2307.15818)

- OpenVLA: An Open-Source Vision-Language-Action Model (arXiv): [https://arxiv.org/abs/2406.09246](https://arxiv.org/abs/2406.09246)

- Open X-Embodiment (arXiv): [https://arxiv.org/abs/2310.08864](https://arxiv.org/abs/2310.08864)

- Physical Intelligence (π0): [https://www.physicalintelligence.company/](https://www.physicalintelligence.company/)

- Boston Dynamics Atlas: [https://bostondynamics.com/atlas/](https://bostondynamics.com/atlas/)

- Agility Robotics Digit: [https://www.agilityrobotics.com/](https://www.agilityrobotics.com/)

- Unitree Robotics: [https://www.unitree.com/](https://www.unitree.com/)

- NVIDIA Isaac (로봇 시뮬레이션/학습): [https://developer.nvidia.com/isaac](https://developer.nvidia.com/isaac)