- Authors

- Name
- Youngju Kim
- @fjvbn20031
- 들어가며
- 로봇 학습의 네 가지 접근
- 모방학습 — 시범을 보고 따라 하기
- 강화학습 — 시행착오로 스스로 배우기
- 역강화학습 — 시연에서 보상을 추론하기
- 두 접근의 비교
- 두 접근을 결합하기
- 실무에서의 판단 기준
- 데이터 효율을 수치로 이해하기
- 정책 평가 방법론
- 하나의 과제로 보는 전체 흐름
- 함정과 주의점
- 마치며
- 참고 자료
들어가며
로봇에게 "커피잔을 집어 옮겨라"라고 말하는 것은 쉽습니다. 그러나 그 한 문장 뒤에는 손끝의 힘 조절, 잔의 위치 추정, 팔의 궤적 계획, 미끄러짐 감지 같은 수많은 저수준 제어가 숨어 있습니다. 사람은 어린 시절부터 수없이 넘어지고 쏟으며 이런 감각을 몸에 익히지만, 로봇은 처음부터 이 모든 것을 스스로 배우거나 누군가로부터 배워야 합니다.
로봇이 기술을 습득하는 방식은 크게 네 가지로 나눌 수 있습니다. 사람이 시범을 보이면 그것을 따라 배우는 모방학습, 시행착오와 보상을 통해 스스로 최적의 행동을 찾아가는 강화학습, 가상 환경에서 대량의 경험을 쌓는 시뮬레이션 학습, 그리고 사람이 규칙과 궤적을 직접 코딩하는 사전 프로그래밍입니다.
이 글에서는 특히 최근 로봇 학습 연구의 중심에 있는 모방학습과 강화학습을 깊이 있게 다룹니다. 두 방법이 어떻게 작동하는지, 각각 어떤 상황에서 강하고 약한지, 데이터를 얼마나 필요로 하는지, 그리고 왜 최신 연구들이 두 방법을 결합하려 하는지를 살펴봅니다. 정확성을 위해, 구체적인 수치나 특정 시스템의 세부 사양은 확실한 것만 언급하고 불확실한 부분은 일반화하여 서술합니다.
로봇 학습의 네 가지 접근
먼저 전체 지형을 조망해 봅니다. 아래 다이어그램은 로봇이 행동 정책(어떤 상태에서 어떤 행동을 할지 결정하는 함수)을 얻는 네 가지 경로를 보여줍니다.
로봇 정책(Policy)을 얻는 경로
─────────────────────────────
(1) 사전 프로그래밍 (2) 모방학습
┌───────────────────┐ ┌───────────────────────┐
│ 사람이 규칙·궤적을 │ │ 사람이 시범을 보이고 │
│ 직접 코드로 작성 │ │ 로봇이 데이터로 학습 │
│ │ │ │
│ 예: 용접 로봇의 │ │ 예: 텔레오퍼레이션으로 │
│ 고정 경로 │ │ 수집한 조작 시연 │
└─────────┬─────────┘ └───────────┬───────────┘
│ │
▼ ▼
┌──────────────────────────────────────────┐
│ 행동 정책 π(a | s) │
│ 상태 s ──▶ 행동 a 를 결정하는 함수 │
└──────────────────────────────────────────┘
▲ ▲
│ │
┌─────────┴─────────┐ ┌───────────┴───────────┐
│ 대량 가상 경험으로 │ │ 보상 신호를 최대화하도록 │
│ 정책을 훈련 │ │ 시행착오로 정책을 개선 │
│ │ │ │
│ 예: 물리엔진 안에서 │ │ 예: 넘어지지 않으면 +보상 │
│ 수천 시간 병렬 │ │ 쓰러지면 -보상 │
└───────────────────┘ └───────────────────────┘
(3) 시뮬레이션 학습 (4) 강화학습
네 접근은 배타적이지 않습니다. 실제 시스템은 시뮬레이션에서 강화학습으로 초벌 정책을 만들고, 현실의 사람 시연으로 모방학습을 통해 다듬는 식으로 여러 방법을 조합하는 경우가 많습니다. 이어지는 절에서 모방학습과 강화학습을 하나씩 자세히 살펴봅니다.
모방학습 — 시범을 보고 따라 하기
모방학습(Imitation Learning)의 기본 발상은 단순합니다. 전문가(대개 사람)가 과제를 수행하는 모습을 데이터로 남기고, 로봇이 그 데이터로부터 "이런 상태에서는 이런 행동을 한다"는 대응 관계를 학습하는 것입니다. 핵심은 명시적인 보상 함수를 설계하지 않아도 된다는 점입니다. "무엇이 좋은 행동인가"를 수식으로 정의하는 대신, 좋은 행동의 예시를 보여주면 됩니다.
시연 데이터를 모으는 방법
모방학습의 성패는 시연 데이터의 질과 양에 달려 있습니다. 데이터를 수집하는 대표적인 방법은 다음과 같습니다.
- 텔레오퍼레이션(Teleoperation): 사람이 조이스틱, VR 컨트롤러, 또는 로봇 팔을 닮은 마스터 장치로 로봇을 원격 조작합니다. 이때 로봇의 관절 각도, 그리퍼 상태, 카메라 이미지가 함께 기록되어 상태-행동 쌍이 만들어집니다. 로봇 자신의 몸으로 데이터가 수집되므로 형태 불일치 문제가 적습니다.
- 모션 캡처(Motion Capture): 사람의 동작을 마커나 카메라로 추적하여 궤적을 얻습니다. 자연스러운 동작을 대량으로 얻을 수 있지만, 사람의 신체와 로봇의 신체가 달라 그대로 옮기기 어려운 리타게팅(retargeting) 문제가 있습니다.
- 키네스테틱 교시(Kinesthetic Teaching): 사람이 로봇 팔을 직접 손으로 잡고 움직여 원하는 궤적을 시연합니다. 직관적이지만 대규모 수집에는 부적합합니다.
행동 복제 — 가장 기본적인 형태
모방학습의 가장 단순한 형태는 행동 복제(Behavioral Cloning, BC)입니다. 이것은 본질적으로 지도학습입니다. 상태를 입력, 전문가의 행동을 정답 레이블로 두고, 정책 신경망이 그 대응을 흉내 내도록 학습시킵니다.
# 행동 복제의 개념적 학습 루프 (의사코드에 가까운 예시)
import torch
import torch.nn as nn
class PolicyNet(nn.Module):
def __init__(self, obs_dim, act_dim):
super().__init__()
self.net = nn.Sequential(
nn.Linear(obs_dim, 256), nn.ReLU(),
nn.Linear(256, 256), nn.ReLU(),
nn.Linear(256, act_dim),
)
def forward(self, obs):
return self.net(obs)
policy = PolicyNet(obs_dim=32, act_dim=7)
optimizer = torch.optim.Adam(policy.parameters(), lr=1e-4)
loss_fn = nn.MSELoss()
# demo_states, demo_actions: 전문가 시연에서 수집한 상태-행동 쌍
for states, expert_actions in dataloader:
predicted = policy(states)
loss = loss_fn(predicted, expert_actions) # 전문가 행동과의 차이 최소화
optimizer.zero_grad()
loss.backward()
optimizer.step()
행동 복제는 구현이 쉽고 학습이 안정적이라는 큰 장점이 있습니다. 그러나 치명적인 약점이 하나 있는데, 바로 분포 이동(distribution shift) 문제입니다.
분포 이동과 복합 오차
행동 복제로 학습한 정책은 시연에서 본 상태들에서만 잘 작동합니다. 로봇이 실제로 움직이다 보면 아주 작은 오차가 생기고, 그 오차 때문에 시연에서 한 번도 본 적 없는 상태에 도달합니다. 그런 상태에서는 정책이 무엇을 해야 할지 모르기 때문에 더 큰 오차를 냅니다. 이 오차가 눈덩이처럼 불어나는 것을 복합 오차(compounding error)라고 합니다.
시연 분포(전문가가 지나간 상태들)
●●●●●●●●●●●●●●●●●●●●●●▶ 목표
│
│ 작은 오차 발생
▼
○ ── 시연에 없던 상태(정책이 미숙)
│
│ 더 큰 오차
▼
○ ─────── 점점 더 낯선 상태로 이탈
(복합 오차로 과제 실패)
DAgger — 낯선 상태에도 대비하기
이 문제를 완화하는 대표적 기법이 DAgger(Dataset Aggregation)입니다. 핵심 발상은 "로봇이 실제로 방문하는 상태에서 전문가라면 어떻게 했을지"를 추가로 물어보는 것입니다.
절차는 다음과 같습니다. 먼저 초기 시연으로 정책을 학습합니다. 그 정책을 실제로 굴려 보면 로봇은 시연에 없던 새로운 상태들을 방문하게 됩니다. 이때 그 상태들을 기록해 두었다가, 전문가에게 "이 상태에서는 어떤 행동이 옳은가"를 레이블링하게 합니다. 새로 얻은 상태-행동 쌍을 기존 데이터에 합쳐 정책을 다시 학습합니다. 이 과정을 반복하면 정책이 방문하는 상태 분포와 학습 데이터의 분포가 점점 일치하게 됩니다.
DAgger 반복 루프
─────────────────
[1] 현재 정책으로 로봇을 실행
│
▼
[2] 로봇이 방문한 상태들을 수집
│
▼
[3] 전문가가 그 상태들에 올바른 행동을 레이블링
│
▼
[4] 데이터셋에 누적 후 정책 재학습
│
└────────▶ (다시 [1]로)
DAgger의 대가는 전문가의 반복적인 개입입니다. 사람이 계속 레이블링을 해야 하므로 비용이 큽니다. 그럼에도 복합 오차 문제를 실질적으로 줄여 주기 때문에 널리 쓰입니다.
강화학습 — 시행착오로 스스로 배우기
강화학습(Reinforcement Learning, RL)은 전혀 다른 철학에서 출발합니다. 시범을 보여주는 대신, "무엇이 좋은가"를 보상(reward)이라는 스칼라 신호로 정의합니다. 로봇(에이전트)은 환경과 상호작용하며 행동을 취하고, 그 결과로 보상을 받습니다. 목표는 누적 보상(장기적으로 받는 보상의 총합)을 최대화하는 정책을 찾는 것입니다.
핵심 구성 요소
강화학습의 상호작용 구조는 다음과 같이 요약됩니다.
강화학습의 상호작용 루프
─────────────────────────
┌────────────────────────┐
│ 에이전트 │
│ (정책 π: s ──▶ a) │
└───────┬────────────────┘
│ 행동 a
▼
┌────────────────────────┐
│ 환경 │
│ (로봇 + 물리 세계) │
└───────┬────────────────┘
│ 새로운 상태 s', 보상 r
▼
┌────────────────────────┐
│ 경험 (s, a, r, s') 축적 │
│ ──▶ 정책 π 를 개선 │
└────────────────────────┘
- 상태(State): 로봇과 환경의 현재 상황. 관절 각도, 물체 위치, 카메라 이미지 등.
- 행동(Action): 로봇이 취할 수 있는 조작. 관절 토크, 목표 속도 등.
- 보상(Reward): 각 시점에서 받는 즉각적 평가 신호. 예를 들어 목표에 가까워지면 양의 보상, 물건을 떨어뜨리면 음의 보상.
- 정책(Policy): 상태를 행동으로 매핑하는 함수. 강화학습이 개선하려는 대상입니다.
- 탐험과 활용(Exploration vs Exploitation): 이미 좋다고 아는 행동을 반복(활용)할지, 더 나은 행동을 찾아 새로운 시도(탐험)를 할지의 균형. 이 균형이 강화학습의 핵심 난제 중 하나입니다.
보상 설계의 어려움
강화학습의 성능은 보상 함수를 얼마나 잘 설계하느냐에 크게 좌우됩니다. 보상이 너무 드물면(예: 과제를 완전히 성공했을 때만 +1) 에이전트가 우연히 성공하기 전까지 아무 학습 신호도 받지 못합니다. 반대로 보상을 촘촘하게 설계하면(reward shaping) 학습은 빨라지지만, 설계자가 의도하지 않은 방식으로 보상을 극대화하는 보상 해킹(reward hacking)이 발생할 수 있습니다.
희소 보상(sparse) vs 조밀 보상(dense)
─────────────────────────────────────
희소: ......................● (성공 순간에만 +1)
학습 신호가 드물어 초기 탐험이 매우 어려움
조밀: ▁▂▃▄▅▆▇█ (목표에 가까워질수록 점증)
학습은 빠르나, 잘못 설계하면 보상 해킹 위험
데이터 효율과 안전 문제
물리 로봇에서 강화학습을 직접 돌리는 데에는 두 가지 큰 장벽이 있습니다.
첫째, 데이터 효율입니다. 강화학습은 보통 수십만에서 수백만 번의 상호작용을 필요로 합니다. 현실의 로봇으로 이만큼 시행착오를 하려면 엄청난 시간과 마모가 발생합니다. 그래서 많은 연구가 시뮬레이션에서 학습한 뒤 현실로 옮기는 sim-to-real 접근을 택합니다.
둘째, 안전입니다. 탐험 과정에서 로봇은 무작위에 가까운 행동을 시도하는데, 이것이 로봇 자신이나 주변을 손상시킬 수 있습니다. 현실 학습에서는 안전 제약을 두거나 사람이 개입하는 안전장치가 필수적입니다.
역강화학습 — 시연에서 보상을 추론하기
모방학습과 강화학습 사이에는 흥미로운 중간 지대가 있습니다. 바로 역강화학습(Inverse Reinforcement Learning, IRL)입니다.
일반적인 강화학습은 보상 함수가 주어졌을 때 최적 정책을 찾습니다. 역강화학습은 그 반대입니다. 전문가의 시연이 주어졌을 때, "이 전문가는 어떤 보상을 최대화하려 했을까"라는 숨은 보상 함수를 추론합니다. 그렇게 추론한 보상으로 다시 강화학습을 돌려 정책을 얻습니다.
일반 RL vs 역강화학습(IRL)
──────────────────────────
일반 RL: 보상 함수 ──▶ (강화학습) ──▶ 정책
IRL: 전문가 시연 ──▶ (보상 추론) ──▶ 보상 함수
│
▼
(강화학습) ──▶ 정책
역강화학습이 매력적인 이유는, 단순히 행동을 흉내 내는 대신 행동의 "의도"를 담은 보상을 복원하려 하기 때문입니다. 보상 함수는 상태에 대한 간결한 평가이므로, 시연에 없던 새로운 상황에도 더 잘 일반화할 여지가 있습니다. 다만 하나의 시연을 설명하는 보상 함수가 여러 개 있을 수 있어(모호성) 추론이 근본적으로 어렵다는 한계가 있습니다.
이 접근은 모방학습(시연 활용)과 강화학습(보상 기반 최적화)을 잇는 다리로 볼 수 있으며, 보상을 손으로 설계하기 어려운 과제에서 특히 유용합니다.
두 접근의 비교
지금까지 살펴본 내용을 표로 정리합니다.
| 항목 | 모방학습 | 강화학습 |
|---|---|---|
| 학습 신호 | 전문가 시연 | 보상 함수 |
| 보상 설계 | 불필요 | 필요(핵심 난제) |
| 데이터 출처 | 사람의 시연 | 환경과의 상호작용 |
| 데이터 효율 | 상대적으로 높음 | 상대적으로 낮음 |
| 초기 성능 | 시연 수준까지 빠르게 도달 | 초반에는 매우 낮음 |
| 성능 상한 | 대체로 전문가 수준 | 전문가를 넘어설 수 있음 |
| 주요 약점 | 분포 이동·복합 오차 | 탐험·보상 해킹·안전 |
| 대표 기법 | 행동 복제, DAgger | 정책경사, 액터-크리틱 |
핵심 대비를 한 문장으로 요약하면 이렇습니다. 모방학습은 데이터 효율이 좋지만 시연의 품질에 갇히고, 강화학습은 이론상 시연을 넘어설 수 있지만 막대한 경험과 세심한 보상 설계를 요구합니다.
두 접근을 결합하기
최근 연구의 큰 흐름은 두 방법의 장점을 합치는 것입니다. 대표적인 결합 방식은 다음과 같습니다.
부트스트랩 — 모방으로 시작하고 강화로 다듬기
가장 직관적인 조합은 모방학습으로 정책을 초기화한 뒤 강화학습으로 개선하는 것입니다. 모방학습이 정책을 그럴듯한 출발점에 데려다 놓으면, 강화학습은 초반의 막막한 무작위 탐험을 건너뛰고 그 근처에서 성능을 끌어올립니다. 시연이 탐험의 방향을 잡아 주는 셈입니다.
모방 → 강화 부트스트랩
───────────────────────
무작위 정책 ──(모방학습)──▶ 시연 수준 정책 ──(강화학습)──▶ 시연 초과 정책
[ 성능 ]
높음 ┤ ╭────── 강화로 추가 향상
│ ╭─────────╯
│ ╭─────────╯ ← 모방으로 빠르게 도달
낮음 ┤──────────╯
└──────────────────────────────────▶ [ 학습 시간 ]
오프라인 강화학습 — 시연 데이터를 강화학습으로 다루기
오프라인 강화학습(Offline RL)은 미리 수집된 고정 데이터셋만으로 정책을 학습하는 방법입니다. 새 상호작용 없이, 시연이나 과거 로그에 담긴 상태-행동-보상 정보를 활용합니다. 이는 모방학습처럼 데이터 효율적이면서, 강화학습처럼 보상 정보를 활용해 데이터에 담긴 좋은 행동과 나쁜 행동을 구별할 수 있게 해 줍니다. 다만 데이터에 없는 행동을 과대평가하는 문제를 다루기 위한 별도의 보수적 기법들이 필요합니다.
VLA — 대규모 시연으로 학습하는 일반화 정책
2020년대 중반의 큰 흐름은 대규모 로봇 시연 데이터와 웹의 시각-언어 데이터를 함께 활용하는 Vision-Language-Action(VLA) 모델입니다. 이들은 본질적으로 대규모 모방학습에 뿌리를 두되, 언어 이해와 시각 인식 능력을 사전학습된 대형 모델에서 물려받아 새로운 과제로의 일반화를 노립니다.
- RT-2(Google DeepMind): 시각-언어 모델을 파인튜닝하여, 이산화된(discretized) 행동 토큰을 출력하도록 만든 모델입니다.
- Open X-Embodiment / RT-X: 여러 기관의 서로 다른 로봇에서 모은 교차 로봇 데이터로 학습하여, 로봇 형태를 넘나드는 일반화를 시도합니다.
- OpenVLA: 약 97만 건의 시연으로 학습된 7B 규모의 오픈 모델로, 시각 인코더(DINOv2, SigLIP)와 언어 모델(Llama 2)을 결합했습니다.
- π0(Physical Intelligence): flow matching / diffusion 계열 기법으로 연속적이고 고주파의 행동을 생성하는 접근을 취합니다.
- GR00T N1(NVIDIA): 빠른 반응을 담당하는 System 1(diffusion 기반)과 느린 계획을 담당하는 System 2를 결합한 이중 구조를 지향합니다.
이 모델들은 대개 웹의 시각-언어 데이터와 로봇 궤적을 함께 학습하는 co-fine-tuning을 활용하며, LoRA 같은 기법으로 효율적으로 새 로봇·과제에 적응하기도 합니다. 세부 사양은 버전과 구현에 따라 다를 수 있으므로, 최신 정보는 각 공식 자료를 확인하는 것이 좋습니다.
실무에서의 판단 기준
실제 프로젝트에서 어떤 방법을 택할지는 상황에 달려 있습니다. 대략의 판단 기준을 정리하면 다음과 같습니다.
- 좋은 시연을 쉽게 얻을 수 있고 과제가 비교적 정형적이라면, 모방학습(특히 행동 복제 + DAgger)이 빠르고 안정적인 출발점입니다.
- 시뮬레이터가 충분히 정확하고 보상을 명확히 정의할 수 있다면, 시뮬레이션 강화학습으로 시연 없이도 정책을 만들 수 있습니다.
- 전문가 수준을 넘어서는 성능이 필요하거나 새로운 상황에 적응해야 한다면, 모방으로 초기화한 뒤 강화학습으로 개선하는 결합 방식이 유력합니다.
- 여러 과제로의 일반화와 언어 지시 이해가 중요하다면, 대규모 시연 기반의 VLA 접근을 검토할 수 있습니다.
데이터 효율을 수치로 이해하기
"모방학습이 데이터 효율적"이라는 말은 자주 나오지만, 그 의미를 조금 더 구체적으로 짚어 볼 필요가 있습니다. 데이터 효율은 원하는 성능에 도달하기까지 필요한 상호작용의 양으로 이해할 수 있습니다.
행동 복제는 지도학습이므로, 시연이 N개 있으면 그 N개를 여러 에폭 반복 학습하는 것으로 충분합니다. 추가적인 환경 상호작용이 필요 없습니다. 반면 온라인 강화학습은 정책을 개선할 때마다 환경에서 새 경험을 수집해야 하며, 그 수집량이 수십만에서 수백만 스텝에 이릅니다.
도달 성능 대비 필요 상호작용 (개념적 규모)
────────────────────────────────────────
행동 복제 : 시연 수집 후 추가 상호작용 없음
(필요: 좋은 시연 N개)
DAgger : 시연 + 반복적 전문가 레이블링
(필요: N개 + 여러 라운드의 전문가 개입)
온라인 RL : 대량의 환경 스텝
(필요: 수십만~수백만 스텝의 시행착오)
▶ 같은 성능이라도 "무엇을" 필요로 하는지가 다르다:
모방은 사람의 시연을, 강화는 환경 스텝을 요구한다.
여기서 중요한 통찰은, 데이터 효율을 단일 축으로 비교하기 어렵다는 점입니다. 모방학습은 "사람의 시간"이라는 비싼 자원을 소모하고, 강화학습은 "환경 스텝"이라는 (시뮬레이션이라면 상대적으로 값싼) 자원을 소모합니다. 어느 쪽이 유리한지는 시연을 얼마나 쉽게 얻을 수 있는지, 그리고 시뮬레이터가 얼마나 정확한지에 달려 있습니다.
정책 평가 방법론
로봇 정책을 학습하는 것만큼이나 어려운 것이 그 성능을 제대로 평가하는 일입니다. 벤치마크 숫자 하나로 정책의 진짜 실력을 판단하기 어렵기 때문입니다.
- 성공률(Success Rate): 여러 번의 시도 중 과제를 완수한 비율. 가장 기본적인 지표이지만, 초기 조건을 충분히 다양하게 바꾸지 않으면 과대평가되기 쉽습니다.
- 일반화 평가: 학습 때 보지 못한 새 물체, 새 배경, 새 조명에서의 성공률. 정책이 암기한 것인지 이해한 것인지를 가릅니다.
- 강건성 평가: 외란(방해)이나 센서 잡음을 의도적으로 주었을 때 얼마나 버티는가.
정책 평가의 계층
─────────────────
[1] 학습 분포 내 평가 ──▶ 기본 성공률
│ (같은 물체·환경)
▼
[2] 분포 밖 일반화 평가 ──▶ 새 물체·새 환경
│
▼
[3] 강건성 평가 ──▶ 외란·잡음 주입
│
▼
[4] 장기 신뢰성 평가 ──▶ 반복 수행 시 성능 유지
▶ 상위 계층으로 갈수록 실제 배포 적합성을 잘 반영한다.
평가에서 흔한 함정은 소수의 성공 장면만 보고 정책이 완성되었다고 착각하는 것입니다. 로봇 정책은 초기 조건에 매우 민감하므로, 통계적으로 의미 있는 횟수의 시도를 다양한 조건에서 반복해야 신뢰할 만한 결론을 얻습니다.
하나의 과제로 보는 전체 흐름
지금까지의 내용을 "책상 위 물건을 상자에 담는다"는 가상의 조작 과제로 엮어 봅니다.
먼저 텔레오퍼레이션으로 사람이 로봇을 조작해 50~100회의 시연을 모읍니다. 이 시연으로 행동 복제 정책을 학습하면 시연과 비슷한 배치에서는 그럭저럭 성공합니다. 그러나 물건이 시연에 없던 위치에 놓이면 복합 오차로 실패가 늘어납니다.
이때 DAgger를 적용합니다. 정책을 실제로 굴려 실패하는 상황들을 모으고, 그 상황에서 전문가가 올바른 행동을 레이블링해 데이터에 추가합니다. 몇 라운드를 거치면 낯선 배치에서도 성공률이 올라갑니다.
더 높은 성능이 필요하다면, 이 모방 정책을 초기값으로 삼아 시뮬레이션에서 강화학습으로 다듬습니다. 시뮬레이터가 부정확하면 sim-to-real 격차가 문제가 되므로, 도메인 랜덤화 같은 기법을 함께 씁니다. 마지막으로 다양한 물체와 조명에서 반복 평가하여 일반화와 강건성을 확인한 뒤에야 배포를 고려합니다.
과제 전체 파이프라인 요약
──────────────────────────
텔레오퍼레이션 시연 수집
│
▼
행동 복제로 초기 정책
│
▼
DAgger로 낯선 상황 보강
│
▼
(선택) RL로 성능 향상
│
▼
다양한 조건에서 반복 평가
│
└──▶ 충분히 검증되면 배포
함정과 주의점
- 시연의 편향: 모방학습은 시연에 담긴 습관과 편향까지 그대로 배웁니다. 시연자가 특정 상황을 회피했다면 로봇도 그 상황에 약해집니다.
- 보상 해킹: 강화학습에서 보상이 실제 목표를 완벽히 반영하지 못하면, 에이전트는 목표가 아니라 보상 수치만 극대화하는 편법을 찾아냅니다.
- 시뮬레이션 격차: 시뮬레이션에서 배운 정책이 현실에서 무너지는 것은 흔한 일입니다. 이 문제는 sim-to-real 전이라는 별도 주제로 다룰 만큼 중요합니다.
- 평가의 어려움: 로봇 정책의 성능은 환경, 물체, 초기 조건에 따라 크게 달라집니다. 소수의 성공 사례만으로 일반화 성능을 단정해서는 안 됩니다.
마치며
로봇 학습에서 모방학습과 강화학습은 대립하는 두 진영이라기보다 상호 보완적인 도구입니다. 모방학습은 사람의 지식을 빠르고 데이터 효율적으로 로봇에 전달하고, 강화학습은 그 지식을 넘어서는 개선과 새로운 상황에의 적응을 가능하게 합니다. 최근의 VLA 모델과 오프라인 강화학습, 부트스트랩 방식은 모두 두 접근의 경계를 허물며 더 강력한 정책을 만들려는 시도입니다.
다음 글에서는 이 글에서 반복적으로 등장한 시뮬레이션과 현실의 격차, 즉 sim-to-real 전이 문제를 본격적으로 다룹니다.
참고 자료
- RT-2 논문 (arXiv): https://arxiv.org/abs/2307.15818
- OpenVLA 논문 (arXiv): https://arxiv.org/abs/2406.09246
- Open X-Embodiment 논문 (arXiv): https://arxiv.org/abs/2310.08864
- Physical Intelligence (π0 등): https://www.physicalintelligence.company/
- Open X-Embodiment 프로젝트: https://robotics-transformer-x.github.io/
- NVIDIA Isaac / 로보틱스: https://developer.nvidia.com/isaac
- OpenAI Spinning Up (강화학습 입문): https://spinningup.openai.com/
- DAgger 논문 (Ross et al., AISTATS 2011): https://proceedings.mlr.press/v15/ross11a.html