Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

사람은 행동하기 전에 머릿속으로 결과를 그려 봅니다. 컵을 밀면 넘어질지, 문을 당기면 열릴지, 우리는 세계가 어떻게 반응할지에 대한 직관적 모델을 가지고 있습니다. 이 내적 모델 덕분에 우리는 위험한 행동을 실제로 해 보지 않고도 상상만으로 걸러낼 수 있습니다.

로봇에게도 이런 능력을 부여하려는 것이 월드 모델(World Model)입니다. 월드 모델은 환경의 동역학, 즉 "현재 상태에서 이 행동을 하면 다음 상태는 어떻게 될 것인가"를 학습한 예측 모델입니다. 이런 모델이 있으면 로봇은 실제 환경에서 값비싼 시행착오를 하는 대신, 학습된 모델 안에서 미래를 상상하며 계획을 세울 수 있습니다.

이 글에서는 월드 모델의 개념, 모델 기반 강화학습, 잠재 공간에서의 예측, 비디오 예측과 생성 모델의 역할, 그리고 상상 속 롤아웃과 MPC를 통한 계획을 다룹니다. 마지막으로 보행과 조작에의 적용과 현재의 한계를 살펴봅니다. 정확성을 위해 특정 모델의 세부 수치는 확실한 것만 언급하고, 불확실한 부분은 일반화하여 서술합니다.

월드 모델이란 무엇인가

월드 모델의 핵심은 예측입니다. 상태와 행동을 입력받아 다음 상태(그리고 종종 보상)를 예측하는 함수를 학습합니다.

월드 모델의 기본 구조

────────────────────

현재 상태 s ──┐

├──▶ [ 월드 모델 ] ──▶ 다음 상태 예측 ŝ'

행동 a ──────┘ ──▶ 보상 예측 r̂

이 모델을 반복 적용하면 미래를 여러 단계 앞까지

"상상"으로 굴려 볼 수 있다:

s ──a1──▶ ŝ1 ──a2──▶ ŝ2 ──a3──▶ ŝ3 ── ... (상상 롤아웃)

이것을 모델 없는(model-free) 강화학습과 대비하면 차이가 분명해집니다. 모델 없는 방법은 환경과 직접 상호작용한 경험으로만 정책이나 가치 함수를 학습합니다. 반면 모델 기반(model-based) 방법은 먼저 환경의 동역학 모델을 학습하고, 그 모델을 활용해 계획하거나 상상 속에서 추가 경험을 만들어 냅니다.

모델 없는 vs 모델 기반

──────────────────────

[모델 없는]

환경 상호작용 ──▶ 경험 ──▶ 정책/가치 직접 학습

(경험이 많이 필요, 하지만 단순)

[모델 기반]

환경 상호작용 ──▶ 경험 ──▶ 월드 모델 학습

│

▼

모델 안에서 상상·계획 ──▶ 정책 개선

(데이터 효율적, 하지만 모델 오차에 취약)

모델 기반 접근의 가장 큰 매력은 데이터 효율입니다. 한 번 학습한 월드 모델 안에서는 실제 로봇을 움직이지 않고도 수많은 가상 경험을 값싸게 생성할 수 있기 때문입니다.

월드 모델 아이디어의 흐름

월드 모델이라는 개념 자체는 갑자기 등장한 것이 아니라, 오랜 연구의 흐름 위에 서 있습니다. 그 뿌리를 몇 갈래로 짚어 보면 이 분야를 이해하는 데 도움이 됩니다.

첫째 뿌리는 제어 이론입니다. 시스템의 동역학 모델을 세우고 그 위에서 최적 제어를 계산하는 전통은 로봇공학의 오랜 근간이었습니다. 다만 고전 제어는 사람이 모델을 손으로 세운다는 점에서, 데이터로 모델을 학습하는 현대 월드 모델과 구별됩니다.

둘째 뿌리는 심리학과 인지과학의 "내적 모델" 개념입니다. 인간과 동물이 세계에 대한 내적 표상을 가지고 미래를 예측한다는 관점은, 로봇에게 예측적 표상을 학습시키려는 동기를 제공했습니다.

셋째 뿌리는 신경망 기반 시퀀스 예측입니다. 순환 신경망과 이후의 여러 생성 모델은, 관측의 시퀀스로부터 다음을 예측하는 능력을 데이터로 학습하는 도구를 제공했습니다.

월드 모델 아이디어의 세 뿌리

────────────────────────────

제어 이론 인지과학 신경망 시퀀스 예측

(동역학 모델) (내적 모델) (데이터로 예측 학습)

│ │ │

└───────────────┼────────────────────┘

▼

현대의 학습된 월드 모델

(데이터로 동역학을 학습하고 상상으로 계획)

2018년 무렵 "World Models"라는 제목으로 널리 알려진 연구는, 신경망으로 환경을 압축하고 그 안에서 정책을 학습한다는 아이디어를 인상적으로 보여 주며 이 흐름을 대중화했습니다. 이후 Dreamer 계열을 비롯한 여러 연구가 잠재 공간에서의 상상 학습을 정교하게 발전시켜 왔습니다.

잠재 공간에서의 예측

초기의 월드 모델은 픽셀 단위로 다음 이미지를 예측하려 했습니다. 그러나 고해상도 이미지를 픽셀 하나하나 예측하는 것은 계산이 무겁고, 예측에 불필요한 세부까지 다 맞추려다 정작 중요한 동역학을 놓치기 쉽습니다.

이에 대한 해법이 잠재 공간(latent space) 예측입니다. 먼저 인코더가 고차원 관측(이미지 등)을 저차원의 압축된 표현(잠재 상태)으로 변환합니다. 그런 다음 동역학 예측은 이 압축된 잠재 공간 안에서 이루어집니다. 무거운 픽셀 공간이 아니라 가벼운 추상 공간에서 미래를 굴리는 것입니다.

잠재 공간 월드 모델

─────────────────

관측 o ──[ 인코더 ]──▶ 잠재 상태 z

│

│ 행동 a

▼

[ 잠재 동역학 ]──▶ 다음 잠재 z'

│

▼

(필요 시) [ 디코더 ]──▶ 예측 관측 ô'

핵심: 무거운 픽셀 대신 가벼운 잠재 z 공간에서

여러 단계 미래를 빠르게 상상한다.

Dreamer 계열로 대표되는 이런 접근은, 잠재 공간에서 상상 롤아웃을 굴리며 정책을 학습해 데이터 효율을 크게 높인 것으로 알려져 있습니다. 세부 구조는 버전에 따라 다를 수 있으므로, 구체적 사양은 원 논문을 확인하는 것이 좋습니다.

비디오 예측과 생성 모델

최근에는 대규모 비디오 예측·생성 모델이 로봇의 월드 모델로 주목받고 있습니다. 발상은 이렇습니다. 방대한 영상 데이터로 "다음에 무슨 일이 벌어질지"를 예측하도록 학습한 모델은, 물체가 어떻게 움직이고 상호작용하는지에 대한 풍부한 물리적 상식을 담게 됩니다. 이 예측 능력을 로봇 행동에 조건화하면, 로봇의 행동에 따라 미래 영상이 어떻게 전개될지를 상상하는 도구가 됩니다.

행동 조건부 비디오 예측

──────────────────────

현재 프레임들 ──┐

├──▶ [ 비디오 예측 모델 ]──▶ 미래 프레임 예측

후보 행동 시퀀스 ┘

여러 후보 행동에 대해 미래를 예측하고

목표에 가장 부합하는 행동 시퀀스를 선택한다.

이런 생성적 월드 모델의 장점은 사람이 직접 물리를 코딩하지 않아도, 데이터로부터 복잡한 상호작용을 배울 수 있다는 점입니다. 다만 예측이 길어질수록 오차가 누적되고, 물리 법칙을 항상 정확히 지키지는 않는다는 한계가 있습니다.

상상 속 계획 — MPC와 롤아웃

월드 모델의 진가는 계획(planning)에서 드러납니다. 대표적인 방법이 모델 예측 제어(Model Predictive Control, MPC)입니다.

MPC의 절차는 다음과 같습니다. 현재 상태에서 여러 후보 행동 시퀀스를 월드 모델로 앞을 내다보며 시뮬레이션합니다. 각 시퀀스가 가져올 미래와 그 보상을 평가합니다. 가장 좋은 시퀀스를 골라 그 첫 번째 행동만 실제로 실행합니다. 한 스텝 실행 후 새로운 상태에서 이 과정을 처음부터 다시 반복합니다.

MPC 계획 루프 (상상으로 앞을 내다봄)

─────────────────────────────────

[1] 현재 상태에서 여러 후보 행동 시퀀스 생성

후보A: a1 a2 a3 ...

후보B: a1'a2'a3'...

후보C: ...

│

▼

[2] 각 후보를 월드 모델로 상상 롤아웃

s ──▶ ŝ1 ──▶ ŝ2 ──▶ ŝ3 (각 후보별로)

│

▼

[3] 예측 보상이 가장 높은 후보 선택

│

▼

[4] 그 후보의 첫 행동만 실제 실행

│

└──▶ 새 상태에서 다시 [1] (반복)

MPC는 매 스텝 다시 계획하기 때문에, 예측이 조금 빗나가더라도 다음 스텝에서 실제 관측으로 궤도를 수정할 수 있다는 장점이 있습니다. 이 재계획 특성이 월드 모델의 예측 오차를 어느 정도 완충해 줍니다.

또 다른 방식은 상상 속 롤아웃으로 정책을 직접 학습하는 것입니다. 실제 환경 대신 월드 모델 안에서 수많은 가상 에피소드를 생성하고, 그 안에서 강화학습을 돌려 정책을 개선합니다. 이렇게 하면 실제 로봇의 마모 없이 대량의 학습 경험을 확보할 수 있습니다.

월드 모델은 어떻게 학습되는가

월드 모델 자체도 결국 데이터로 학습됩니다. 학습의 기본 재료는 로봇이 환경과 상호작용하며 남긴 궤적입니다. 즉, 어떤 상태에서 어떤 행동을 했더니 어떤 다음 상태와 보상이 나왔는지의 기록입니다.

학습 목표는 대체로 세 가지 손실로 나뉩니다.

- 재구성/예측 손실: 인코딩된 잠재 상태로부터 관측을 복원하거나 다음 관측을 예측하도록 합니다. 이것이 잠재 표현이 세계의 정보를 담게 만듭니다.

- 동역학 예측 손실: 현재 잠재 상태와 행동으로부터 다음 잠재 상태를 정확히 예측하도록 합니다. 월드 모델의 핵심입니다.

- 보상 예측 손실: 잠재 상태로부터 보상을 예측하도록 합니다. 계획 시 어떤 미래가 좋은지 평가하는 데 쓰입니다.

월드 모델 학습의 세 손실

────────────────────────

관측 o ──[인코더]──▶ z ──┬──[디코더]──▶ ô (재구성/예측 손실)

│

행동 a │

▼

[동역학]──▶ ẑ' (동역학 예측 손실)

│

▼

[보상 예측]──▶ r̂ (보상 예측 손실)

세 손실을 함께 최소화하여, 예측 가능하고

보상까지 담은 잠재 표현을 학습한다.

여기서 중요한 설계 요소가 순환 구조입니다. 로봇의 관측은 부분 관측(partial observation)인 경우가 많습니다. 한 프레임만으로는 물체의 속도나 가려진 부분을 알 수 없습니다. 그래서 많은 월드 모델은 과거의 흐름을 요약하는 순환 상태(recurrent state)를 유지하여, 시간에 걸친 정보를 축적합니다. 이 순환 상태와 확률적 잠재 변수를 함께 쓰는 구조가 널리 활용됩니다.

예측의 불확실성 다루기

월드 모델의 예측은 틀릴 수 있고, 특히 학습 데이터가 부족한 영역에서 더 자주 틀립니다. 문제는 정책이 이 틀린 예측을 맹신하여, 모델 안에서만 좋아 보이는 위험한 행동을 학습할 수 있다는 것입니다.

이를 완화하기 위해 예측의 불확실성을 명시적으로 다루는 접근들이 있습니다.

- 앙상블: 여러 개의 월드 모델을 함께 학습하고, 이들의 예측이 서로 크게 엇갈리는 상황을 "불확실하다"고 판단합니다.

- 보수적 계획: 불확실성이 큰 영역에서는 낙관적 보상을 신뢰하지 않고, 안전한 쪽으로 계획을 편향시킵니다.

앙상블로 불확실성 감지

──────────────────────

같은 (상태, 행동)에 대해:

모델1 ──▶ 예측 A

모델2 ──▶ 예측 A' 예측들이 서로 비슷 ──▶ 신뢰 가능

모델3 ──▶ 예측 A''

모델1 ──▶ 예측 B

모델2 ──▶ 예측 X 예측들이 크게 엇갈림 ──▶ 불확실(주의)

모델3 ──▶ 예측 Y

불확실성을 다루는 것은 월드 모델을 실제로 신뢰할 수 있게 만드는 데 핵심적입니다. "모른다는 것을 아는" 모델은, 자신이 확신하지 못하는 영역에서 무모한 계획을 세우지 않습니다.

월드 모델 vs 명시적 시뮬레이터

월드 모델과 sim-to-real의 시뮬레이터는 둘 다 "미래를 예측하는 도구"라는 점에서 닮았지만, 근본적인 차이가 있습니다.

| 항목 | 명시적 시뮬레이터 | 학습된 월드 모델 |

| --- | --- | --- |

| 만드는 방법 | 사람이 물리를 코딩 | 데이터로 학습 |

| 정확성의 원천 | 물리 법칙·파라미터 | 관측된 경험 |

| 새 물체·현상 | 사람이 모델링해야 함 | 데이터에 있으면 자동 반영 |

| 주요 약점 | 현실 격차·모델링 노력 | 분포 밖 취약·예측 오차 |

| 데이터 없이 사용 | 가능(사전 구축) | 불가(경험 필요) |

두 접근은 대립하기보다 보완적입니다. 명시적 시뮬레이터는 사전 지식을 값싸게 대량 제공하고, 학습된 월드 모델은 사람이 미처 모델링하지 못한 현실의 복잡성을 데이터로 흡수합니다. 실무에서는 시뮬레이터로 초벌 학습을 하고, 현실 경험으로 월드 모델을 보정하는 식의 조합도 가능합니다.

로봇에의 적용

월드 모델은 다양한 로봇 과제에 적용됩니다.

- 다리형 보행: 지형과 접촉의 동역학을 예측하는 모델은, 균형을 잃기 전에 위험한 발 디딤을 상상으로 걸러내는 데 도움을 줄 수 있습니다.

- 조작: 물체를 밀거나 집을 때의 결과를 예측하면, 여러 파지 전략을 실제로 시도하기 전에 상상으로 비교할 수 있습니다.

- 내비게이션: 이동 경로에 따른 미래 관측을 예측해, 장애물을 피하는 경로를 미리 평가할 수 있습니다.

- 도구 사용: 도구를 통해 물체에 힘을 전달하는 과제에서, 도구 끝의 상호작용 결과를 상상으로 미리 확인할 수 있습니다.

핵심 이점은 공통적입니다. 값비싸고 위험한 실제 시행착오의 상당 부분을 값싸고 안전한 상상으로 대체할 수 있다는 것입니다.

과제별 월드 모델의 역할

────────────────────────

보행 ──▶ 지형·접촉 예측 ──▶ 위험한 발 디딤 회피

조작 ──▶ 파지 결과 예측 ──▶ 좋은 파지 전략 선택

내비게이션 ──▶ 경로별 미래 예측 ──▶ 안전 경로 선택

도구 사용 ──▶ 도구 상호작용 예측 ──▶ 힘 전달 방식 조정

▶ 공통 원리: 실제 시도 전에 결과를 상상으로 걸러낸다.

데이터 효율의 관점

월드 모델의 가장 큰 실용적 가치는 데이터 효율입니다. 앞서 다룬 sim-to-real이 사람이 만든 시뮬레이터에 의존한다면, 월드 모델은 로봇이 스스로 데이터로부터 시뮬레이터를 학습한다는 점에서 다릅니다.

데이터 효율 비교 (개념적 경향)

──────────────────────────────

모델 없는 RL : 실제 경험 ██████████████████ (많이 필요)

모델 기반 RL : 실제 경험 ████ (적게 필요)

+ 상상 경험 ░░░░░░░░░░░░░░ (값싸게 대량)

▶ 실제 경험을 상상 경험으로 상당 부분 대체

물론 이것은 개념적 경향이며, 실제 효율은 과제와 모델 품질에 따라 크게 달라집니다.

계획 지평의 트레이드오프

월드 모델로 계획할 때 반드시 마주치는 결정이 계획 지평(planning horizon)의 길이입니다. 즉, 미래를 몇 단계 앞까지 상상하여 평가할 것인가입니다.

지평이 짧으면 예측 오차가 적게 쌓여 각 예측은 정확하지만, 멀리 내다보지 못해 근시안적 결정을 내릴 수 있습니다. 지평이 길면 먼 미래의 결과까지 고려할 수 있지만, 오차가 여러 단계에 걸쳐 누적되어 상상한 미래가 신뢰를 잃습니다.

계획 지평의 트레이드오프

────────────────────────

짧은 지평: s ─▶ ŝ1 ─▶ ŝ2 예측 정확, 그러나 근시안

(오차 작음)

긴 지평: s ─▶ ŝ1 ─▶ ... ─▶ ŝ10 멀리 봄, 그러나 오차 누적

(신뢰 저하)

▶ 대개 중간 지평 + 잦은 재계획(MPC)으로 균형을 잡는다.

이 트레이드오프를 다루는 실용적 방법 하나가 학습된 가치 함수와의 결합입니다. 짧은 지평까지만 명시적으로 상상하고, 그 이후의 먼 미래 가치는 별도로 학습한 가치 함수로 근사하는 것입니다. 이렇게 하면 오차 누적을 억제하면서도 장기적 결과를 어느 정도 반영할 수 있습니다.

짧은 상상 + 가치 함수로 장기 근사

──────────────────────────────────

s ─▶ ŝ1 ─▶ ŝ2 ─▶ ŝ3

│

▼

[ 가치 함수 V(ŝ3) ] ← 그 이후의 먼 미래 가치를 근사

총 평가 = (상상한 단기 보상 합) + (가치 함수의 장기 추정)

생성형 월드 모델의 부상

2020년대 중반 들어, 대규모 생성 모델을 월드 모델로 활용하려는 흐름이 두드러졌습니다. 방대한 인터넷 영상으로 학습한 비디오 생성 모델은 물체가 떨어지고, 부딪히고, 흐르는 등 세계의 물리적 상식을 상당 부분 담게 됩니다.

이런 모델을 로봇의 월드 모델로 쓰려면 두 가지가 필요합니다. 첫째, 로봇의 행동에 조건화하여 "이 행동을 하면 미래가 어떻게 바뀌는가"를 예측하게 만드는 것입니다. 둘째, 그 예측을 계획에 활용할 수 있도록 보상이나 목표 달성 여부를 판단하는 장치를 붙이는 것입니다.

생성형 월드 모델의 계획 활용

────────────────────────────

목표 이미지/지시 ──┐

├──▶ [행동 후보들에 대해 미래 영상 예측]

현재 관측 ────────┘

│

▼

목표에 가장 가까운 미래를 만드는

행동 후보 선택 ──▶ 실행

이 접근의 매력은 사람이 물리를 코딩하지 않고도 방대한 영상 데이터로부터 풍부한 상식을 물려받는다는 점입니다. 다만 생성 모델의 예측이 그럴듯해 보여도 물리적으로 부정확하거나 일관성이 깨질 수 있고, 예측이 길어질수록 이런 문제가 커진다는 한계가 여전히 남아 있습니다. 세부 능력과 성능은 모델과 버전에 따라 크게 다를 수 있으므로, 구체적 사양은 각 공식 자료를 확인하는 것이 좋습니다.

월드 모델을 어떻게 평가하는가

월드 모델의 성능을 평가하는 것은 정책 평가와는 또 다른 문제입니다. 크게 두 관점에서 봅니다.

첫째는 예측 정확도입니다. 모델이 예측한 다음 상태나 관측이 실제와 얼마나 일치하는가를 봅니다. 다만 단일 스텝 예측이 정확하다고 여러 스텝 롤아웃까지 정확하다는 보장은 없으므로, 여러 지평에 걸친 예측 오차를 함께 봐야 합니다.

둘째는 하류 성능(downstream performance)입니다. 결국 월드 모델은 더 나은 정책을 만들기 위한 수단이므로, 그 모델로 학습하거나 계획한 정책이 실제로 얼마나 잘 작동하는지가 가장 중요한 지표입니다. 예측 오차가 다소 있어도 계획에 필요한 핵심 동역학만 잘 담으면 충분한 경우가 많습니다.

월드 모델 평가의 두 관점

────────────────────────

[1] 예측 정확도 ──▶ 예측 상태 vs 실제 상태

│ (여러 지평에서)

▼

[2] 하류 성능 ──▶ 이 모델로 만든 정책의 실제 성공률

▶ 예측이 완벽하지 않아도, 계획에 유용하면 좋은 모델이다.

이 구분이 중요한 이유는, 픽셀 단위로 완벽한 예측을 추구하는 것이 반드시 좋은 정책으로 이어지지는 않기 때문입니다. 계획에 필요한 정보를 잘 담는 것이 시각적으로 완벽한 재현보다 중요할 때가 많습니다.

함정과 한계

- 모델 오차의 누적: 월드 모델은 완벽하지 않습니다. 예측을 여러 단계 이어 붙일수록 작은 오차가 쌓여 상상한 미래가 현실과 크게 어긋날 수 있습니다.

- 모델 악용: 정책이 월드 모델의 예측 허점을 파고들어, 모델 안에서만 높은 보상을 얻는 비현실적 행동을 학습할 수 있습니다. 실제로는 통하지 않습니다.

- 분포 밖 상황: 학습 데이터에 없던 새로운 상황에서는 월드 모델의 예측이 신뢰하기 어렵습니다.

- 장기 예측의 어려움: 먼 미래일수록 예측 불확실성이 커집니다. 그래서 대개 짧은 지평(horizon)의 계획을 자주 다시 하는 편이 안전합니다.

이런 한계 때문에 실무에서는 월드 모델을 만능으로 여기기보다, MPC의 재계획이나 실제 관측을 통한 보정과 결합하여 오차를 완충하는 것이 일반적입니다.

다른 학습 방식과의 관계

월드 모델은 앞선 글들에서 다룬 모방학습, 강화학습, sim-to-real과 어떻게 어우러질까요.

모방학습과는 이렇게 만납니다. 시연 데이터는 월드 모델을 학습하는 좋은 재료가 됩니다. 사람이 로봇을 조작한 궤적으로부터 세계의 동역학을 배우고, 그 위에서 계획하면 시연을 넘어서는 행동도 상상해 볼 수 있습니다.

강화학습과는 모델 기반 RL이라는 이름으로 직접 결합됩니다. 월드 모델이 제공하는 상상 경험은 강화학습의 데이터 효율 문제를 크게 완화합니다.

sim-to-real과는 상보적입니다. sim-to-real이 사람이 만든 시뮬레이터를 현실에 맞추는 문제라면, 월드 모델은 로봇이 데이터로부터 시뮬레이터 자체를 학습하는 것입니다. 둘을 결합해, 명시적 시뮬레이터로 초벌 학습한 뒤 현실 데이터로 월드 모델을 다듬는 방식도 가능합니다.

로봇 학습의 네 축과 월드 모델

──────────────────────────────

모방학습 ──┐

강화학습 ──┤

sim-to-real┤──▶ 월드 모델이 이들과 결합하여

월드 모델 ──┘ 상상·계획·데이터 효율을 제공

▶ 네 축은 대체재가 아니라 함께 쓰이는 도구다.

이처럼 월드 모델은 독립된 기법이라기보다, 다른 학습 방식들과 결합해 로봇의 학습과 계획을 강화하는 공통 인프라에 가깝습니다.

마치며

월드 모델은 로봇에게 "행동하기 전에 상상하는" 능력을 부여하려는 시도입니다. 환경의 동역학을 학습해 두면, 로봇은 값비싼 실제 시행착오를 값싼 상상으로 상당 부분 대체하고, 미래를 내다보며 더 나은 계획을 세울 수 있습니다. 잠재 공간 예측은 이를 효율적으로 만들고, 대규모 비디오 예측 모델은 데이터로부터 풍부한 물리 상식을 담아내며, MPC와 상상 롤아웃은 그 예측을 실제 행동으로 연결합니다.

동시에 모델 오차의 누적과 분포 밖 상황이라는 근본적 한계도 분명합니다. 월드 모델은 완성된 해법이 아니라, 로봇이 세계를 더 잘 이해하고 예측하도록 만들려는 활발한 연구 분야입니다. 모방학습, 강화학습, sim-to-real과 함께, 월드 모델은 로봇이 배우는 방식의 또 하나의 중요한 축을 이룹니다.

참고 자료

- World Models 논문 (Ha and Schmidhuber, arXiv): https://arxiv.org/abs/1803.10122

- DreamerV3 논문 (arXiv): https://arxiv.org/abs/2301.04104

- OpenAI Spinning Up (강화학습 입문): https://spinningup.openai.com/

- NVIDIA Isaac / 로보틱스: https://developer.nvidia.com/isaac

- Open X-Embodiment 논문 (arXiv): https://arxiv.org/abs/2310.08864

- RT-2 논문 (arXiv): https://arxiv.org/abs/2307.15818

- MuJoCo 물리엔진: https://mujoco.org/

- Gymnasium (강화학습 환경): https://gymnasium.farama.org/

필사 모드: 월드 모델 — 로봇이 미래를 상상하다

들어가며

월드 모델이란 무엇인가

월드 모델 아이디어의 흐름

잠재 공간에서의 예측

비디오 예측과 생성 모델

상상 속 계획 — MPC와 롤아웃

월드 모델은 어떻게 학습되는가

예측의 불확실성 다루기

월드 모델 vs 명시적 시뮬레이터

로봇에의 적용

데이터 효율의 관점

계획 지평의 트레이드오프

생성형 월드 모델의 부상

월드 모델을 어떻게 평가하는가

관련 개념 정리

함정과 한계

다른 학습 방식과의 관계

마치며

참고 자료