Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

눈을 감고도 우리는 주머니 속에서 열쇠와 동전을 구별하고, 컵을 쏟지 않게 힘을 조절하며, 손가락 사이에서 미끄러지려는 물건을 순간적으로 붙잡습니다. 이 모든 일을 가능하게 하는 것이 **촉각**입니다.

로봇 조작(manipulation)은 오랫동안 주로 "눈"에 의존해 왔습니다. 카메라로 물체를 보고, 그 위치와 자세를 추정해 그리퍼를 그쪽으로 보내는 방식입니다. 하지만 손이 물체에 닿는 순간, 시각은 손과 물체 사이의 접촉을 가려 볼 수 없게 됩니다(occlusion). 정작 미끄러지는지, 얼마나 세게 쥐고 있는지, 표면이 매끄러운지 거친지는 오직 손끝의 감각이 알려줍니다.

이 글에서는 로봇이 손끝으로 세상을 느끼게 하는 **촉각 센싱**과, 그 감각을 이용한 **정교한 조작**을 다룹니다. 어떤 센서가 있고, 촉각이 실제로 어떤 정보를 주며, 시각과 어떻게 융합되고, 학습으로 어떻게 인핸드 조작을 익히는지, 그리고 촉각 특유의 sim2real 문제까지 살펴봅니다.

왜 촉각인가

시각과 촉각은 서로 다른 것을 잘합니다. 시각은 멀리서 전체 장면을 파악하는 데 뛰어나지만, 접촉 순간의 미세한 물리는 놓칩니다. 촉각은 정반대입니다.

| 감각 | 잘하는 것 | 못하는 것 |

| --- | --- | --- |

| 시각 | 원거리 인식, 전체 배치, 대략적 형상 | 접촉 힘, 미끄러짐, 가림 뒤의 상태 |

| 촉각 | 접촉 힘, 미끄러짐 감지, 국소 질감·형상 | 원거리 인식, 접촉 전 정보 |

정교한 조작에서 결정적인 순간은 대부분 접촉 이후에 일어납니다. 손가락으로 나사를 돌리고, 얇은 카드를 집고, 계란을 깨지 않게 옮기는 일은 접촉 힘의 실시간 피드백 없이는 매우 어렵습니다. 이것이 촉각이 필요한 이유입니다.

촉각 센서의 두 흐름

로봇 촉각 센서는 크게 두 계열로 나눌 수 있습니다.

비전 기반 촉각 센서 (GelSight류)

대표적인 것이 **GelSight** 계열입니다. 원리는 놀랍도록 단순하면서 강력합니다. 투명한 겔(젤리 같은 탄성체) 표면 위에 얇은 반사막을 입히고, 그 겔을 안쪽에서 카메라로 촬영합니다. 물체가 겔을 누르면 겔 표면이 변형되고, 내부의 LED 조명 아래에서 그 변형을 카메라가 이미지로 잡아냅니다.

물체가 겔 표면을 누름

│

▼

┌─────────────────────────────┐

│ 탄성 겔 (반사 코팅) │ ← 물체 형상대로 변형

├─────────────────────────────┤

│ 투명 지지층 │

│ ↑ LED 조명 (여러 색) │

│ [ 카메라 ] ──▶ 이미지 │ ← 변형을 고해상도로 촬영

└─────────────────────────────┘

│

▼

접촉 형상·미세 질감·힘 분포를 "이미지"로 획득

이 방식의 큰 장점은 **접촉을 이미지로 바꾼다**는 점입니다. 접촉면의 미세한 질감, 작은 글자, 표면 요철까지 고해상도 이미지로 얻을 수 있고, 겔의 변형량에서 힘 분포와 미끄러짐 조짐까지 읽어낼 수 있습니다. 그리고 이미 성숙한 컴퓨터 비전·딥러닝 도구를 그대로 적용할 수 있다는 것도 큰 이점입니다.

전자피부 (전기 기반 촉각 어레이)

또 다른 흐름은 **전자피부(electronic skin, e-skin)**입니다. 압력·변형에 반응하는 소자를 넓은 면적에 격자로 배열해, 각 지점의 힘을 전기 신호로 읽습니다. 정전용량(capacitive), 저항(resistive), 압전(piezoelectric) 등 다양한 방식이 있습니다.

전자피부는 얇고 넓은 면적을 덮기에 유리하고, 팔·몸통처럼 넓은 부위의 접촉을 감지하는 데 강점이 있습니다. 반면 비전 기반 센서만큼의 초고해상도 질감 이미지를 얻기는 어려운 편입니다. 두 계열은 경쟁이라기보다, 손끝(고해상도)과 넓은 표면(넓은 커버리지)이라는 서로 다른 역할로 보는 것이 자연스럽습니다.

촉각이 알려주는 것

촉각 센서에서 실제로 어떤 정보를 뽑아낼 수 있는지 정리해 봅니다.

- **접촉 힘과 방향**: 얼마나 세게, 어느 방향으로 누르고 있는가. 계란처럼 약한 물체를 다룰 때 필수입니다.

- **미끄러짐(slip) 감지**: 물체가 손에서 미끄러지기 시작하는 초기 조짐. 미끄러짐을 감지하면 즉시 쥐는 힘을 높여 놓치지 않을 수 있습니다.

- **국소 형상·질감**: 접촉면의 요철, 모서리, 표면 거칠기. 어두운 곳에서 열쇠 구멍을 손으로 찾는 것과 비슷합니다.

- **접촉 위치**: 물체가 손가락의 어느 지점에 닿았는가. 인핸드 조작에서 물체의 자세를 추정하는 단서가 됩니다.

미끄러짐 감지는 특히 중요합니다. 사람은 물건이 미끄러지기 시작하는 아주 초기 신호(진동, 접촉면 이동)를 느끼고 무의식적으로 힘을 더 줍니다. 로봇도 이 신호를 촉각으로 잡아내면, 너무 세게 쥐어 부수지도, 너무 약하게 쥐어 놓치지도 않는 절묘한 힘 조절이 가능해집니다.

사람의 촉각에서 배우기

로봇 촉각 연구는 사람의 손끝을 자주 참고합니다. 사람의 피부에는 여러 종류의 기계수용기(mechanoreceptor)가 있어, 서로 다른 자극에 특화되어 있습니다.

| 수용기 유형 | 잘 감지하는 것 | 로봇에서의 대응 |

| --- | --- | --- |

| 빠른 적응형 | 진동, 미끄러짐의 시작 | 접촉면 변화의 시간 미분 |

| 느린 적응형 | 지속적인 압력, 형상 | 정적 힘 분포 |

핵심 통찰은 "촉각은 단일 신호가 아니라 여러 채널의 조합"이라는 점입니다. 지속적인 압력을 재는 채널과, 순간적인 변화를 재는 채널이 함께 있어야 안정적인 파지가 가능합니다. 비전 기반 촉각 센서가 강력한 이유도 여기 있습니다. 겔 표면의 정적 변형(압력)과 그 변형의 시간적 변화(미끄러짐 조짐)를 하나의 이미지 스트림에서 함께 뽑아낼 수 있기 때문입니다.

파지 안정성: 얼마나 세게 쥘 것인가

조작의 근본 질문 하나는 "얼마나 세게 쥘 것인가"입니다. 너무 약하면 놓치고, 너무 세면 부수거나 관절에 무리가 갑니다. 사람은 이 균형을 무의식적으로 맞추지만, 로봇에게는 명시적 전략이 필요합니다.

쥐는 힘 ────────────────────────────────────▶

너무 약함 적정 구간 너무 셈

┌──────────┬─────────────────┬──────────────┐

│ 미끄러짐 │ 안정적 파지 │ 물체 손상 │

│ 놓침 │ (촉각으로 유지) │ 과부하 │

└──────────┴─────────────────┴──────────────┘

▲ ▲ ▲

힘 부족 촉각 피드백으로 힘 과다

이 구간에 머물게

촉각 피드백은 이 "적정 구간"에 머무는 것을 가능하게 합니다. 미끄러짐 조짐이 감지되면 힘을 조금 올리고, 안정적이면 최소한의 힘만 유지하는 식입니다. 이렇게 하면 계란처럼 약한 물체도, 무거운 공구도 같은 손으로 다룰 수 있습니다. 파지 힘을 고정값으로 두는 대신 촉각으로 실시간 조절하는 것 — 이것이 정교한 조작의 출발점입니다.

촉각 데이터의 표현

촉각을 학습에 쓰려면, 센서 출력을 정책이 다룰 수 있는 형태로 표현해야 합니다. 크게 두 갈래가 있습니다.

- **이미지 표현**: 비전 기반 센서는 접촉을 그대로 이미지로 줍니다. CNN 같은 비전 신경망을 그대로 쓸 수 있어 편리합니다.

- **저차원 신호 표현**: 접촉 여부, 접촉 위치, 힘 벡터처럼 요약된 숫자로 표현합니다. 가볍고 sim2real에 유리하지만, 미세한 질감 정보는 잃습니다.

어느 표현이 좋은지는 과제에 따라 다릅니다. 얇은 카드를 집는 것처럼 미세 질감이 중요하면 이미지 표현이, 무거운 물체를 놓치지 않는 것처럼 힘 관리가 중요하면 저차원 표현이 유리할 수 있습니다. 실무에서는 둘을 섞어 쓰기도 합니다.

시각-촉각 융합

가장 강력한 조작 시스템은 시각과 촉각을 함께 씁니다. 각자의 약점을 서로 메우기 때문입니다.

┌──────────── 시각(카메라) ────────────┐

│ 접촉 전: 물체 위치·형상 대략 파악 │

│ 손이 다가가는 경로 계획 │

└──────────────────┬───────────────────┘

│ 접촉 순간, 손이 물체를 가림

▼

┌──────────── 촉각(손끝 센서) ──────────┐

│ 접촉 후: 힘·미끄러짐·국소 형상 파악 │

│ 실시간 힘 조절, 자세 미세 보정 │

└──────────────────┬───────────────────┘

│

▼

┌──── 시각·촉각 통합 정책 ─────┐

│ 두 감각을 함께 입력으로 │

│ 받아 다음 행동 결정 │

└─────────────────────────────┘

전형적인 흐름은 이렇습니다. 접촉하기 전에는 시각으로 물체에 접근하고, 접촉하는 순간부터는 촉각이 주도권을 넘겨받아 힘을 조절하고 미끄러짐을 막습니다. 학습 기반 시스템에서는 카메라 이미지와 촉각 이미지(또는 신호)를 함께 신경망에 넣어, 두 감각을 종합한 하나의 정책을 학습하기도 합니다.

능동적 촉각 탐색

촉각은 수동적으로 "느끼기만" 하는 감각이 아닙니다. 사람은 물체를 알기 위해 손가락을 **능동적으로 움직입니다**. 표면을 문질러 거칠기를 알고, 눌러서 단단함을 알며, 윤곽을 따라가 형상을 파악합니다. 이를 **능동적 촉각 탐색(active tactile exploration)**이라 합니다.

문지르기 ──▶ 질감·거칠기 파악

누르기 ──▶ 단단함·탄성 파악

윤곽 따라가기 ──▶ 형상·모서리 파악

들어보기 ──▶ 무게·무게중심 추정

로봇도 마찬가지로, 정보를 얻기 위해 접촉 방식을 스스로 선택할 수 있습니다. "지금 이 물체가 무엇인지 확실치 않다"면, 손가락을 움직여 더 많은 촉각 정보를 모으는 것입니다. 이는 조작을 단순한 실행이 아니라, 감각과 행동이 얽힌 탐색 과정으로 만듭니다. 정보가 부족하면 더 만져보고, 충분하면 실행하는 — 이 순환이 능동적 촉각의 핵심입니다.

촉각만으로 물체 알아보기

흥미로운 응용 하나는 **촉각만으로 물체를 인식**하는 것입니다. 눈을 감고 주머니 속에서 열쇠와 동전을 구별하는 그 능력을 로봇에게 주는 것입니다. 비전 기반 촉각 센서가 접촉을 고해상도 이미지로 주기 때문에, 접촉면의 질감과 형상만으로도 물체를 상당히 구별할 수 있습니다.

물체 A(매끈한 원기둥) 접촉 이미지 ──▶ [분류기] ──▶ "펜"

물체 B(요철 있는 표면) 접촉 이미지 ──▶ [분류기] ──▶ "동전"

물체 C(부드러운 천) 접촉 이미지 ──▶ [분류기] ──▶ "천"

이 능력이 유용한 이유는, 시야가 막힌 상황에서도 로봇이 지금 무엇을 만지고 있는지 알 수 있기 때문입니다. 가방 속을 손으로 뒤져 원하는 물건을 찾거나, 어두운 곳에서 부품을 구별하는 일이 가능해집니다. 시각과 촉각을 함께 쓰면, 멀리서 대략 본 물체를 손으로 만져 확정하는 "확인" 단계로도 활용할 수 있습니다.

힘 제어의 기초

촉각을 잘 쓰려면 로봇이 **힘을 제어**할 수 있어야 합니다. 위치만 제어하는 로봇은 "여기로 가라"는 명령만 따르지만, 힘을 제어하는 로봇은 "이 정도 힘으로 눌러라"를 따를 수 있습니다.

위치 제어만: 목표 위치로 이동 (접촉하면 과도한 힘 위험)

│

▼

힘/컴플라이언스 제어: 목표 힘을 유지하며 접촉

│ (딱딱한 벽에 닿아도 부드럽게 눌러줌)

▼

촉각 피드백과 결합: 측정된 접촉 힘으로 목표를 실시간 조정

특히 **컴플라이언스(compliance, 순응성)** 개념이 중요합니다. 순응적인 로봇은 외력에 부드럽게 반응해, 예상 못한 접촉에도 부품이나 사람을 상하게 하지 않습니다. 촉각 센서로 접촉 힘을 재고, 그 값으로 로봇을 순응적으로 움직이면, 딱딱한 위치 제어로는 불가능한 섬세한 조작이 가능해집니다. 촉각과 힘 제어는 사실상 한 쌍입니다.

접촉 이전과 이후: 감각의 교대

조작을 시간 축으로 펼쳐 보면, 감각의 주도권이 어떻게 바뀌는지 한눈에 보입니다.

시간 ────────────────────────────────────────────▶

[ 접근 ] [ 접촉 ] [ 조작 ] [ 분리 ]

시각 주도 전환 촉각 주도 시각 확인

물체로 이동 첫 접촉 감지 힘·미끄러짐 관리 결과 확인

│ │ │ │

카메라가 이끔 촉각이 개입 시작 촉각이 주도 다시 카메라

이 그림의 핵심은 "감각이 고정되어 있지 않다"는 점입니다. 접근할 때는 시각이, 접촉하면 촉각이, 끝나면 다시 시각이 주도권을 갖습니다. 잘 만든 조작 시스템은 이 교대를 매끄럽게 처리합니다. 접촉 순간을 정확히 감지해 촉각으로 전환하고, 조작이 끝나면 시각으로 결과를 확인합니다. 두 감각의 자연스러운 협업이 정교한 조작의 바탕입니다.

다지 손의 도전

정교한 조작은 보통 **여러 손가락(multi-fingered hand)**을 필요로 합니다. 두 손가락 그리퍼로는 집는 것까지가 한계지만, 사람 손처럼 여러 손가락이 있으면 물체를 손 안에서 자유롭게 다룰 수 있습니다. 그러나 손가락이 많아질수록 제어는 급격히 어려워집니다.

- **자유도 폭발**: 손가락마다 여러 관절이 있어, 제어해야 할 변수가 많아집니다.

- **협응**: 여러 손가락의 힘이 조화를 이루어야 물체가 안정적으로 유지됩니다.

- **촉각 채널 증가**: 각 손가락 끝의 촉각을 모두 종합해야 하므로 감각 처리 부담도 큽니다.

그래서 다지 손 조작은 대체로 학습에 크게 의존합니다. 수많은 손가락과 관절을 사람이 일일이 조율하는 규칙으로 다루기는 매우 어렵기 때문입니다. 촉각을 관측에 넣고 강화학습이나 모방학습으로 협응을 익히는 것이 현실적인 접근입니다.

정교한 인핸드 조작

**인핸드 조작(in-hand manipulation)**은 잡은 물체를 손 안에서 다시 굴리고 돌리고 자세를 바꾸는 능력을 말합니다. 예를 들어 손 안의 정육면체를 원하는 면이 위로 오도록 돌리거나, 볼트를 손가락 사이에서 회전시키는 일입니다. 이것은 로봇 조작에서 가장 어려운 문제 중 하나로 꼽힙니다.

어려운 이유는 이렇습니다.

- **접촉이 계속 바뀐다**: 물체를 굴리는 동안 어떤 손가락은 떨어지고 어떤 손가락은 새로 닿습니다. 접촉 상태가 순간순간 달라집니다.

- **가림이 심하다**: 손 안의 물체는 손가락에 가려 카메라로 잘 보이지 않습니다. 그래서 촉각이 특히 중요합니다.

- **미세한 힘 균형**: 여러 손가락이 물체에 가하는 힘이 균형을 이루어야 떨어뜨리지 않고 원하는 대로 움직일 수 있습니다.

이 문제에서 촉각은 "손 안에서 지금 물체가 어떤 자세인지, 어느 손가락이 어떻게 닿아 있는지"를 알려주는 핵심 감각입니다. 시각만으로는 가림 때문에 알 수 없는 정보를, 손끝이 대신 채워 줍니다.

학습 방법: 촉각을 정책에 넣기

정교한 조작은 손으로 일일이 규칙을 짜기보다 **학습**으로 접근하는 경우가 많습니다. 대표적인 두 갈래를 봅니다.

강화학습 기반

시뮬레이션 안에서 손과 물체를 두고 "원하는 자세로 돌리면 보상"을 주며 시행착오로 정책을 익힙니다. 관측에는 관절 상태와 함께 촉각 신호(접촉 여부, 접촉 위치, 힘 등)를 넣습니다. 촉각이 관측에 포함되면 정책은 가림 상황에서도 물체의 상태를 추정하며 조작할 수 있게 됩니다.

┌───────────── 인핸드 조작 학습(개념) ─────────────┐

│ │

│ 관측 = 관절 상태 + 촉각 신호(접촉·힘·위치) │

│ │ │

│ ▼ │

│ [정책 신경망] ──▶ 각 손가락 관절 목표 │

│ │ │

│ ▼ │

│ 시뮬레이터에서 물체 자세 변화 관측 ──▶ 보상 │

│ │ (목표 자세에 가까울수록 +, 떨어뜨리면 -) │

│ └────────────────────────────────────────┘

└──────────────────────────────────────────────────┘

모방학습 기반

사람이 원격 조종이나 시연으로 조작을 보여주고, 그때의 시각·촉각·행동 데이터를 모아 정책이 흉내 내도록 학습합니다. 최근에는 시각·언어·행동을 함께 다루는 정책(VLA 흐름)에 촉각을 하나의 입력 모달리티로 더하려는 시도도 늘고 있습니다. 다만 촉각 데이터의 표준화와 대규모 수집은 아직 발전 중인 영역입니다.

촉각 Sim2Real

시뮬레이션에서 학습한 정책을 실물로 옮기는 sim2real 문제는 촉각에서 특히 까다롭습니다. 접촉 물리(마찰, 변형, 탄성)는 시뮬레이터가 근사하기 어려운 대표적 대상이기 때문입니다.

시뮬레이션 촉각(근사된 접촉 물리) 실물 촉각(복잡한 마찰·변형·노이즈)

접촉을 단순 모델로 계산 vs 겔 변형·미끄러짐·센서 잡음 실제 발생

│ │

└────── 이 간극을 좁히는 기법들 ──────────┘

· 도메인 랜덤화(마찰·강성·노이즈 무작위화)

· 실측 접촉 이미지로 시뮬 렌더링 보정

· 촉각을 접촉 지점·힘 등 추상 신호로 단순화

접근법은 로코모션의 sim2real과 비슷합니다. **도메인 랜덤화**로 마찰 계수, 겔 강성, 센서 노이즈를 학습 중에 흔들어 특정 값에 과적합하지 않게 합니다. 비전 기반 센서의 경우, 시뮬레이션에서 겔 변형을 렌더링해 실물 이미지와 최대한 비슷하게 만드는 노력도 함께 이루어집니다. 또한 촉각을 원시 이미지 대신 "접촉 여부, 접촉 위치, 대략적 힘" 같은 더 추상적인 신호로 요약하면, 시뮬과 실물의 간극이 줄어드는 경향이 있습니다.

센서 계열 심화 비교

두 센서 계열의 차이를 조금 더 깊이 들여다봅니다. 선택은 늘 트레이드오프입니다.

| 관점 | 비전 기반(GelSight류) | 전자피부(e-skin) |

| --- | --- | --- |

| 공간 해상도 | 매우 높음(이미지 수준) | 상대적으로 낮음(격자 밀도 의존) |

| 커버 면적 | 손끝 등 작은 면적 | 넓은 면적에 유리 |

| 두께 | 카메라·겔로 다소 두꺼움 | 얇게 만들기 유리 |

| 출력 형태 | 이미지 | 전기 신호 어레이 |

| 내구성 | 겔 마모에 취약 | 방식에 따라 다양 |

| 도구 재사용 | 비전 도구 그대로 활용 | 전용 처리 필요 |

정리하면, 손끝의 정밀한 조작에는 비전 기반 센서가, 팔이나 몸통처럼 넓은 부위의 접촉 감지에는 전자피부가 어울립니다. 둘을 함께 쓰는 하이브리드 설계도 자연스럽습니다. 손끝은 고해상도 이미지로 정밀하게, 넓은 표면은 전자피부로 대략적으로 감지하는 것입니다.

실제 작업 흐름 예시: 커넥터 삽입

촉각이 실제로 어떻게 쓰이는지, 커넥터를 소켓에 꽂는 작업을 예로 봅니다. 이는 시각만으로는 매우 어려운 대표적 과제입니다.

1) 접근 시각으로 소켓 위치 대략 파악, 커넥터를 근처로 이동

│

▼

2) 탐색 커넥터 끝을 소켓 주변에 살짝 대고, 촉각으로 접촉 감지

│ (아직 안 들어감 → 미세하게 위치 조정)

▼

3) 정렬 접촉 힘의 방향에서 어긋난 각도를 추정, 자세 보정

│ (걸리는 느낌 → 힘 방향으로 정렬)

▼

4) 삽입 정렬되면 부드럽게 밀어 넣음, 삽입 힘을 촉각으로 감시

│ (과도한 힘 감지 → 즉시 멈춤, 손상 방지)

▼

5) 확인 "딸깍" 하는 접촉 신호로 삽입 완료 판단

여기서 시각은 2단계 이후 거의 도움이 되지 않습니다. 커넥터와 소켓이 손과 부품에 가려 보이지 않기 때문입니다. 사람이 어두운 곳에서 플러그를 손 감각만으로 꽂듯, 로봇도 촉각으로 이 미세한 정렬과 삽입을 해냅니다. 이것이 촉각이 진가를 발휘하는 전형적 장면입니다.

벤치마크와 데이터

촉각 연구가 성숙하려면 공정한 비교 기준이 필요합니다. 하지만 여기에는 구조적 어려움이 있습니다.

- **센서 다양성**: 센서마다 출력 형식이 달라, 한 센서로 모은 데이터를 다른 센서에 그대로 쓰기 어렵습니다.

- **재현성**: 접촉 물리는 미세한 조건(마찰, 온도, 겔 상태)에 민감해, 같은 실험을 재현하기 까다롭습니다.

- **표준 과제 부재**: "이 과제로 성공률을 재자"는 합의된 표준이 아직 부족합니다.

그래서 최근에는 여러 센서와 과제를 아우르는 공용 데이터셋과 평가 프로토콜을 만들려는 노력이 이어지고 있습니다. 시각·언어 분야가 대규모 벤치마크 덕분에 빠르게 발전한 것을 생각하면, 촉각에서도 이런 공용 기반이 성장의 관건입니다. 다만 이 영역은 아직 발전 중이며, 특정 데이터셋의 규모나 구성은 시점에 따라 다를 수 있습니다.

응용

- **정밀 조립**: 커넥터 삽입, 나사 체결처럼 미세한 힘 피드백이 필요한 작업.

- **깨지기 쉬운 물체 취급**: 계란, 과일, 유리처럼 힘 조절이 생명인 물체.

- **얇고 유연한 물체**: 천, 종이, 케이블처럼 시각만으로 다루기 어려운 물체.

- **어두운 곳·가림 환경**: 시야가 막힌 곳에서 손 감각만으로 부품을 찾고 조립.

- **의료·서비스 로봇**: 사람이나 부드러운 물체와 안전하게 접촉해야 하는 상황.

함정과 한계

- **센서 내구성**: 부드러운 겔은 반복 접촉과 마모에 약할 수 있어, 교체·보호 설계가 필요합니다.

- **데이터 표준 부재**: 촉각 센서마다 출력 형식이 달라, 대규모 공용 데이터셋과 벤치마크가 아직 성숙하지 못했습니다.

- **접촉 물리의 어려움**: 마찰과 변형은 정확히 모델링하기 어렵고, 이는 sim2real과 재현성 문제로 이어집니다.

- **처리 지연**: 고해상도 촉각 이미지를 실시간으로 처리하려면 계산 부담이 있습니다.

- **일반화**: 특정 물체·조건에서 잘 되는 정책이 낯선 물체·표면으로 넘어가면 성능이 떨어질 수 있습니다.

- **평가 기준**: "얼마나 잘 다루는가"를 공정히 비교할 표준 지표가 아직 정립 중입니다.

촉각과 VLA의 만남

앞서 로봇 파운데이션 모델과 VLA(Vision-Language-Action) 흐름을 언급했습니다. 흥미로운 최근 질문 하나는 "여기에 촉각을 더하면 어떻게 되는가"입니다. 시각과 언어에 촉각을 더한, 이를테면 촉각까지 다루는 확장된 정책을 떠올릴 수 있습니다.

기존 VLA: 시각 + 언어 ──▶ 행동

│

▼ 촉각 모달리티 추가

확장 흐름: 시각 + 언어 + 촉각 ──▶ 행동

│

▼

접촉 순간에도 언어 지시를 따르며 정밀 조작

다만 이것은 쉽지 않습니다. 시각·언어 데이터는 웹에 방대하지만, 촉각 데이터는 실제 접촉에서만 나오고 센서마다 형식이 달라 대규모로 모으기 어렵습니다. 그럼에도 촉각을 하나의 감각 채널로 통합하려는 시도는 정교한 조작의 자연스러운 다음 단계로 여겨집니다. 이 방향이 얼마나 빠르게 성숙할지는 아직 열린 질문입니다.

학습 관점 정리

촉각을 정책에 넣는 방법을 한 표로 정리합니다.

| 방법 | 데이터 출처 | 강점 | 약점 |

| --- | --- | --- | --- |

어느 방법도 만능은 아닙니다. 실무에서는 시뮬레이션으로 기본기를 익히고, 실물의 소량 데이터로 미세 조정하며, 필요하면 사람 시연을 더하는 식으로 여러 방법을 조합합니다. 촉각처럼 데이터가 귀한 영역일수록, 데이터 효율적인 조합 전략이 중요해집니다.

촉각 sim2real을 좁히는 세 갈래

앞서 촉각 sim2real이 특히 까다롭다고 했습니다. 이를 좁히는 노력은 크게 세 갈래로 나눌 수 있습니다.

- **물리를 더 정확히**: 접촉·마찰·변형을 더 사실적으로 시뮬레이션해, 시뮬과 실물의 물리 자체를 가깝게 만듭니다.

- **정책을 더 강건하게**: 도메인 랜덤화로 다양한 물리를 겪게 해, 어떤 실물 조건에도 견디는 정책을 만듭니다.

- **표현을 더 추상적으로**: 촉각을 원시 이미지 대신 접촉점·힘 같은 추상 신호로 요약해, 시뮬과 실물이 공유하기 쉬운 표현을 씁니다.

이 셋은 배타적이지 않고 함께 쓰입니다. 물리를 개선하면서, 정책을 강건하게 하고, 표현도 신중히 고르는 것입니다. 결국 목표는 하나입니다. 시뮬레이션에서 값싸게 많이 배우되, 그 결과가 실물에서도 통하게 만드는 것. 촉각의 복잡한 접촉 물리 때문에 이 목표는 로코모션보다 어렵지만, 그만큼 활발히 연구되는 영역입니다.

실시간성과 지연

조작에서 촉각은 빠를수록 좋습니다. 미끄러짐을 감지하고 힘을 올리기까지의 지연이 크면, 이미 물체를 떨어뜨린 뒤일 수 있기 때문입니다. 사람의 미끄러짐 반사는 매우 빠릅니다. 로봇도 이에 준하는 빠른 촉각 피드백 루프가 필요합니다.

접촉 발생 ──▶ 센서 측정 ──▶ 신호 처리 ──▶ 판단 ──▶ 힘 조정

│ │ │ │ │

└── 각 단계의 지연이 쌓여 전체 반응 시간이 됨 ──────┘

목표: 이 전체 루프를 충분히 빠르게(짧은 지연으로) 닫기

비전 기반 센서는 고해상도 이미지를 주는 대신, 그 이미지를 처리하는 계산 부담이 있습니다. 반면 저차원 신호는 처리가 가볍습니다. 그래서 실시간 조작에서는 "무엇을 얼마나 정밀하게 감지할 것인가"와 "얼마나 빠르게 반응할 것인가" 사이의 균형을 잡아야 합니다. 미끄러짐 방지처럼 속도가 생명인 반사는 가벼운 신호로 빠르게, 질감 파악처럼 정밀함이 필요한 인식은 이미지로 천천히 — 이렇게 역할을 나누는 것도 한 방법입니다.

새로운 방향들

촉각 조작은 빠르게 넓어지는 분야입니다. 몇 가지 흐름을 짚습니다.

- **더 값싸고 튼튼한 센서**: 대량 배치를 위해서는 저렴하고 마모에 강한 센서가 필요합니다.

- **전신 촉각**: 손끝을 넘어 팔·몸통까지 넓게 감지해, 사람과 안전하게 접촉하는 로봇으로.

- **촉각 시뮬레이션의 발전**: 접촉 물리를 더 정확히 시뮬레이션하면 sim2real 간극이 줄어듭니다.

- **감각 융합의 심화**: 시각·촉각·청각(접촉음)까지 종합해 물체와 상황을 이해하는 방향.

이 흐름들의 공통 목표는 하나입니다. 로봇이 물리 세계와 더 섬세하고 안전하게 접촉하게 만드는 것. 접촉은 조작의 본질이고, 촉각은 그 접촉을 이해하는 감각입니다.

마치며

로봇에게 손끝의 감각을 주는 일은, 조작을 "보고 대략 맞히는" 문제에서 "느끼고 실시간으로 조율하는" 문제로 바꿔 놓습니다. 비전 기반 촉각 센서는 접촉을 이미지로 바꿔 성숙한 비전 도구를 그대로 쓰게 했고, 전자피부는 넓은 표면의 접촉을 감지합니다. 시각과 촉각을 함께 쓰고, 학습으로 인핸드 조작을 익히며, sim2real 기법으로 실물의 간극을 좁혀 갑니다.

사람이 눈을 감고도 주머니 속 열쇠를 찾아내듯, 로봇이 손끝만으로 세상을 다루는 날 — 그 방향으로 촉각 연구는 조용히, 그러나 꾸준히 나아가고 있습니다.

참고 자료

- GelSight (MIT 관련 소개): [https://www.gelsight.com/](https://www.gelsight.com/)

- Open X-Embodiment (arXiv, 대규모 로봇 데이터 맥락): [https://arxiv.org/abs/2310.08864](https://arxiv.org/abs/2310.08864)

- OpenVLA (arXiv, 시각-언어-행동 정책): [https://arxiv.org/abs/2406.09246](https://arxiv.org/abs/2406.09246)

- RT-2 (arXiv, VLA): [https://arxiv.org/abs/2307.15818](https://arxiv.org/abs/2307.15818)

- Physical Intelligence: [https://www.physicalintelligence.company/](https://www.physicalintelligence.company/)

- NVIDIA Isaac (접촉 시뮬레이션 맥락): [https://developer.nvidia.com/isaac](https://developer.nvidia.com/isaac)

- Boston Dynamics (조작 연구 맥락): [https://bostondynamics.com/](https://bostondynamics.com/)

- Hacker News (로봇/촉각 관련 토론): [https://news.ycombinator.com/](https://news.ycombinator.com/)