はじめに
目を閉じていても、私たちはポケットの中で鍵と硬貨を区別し、コップをこぼさないように力を調節し、指の間で滑ろうとする物を瞬間的につかみます。このすべてを可能にするのが**触覚**です。
ロボット操作(manipulation)は長らく主に「目」に依存してきました。カメラで物体を見て、その位置と姿勢を推定し、グリッパをそちらへ送る方式です。しかし手が物体に触れる瞬間、視覚は手と物体の間の接触を隠されて見えなくなります(オクルージョン)。実際に滑っているのか、どれほど強く握っているのか、表面が滑らかか粗いかは、ただ指先の感覚だけが教えてくれます。
本記事では、ロボットが指先で世界を感じる**触覚センシング**と、その感覚を使った**精緻な操作**を扱います。どんなセンサがあり、触覚が実際にどんな情報を与え、視覚とどう融合し、学習でどうインハンド操作を身につけるのか、そして触覚特有のsim2real問題まで見ていきます。
なぜ触覚か
視覚と触覚は、それぞれ違うことが得意です。視覚は遠くから全体の場面を把握するのに優れますが、接触の瞬間の微細な物理は取り逃します。触覚は正反対です。
| 感覚 | 得意なこと | 苦手なこと |
| --- | --- | --- |
| 視覚 | 遠距離認識、全体配置、おおまかな形状 | 接触力、滑り、隠れの背後の状態 |
| 触覚 | 接触力、滑り検知、局所の質感・形状 | 遠距離認識、接触前の情報 |
精緻な操作で決定的な瞬間は、ほとんど接触の後に起こります。指でネジを回し、薄いカードをつまみ、卵を割らずに運ぶことは、接触力のリアルタイムなフィードバックなしには非常に難しいです。これが触覚が必要な理由です。
触覚センサの二つの流れ
ロボットの触覚センサは、大きく二つの系列に分けられます。
ビジョンベース触覚センサ(GelSight系)
代表的なものが**GelSight**系です。原理は驚くほど単純でありながら強力です。透明なゲル(ゼリーのような弾性体)の表面に薄い反射膜を被せ、そのゲルを内側からカメラで撮影します。物体がゲルを押すとゲル表面が変形し、内部のLED照明の下でその変形をカメラが画像として捉えます。
物体がゲル表面を押す
│
▼
┌─────────────────────────────┐
│ 弾性ゲル(反射コーティング) │ ← 物体の形状どおりに変形
├─────────────────────────────┤
│ 透明支持層 │
│ ↑ LED照明(複数色) │
│ [ カメラ ] ──▶ 画像 │ ← 変形を高解像度で撮影
└─────────────────────────────┘
│
▼
接触形状・微細な質感・力分布を「画像」として取得
この方式の大きな利点は**接触を画像に変える**点です。接触面の微細な質感、小さな文字、表面の凹凸まで高解像度の画像で得られ、ゲルの変形量から力分布や滑りの兆候まで読み取れます。そしてすでに成熟したコンピュータビジョン・深層学習の道具をそのまま適用できることも大きな利点です。
電子皮膚(電気ベースの触覚アレイ)
もう一つの流れが**電子皮膚(electronic skin, e-skin)**です。圧力・変形に反応する素子を広い面積に格子状に配列し、各地点の力を電気信号として読みます。静電容量(capacitive)、抵抗(resistive)、圧電(piezoelectric)など多様な方式があります。
電子皮膚は薄く広い面積を覆うのに有利で、腕や胴のような広い部位の接触を検知するのに強みがあります。一方、ビジョンベースのセンサほどの超高解像度の質感画像を得るのは難しい傾向です。二つの系列は競争というより、指先(高解像度)と広い表面(広いカバレッジ)という異なる役割として見るのが自然です。
触覚が教えてくれること
触覚センサから実際にどんな情報を取り出せるのかを整理します。
- **接触力と方向**: どれほど強く、どの方向に押しているか。卵のような弱い物体を扱うとき必須です。
- **滑り(slip)検知**: 物体が手から滑り始める初期の兆候。滑りを検知したら直ちに握る力を上げて取り落とさないようにできます。
- **局所形状・質感**: 接触面の凹凸、角、表面の粗さ。暗い場所で鍵穴を手で探すのに似ています。
- **接触位置**: 物体が指のどの地点に触れたか。インハンド操作で物体の姿勢を推定する手がかりになります。
滑り検知は特に重要です。人は物が滑り始めるごく初期の信号(振動、接触面の移動)を感じ、無意識に力を足します。ロボットもこの信号を触覚で捉えれば、強く握りすぎて壊すことも、弱く握りすぎて落とすこともない絶妙な力調節が可能になります。
人の触覚から学ぶ
ロボットの触覚研究は、人の指先をよく参考にします。人の皮膚には複数種類の機械受容器(mechanoreceptor)があり、異なる刺激に特化しています。
| 受容器の種類 | よく感じるもの | ロボットでの対応 |
| --- | --- | --- |
| 速順応型 | 振動、滑りの始まり | 接触面変化の時間微分 |
| 遅順応型 | 持続的な圧力、形状 | 静的な力分布 |
核心的な洞察は「触覚は単一の信号ではなく、複数チャンネルの組み合わせ」という点です。持続的な圧力を測るチャンネルと、瞬間的な変化を測るチャンネルがともにあってこそ安定した把持が可能です。ビジョンベースの触覚センサが強力な理由もここにあります。ゲル表面の静的な変形(圧力)と、その変形の時間的変化(滑りの兆候)を一つの画像ストリームからともに取り出せるからです。
把持の安定性: どれほど強く握るか
操作の根本的な問いの一つが「どれほど強く握るか」です。弱すぎれば落とし、強すぎれば壊したり関節に無理がかかったりします。人はこの均衡を無意識に取りますが、ロボットには明示的な戦略が必要です。
握る力 ──────────────────────────────────────▶
弱すぎ 適正区間 強すぎ
┌──────────┬─────────────────┬──────────────┐
│ 滑り │ 安定した把持 │ 物体の損傷 │
│ 取り落とし│ (触覚で維持) │ 過負荷 │
└──────────┴─────────────────┴──────────────┘
▲ ▲ ▲
力不足 触覚フィードバックで 力過多
この区間に留まらせる
触覚フィードバックは、この「適正区間」に留まることを可能にします。滑りの兆候が検知されれば力を少し上げ、安定していれば最小限の力だけ維持する、という具合です。こうすれば卵のような弱い物体も、重い工具も同じ手で扱えます。把持力を固定値に置く代わりに触覚でリアルタイムに調節すること — これが精緻な操作の出発点です。
触覚データの表現
触覚を学習に使うには、センサ出力を方策が扱える形に表現しなければなりません。大きく二つの筋があります。
- **画像表現**: ビジョンベースのセンサは接触をそのまま画像で与えます。CNNのようなビジョンネットワークをそのまま使えて便利です。
- **低次元信号表現**: 接触の有無、接触位置、力ベクトルのように要約された数値で表現します。軽くsim2realに有利ですが、微細な質感情報は失われます。
どの表現が良いかは課題によります。薄いカードをつまむように微細な質感が重要なら画像表現が、重い物体を落とさないように力管理が重要なら低次元表現が有利なことがあります。実務では両者を混ぜて使うこともあります。
視覚と触覚の融合
最も強力な操作システムは、視覚と触覚を一緒に使います。互いの弱点を補い合うからです。
┌──────────── 視覚(カメラ) ────────────┐
│ 接触前: 物体の位置・形状をおおまかに把握 │
│ 手が近づく経路を計画 │
└──────────────────┬───────────────────┘
│ 接触の瞬間、手が物体を隠す
▼
┌──────────── 触覚(指先センサ) ─────────┐
│ 接触後: 力・滑り・局所形状を把握 │
│ リアルタイムの力調節、姿勢の微補正 │
└──────────────────┬───────────────────┘
│
▼
┌──── 視覚・触覚の統合方策 ─────┐
│ 二つの感覚をともに入力として │
│ 受け、次の行動を決定 │
└─────────────────────────────┘
典型的な流れはこうです。接触する前は視覚で物体に近づき、接触する瞬間からは触覚が主導権を引き継いで力を調節し滑りを防ぎます。学習ベースのシステムでは、カメラ画像と触覚画像(または信号)を一緒にニューラルネットワークに入れ、二つの感覚を統合した一つの方策を学習することもあります。
能動的な触覚探索
触覚は受動的に「感じるだけ」の感覚ではありません。人は物体を知るために指を**能動的に動かします**。表面をこすって粗さを知り、押して硬さを知り、輪郭をたどって形状を把握します。これを**能動的触覚探索(active tactile exploration)**と呼びます。
こする ──▶ 質感・粗さの把握
押す ──▶ 硬さ・弾性の把握
輪郭をたどる ──▶ 形状・角の把握
持ち上げる ──▶ 重さ・重心の推定
ロボットも同様に、情報を得るために接触の仕方を自ら選べます。「今この物体が何か確かでない」なら、指を動かしてより多くの触覚情報を集めるのです。これは操作を単なる実行ではなく、感覚と行動が絡み合った探索の過程にします。情報が足りなければもっと触り、十分なら実行する — この循環が能動的触覚の核心です。
触覚だけで物体を見分ける
興味深い応用の一つは、**触覚だけで物体を認識する**ことです。目を閉じてポケットの中で鍵と硬貨を区別する、あの能力をロボットに与えるのです。ビジョンベースの触覚センサが接触を高解像度の画像で与えるため、接触面の質感と形状だけでも物体をかなり区別できます。
物体A(滑らかな円柱) 接触画像 ──▶ [分類器] ──▶ 「ペン」
物体B(凹凸のある表面) 接触画像 ──▶ [分類器] ──▶ 「硬貨」
物体C(柔らかい布) 接触画像 ──▶ [分類器] ──▶ 「布」
この能力が有用なのは、視界がふさがれた状況でもロボットが今何に触れているか分かるからです。かばんの中を手で探って欲しい物を見つけたり、暗い場所で部品を区別したりすることが可能になります。視覚と触覚をともに使えば、遠くから大まかに見た物体を手で触れて確定する「確認」の段階としても活用できます。
力制御の基礎
触覚をうまく使うには、ロボットが**力を制御**できなければなりません。位置だけを制御するロボットは「ここへ行け」という命令だけに従いますが、力を制御するロボットは「この程度の力で押せ」に従えます。
位置制御のみ: 目標位置へ移動 (接触すれば過度な力の危険)
│
▼
力/コンプライアンス制御: 目標の力を保ちながら接触
│ (硬い壁に触れても柔らかく押す)
▼
触覚フィードバックと結合: 測定した接触力で目標をリアルタイム調整
特に**コンプライアンス(compliance, 順応性)**の概念が重要です。順応的なロボットは外力に柔らかく反応し、予期しない接触でも部品や人を傷つけません。触覚センサで接触力を測り、その値でロボットを順応的に動かせば、硬い位置制御では不可能な繊細な操作が可能になります。触覚と力制御は事実上一対です。
接触の前と後: 感覚の交代
操作を時間軸で広げてみると、感覚の主導権がどう変わるかが一目で見えます。
時間 ────────────────────────────────────────────▶
[ 接近 ] [ 接触 ] [ 操作 ] [ 分離 ]
視覚主導 切り替え 触覚主導 視覚確認
物体へ移動 初接触の検知 力・滑りの管理 結果の確認
│ │ │ │
カメラが導く 触覚が介入開始 触覚が主導 再びカメラ
この図の核心は「感覚が固定されていない」という点です。接近するときは視覚が、接触すれば触覚が、終われば再び視覚が主導権を持ちます。よくできた操作システムはこの交代を滑らかに処理します。接触の瞬間を正確に検知して触覚へ切り替え、操作が終われば視覚で結果を確認します。二つの感覚の自然な協業が、精緻な操作の土台です。
多指ハンドの挑戦
精緻な操作は、たいてい**複数の指(multi-fingered hand)**を必要とします。二本指グリッパではつかむところが限界ですが、人の手のように複数の指があれば、物体を手の中で自由に扱えます。しかし指が増えるほど制御は急激に難しくなります。
- **自由度の爆発**: 指ごとに複数の関節があり、制御すべき変数が多くなります。
- **協調**: 複数の指の力が調和してこそ、物体が安定して維持されます。
- **触覚チャンネルの増加**: 各指先の触覚をすべて統合する必要があるため、感覚処理の負担も大きいです。
そのため多指ハンドの操作は、おおむね学習に大きく依存します。数多くの指と関節を人がいちいち調律する規則で扱うのは非常に難しいからです。触覚を観測に入れ、強化学習や模倣学習で協調を身につけるのが現実的なアプローチです。
精緻なインハンド操作
**インハンド操作(in-hand manipulation)**は、つかんだ物体を手の中で再び転がし、回し、姿勢を変える能力を指します。たとえば手の中の立方体を望む面が上に来るように回したり、ボルトを指の間で回転させたりすることです。これはロボット操作で最も難しい問題の一つに数えられます。
難しい理由はこうです。
- **接触が絶えず変わる**: 物体を転がす間、ある指は離れ、ある指は新たに触れます。接触状態が刻々と変わります。
- **隠れが激しい**: 手の中の物体は指に隠れてカメラでよく見えません。だから触覚が特に重要です。
- **微細な力の均衡**: 複数の指が物体に加える力が均衡してこそ、落とさずに望みどおり動かせます。
この問題で触覚は、「手の中で今物体がどんな姿勢か、どの指がどう触れているか」を教えてくれる核心の感覚です。視覚だけでは隠れのため分からない情報を、指先が代わりに埋めてくれます。
学習方法: 触覚を方策に入れる
精緻な操作は、手でいちいち規則を組むより**学習**でアプローチする場合が多いです。代表的な二つの筋を見ます。
強化学習ベース
シミュレーションの中で手と物体を置き、「望む姿勢に回せば報酬」を与えて試行錯誤で方策を身につけます。観測には関節状態とともに触覚信号(接触の有無、接触位置、力など)を入れます。触覚が観測に含まれると、方策は隠れの状況でも物体の状態を推定しながら操作できるようになります。
┌───────────── インハンド操作の学習(概念) ─────────────┐
│ │
│ 観測 = 関節状態 + 触覚信号(接触・力・位置) │
│ │ │
│ ▼ │
│ [方策ネットワーク] ──▶ 各指の関節目標 │
│ │ │
│ ▼ │
│ シミュレータで物体の姿勢変化を観測 ──▶ 報酬 │
│ │ (目標姿勢に近いほど +, 落とせば -) │
│ └──────────────────────────────────────────────┘
└──────────────────────────────────────────────────────────┘
模倣学習ベース
人が遠隔操縦やデモで操作を見せ、そのときの視覚・触覚・行動のデータを集めて方策が真似るように学習します。最近は視覚・言語・行動を一緒に扱う方策(VLAの流れ)に、触覚を一つの入力モダリティとして加えようとする試みも増えています。ただし触覚データの標準化と大規模収集は、まだ発展途上の領域です。
触覚のSim2Real
シミュレーションで学習した方策を実機へ移すsim2real問題は、触覚で特に厄介です。接触物理(摩擦、変形、弾性)は、シミュレータが近似しにくい代表的な対象だからです。
シミュレーション触覚(近似された接触物理) 実機触覚(複雑な摩擦・変形・ノイズ)
接触を単純モデルで計算 vs ゲル変形・滑り・センサ雑音が実際に発生
│ │
└────── この隔たりを狭める技法 ───────────┘
· ドメインランダム化(摩擦・剛性・ノイズのランダム化)
· 実測の接触画像でシミュレーションのレンダリングを補正
· 触覚を接触点・力などの抽象信号に単純化
アプローチはロコモーションのsim2realに似ています。**ドメインランダム化**で摩擦係数、ゲル剛性、センサノイズを学習中に揺らし、特定の値に過適合しないようにします。ビジョンベースのセンサの場合、シミュレーションでゲル変形をレンダリングして実機画像にできるだけ近づける努力も一緒に行われます。また、触覚を生画像の代わりに「接触の有無、接触位置、おおまかな力」のようなより抽象的な信号に要約すると、シミュレーションと実機の隔たりが縮まる傾向があります。
センサ系列の深い比較
二つのセンサ系列の違いを、もう少し深く見てみます。選択は常にトレードオフです。
| 観点 | ビジョンベース(GelSight系) | 電子皮膚(e-skin) |
| --- | --- | --- |
| 空間解像度 | 非常に高い(画像レベル) | 相対的に低い(格子密度に依存) |
| カバー面積 | 指先など小さな面積 | 広い面積に有利 |
| 厚み | カメラ・ゲルでやや厚い | 薄く作るのに有利 |
| 出力形態 | 画像 | 電気信号のアレイ |
| 耐久性 | ゲルの摩耗に弱い | 方式によって様々 |
| 道具の再利用 | ビジョンの道具をそのまま活用 | 専用処理が必要 |
まとめると、指先の精密な操作にはビジョンベースのセンサが、腕や胴のような広い部位の接触検知には電子皮膚が向きます。両者をともに使うハイブリッド設計も自然です。指先は高解像度の画像で精密に、広い表面は電子皮膚で大まかに感知するのです。
実際の作業の流れの例: コネクタ挿入
触覚が実際にどう使われるか、コネクタをソケットに挿す作業を例に見ます。これは視覚だけでは非常に難しい代表的な課題です。
1) 接近 視覚でソケット位置を大まかに把握、コネクタを近くへ移動
│
▼
2) 探索 コネクタの先をソケット周辺に軽く当て、触覚で接触を検知
│ (まだ入らない → 微細に位置調整)
▼
3) 整列 接触力の方向からずれた角度を推定、姿勢を補正
│ (引っかかる感触 → 力の方向へ整列)
▼
4) 挿入 整列すれば柔らかく押し込む、挿入力を触覚で監視
│ (過度な力を検知 → 直ちに停止、損傷防止)
▼
5) 確認 「カチッ」という接触信号で挿入完了を判断
ここで視覚は2段階以降ほとんど役に立ちません。コネクタとソケットが手と部品に隠れて見えないからです。人が暗い場所でプラグを手の感覚だけで挿すように、ロボットも触覚でこの微細な整列と挿入をやってのけます。これが触覚が真価を発揮する典型的な場面です。
ベンチマークとデータ
触覚研究が成熟するには、公正な比較の基準が必要です。しかしここには構造的な難しさがあります。
- **センサの多様性**: センサごとに出力形式が異なり、あるセンサで集めたデータを別のセンサにそのまま使いにくいです。
- **再現性**: 接触物理は微細な条件(摩擦、温度、ゲルの状態)に敏感で、同じ実験を再現しにくいです。
- **標準課題の不在**: 「この課題で成功率を測ろう」という合意された標準がまだ不足しています。
そこで最近は、複数のセンサや課題をまたぐ共用のデータセットと評価プロトコルを作ろうとする努力が続いています。視覚・言語の分野が大規模ベンチマークのおかげで速く発展したことを思えば、触覚でもこうした共用基盤が成長の鍵です。ただしこの領域はまだ発展中で、特定のデータセットの規模や構成は時点によって異なることがあります。
応用
- **精密組立**: コネクタ挿入、ネジ締めのような微細な力フィードバックが必要な作業。
- **壊れやすい物体の取り扱い**: 卵、果物、ガラスのように力調節が生命の物体。
- **薄く柔軟な物体**: 布、紙、ケーブルのように視覚だけでは扱いにくい物体。
- **暗い場所・隠れの環境**: 視界がふさがれた場所で手の感覚だけで部品を探し組み立てる。
- **医療・サービスロボット**: 人や柔らかい物体と安全に接触しなければならない状況。
落とし穴と限界
- **センサの耐久性**: 柔らかいゲルは反復接触や摩耗に弱いことがあり、交換・保護の設計が必要です。
- **データ標準の不在**: 触覚センサごとに出力形式が異なり、大規模な共用データセットとベンチマークがまだ成熟していません。
- **接触物理の難しさ**: 摩擦と変形は正確にモデル化しにくく、これがsim2realと再現性の問題につながります。
- **処理遅延**: 高解像度の触覚画像をリアルタイムに処理するには計算負担があります。
- **汎化**: 特定の物体・条件でうまくいく方策が、見慣れない物体・表面に移ると性能が落ちることがあります。
- **評価基準**: 「どれほどうまく扱うか」を公正に比較する標準指標が、まだ確立の途上です。
触覚とVLAの出会い
先ほどロボット基盤モデルとVLA(Vision-Language-Action)の流れに触れました。興味深い最近の問いの一つは「ここに触覚を加えるとどうなるか」です。視覚と言語に触覚を加えた、いわば触覚まで扱う拡張された方策を思い描けます。
既存のVLA: 視覚 + 言語 ──▶ 行動
│
▼ 触覚モダリティを追加
拡張の流れ: 視覚 + 言語 + 触覚 ──▶ 行動
│
▼
接触の瞬間にも言語指示に従い、精密に操作
ただしこれは簡単ではありません。視覚・言語のデータはウェブに膨大ですが、触覚データは実際の接触からしか出ず、センサごとに形式が異なり、大規模に集めにくいです。それでも触覚を一つの感覚チャンネルとして統合しようとする試みは、精緻な操作の自然な次の段階と見なされます。この方向がどれほど速く成熟するかは、まだ開かれた問いです。
学習の観点の整理
触覚を方策に入れる方法を一つの表に整理します。
| 方法 | データ源 | 強み | 弱み |
| --- | --- | --- | --- |
| 強化学習 | シミュレーションの試行錯誤 | データが安い、探索的 | sim2realの隔たり |
| 模倣学習 | 人の実演 | 人の技能を直接移せる | 実演収集の費用 |
| ハイブリッド | シミュ + 実機少量 | 頑健性と効率の折衷 | パイプラインが複雑 |
どの方法も万能ではありません。実務ではシミュレーションで基礎を身につけ、実機の少量データで微調整し、必要なら人の実演を加える形で複数の方法を組み合わせます。触覚のようにデータが貴重な領域ほど、データ効率のよい組み合わせ戦略が重要になります。
触覚のsim2realを狭める三つの筋
先ほど触覚のsim2realが特に厄介だと述べました。これを狭める努力は、大きく三つの筋に分けられます。
- **物理をより正確に**: 接触・摩擦・変形をより現実的にシミュレーションし、シミュと実機の物理そのものを近づけます。
- **方策をより頑健に**: ドメインランダム化で多様な物理を経験させ、どんな実機条件にも耐える方策を作ります。
- **表現をより抽象的に**: 触覚を生画像の代わりに接触点・力のような抽象信号に要約し、シミュと実機が共有しやすい表現を使います。
この三つは排他的ではなく、ともに使われます。物理を改善しつつ、方策を頑健にし、表現も慎重に選ぶのです。結局、目標は一つです。シミュレーションで安く多く学びつつ、その結果が実機でも通用するようにすること。触覚の複雑な接触物理のため、この目標はロコモーションより難しいですが、その分活発に研究される領域です。
リアルタイム性と遅延
操作において触覚は速いほど良いです。滑りを検知して力を上げるまでの遅延が大きければ、すでに物体を落とした後かもしれないからです。人の滑り反射は非常に速いです。ロボットもこれに準じる速い触覚フィードバックのループが必要です。
接触発生 ──▶ センサ測定 ──▶ 信号処理 ──▶ 判断 ──▶ 力の調整
│ │ │ │ │
└── 各段階の遅延が積み重なって全体の反応時間になる ────┘
目標: この全体のループを十分に速く(短い遅延で)閉じる
ビジョンベースのセンサは高解像度の画像を与える代わりに、その画像を処理する計算負担があります。一方、低次元信号は処理が軽いです。そこでリアルタイム操作では、「何をどれほど精密に感知するか」と「どれほど速く反応するか」の間で均衡を取らなければなりません。滑り防止のように速度が生命の反射は軽い信号で速く、質感把握のように精密さが必要な認識は画像でゆっくり — こう役割を分けるのも一つの方法です。
新しい方向
触覚操作は急速に広がる分野です。いくつかの流れを押さえます。
- **より安く丈夫なセンサ**: 大量配備のためには、安く摩耗に強いセンサが必要です。
- **全身触覚**: 指先を超えて腕・胴まで広く感知し、人と安全に接触するロボットへ。
- **触覚シミュレーションの発展**: 接触物理をより正確にシミュレーションすれば、sim2realの隔たりが縮まります。
- **感覚融合の深化**: 視覚・触覚・聴覚(接触音)まで統合し、物体と状況を理解する方向。
これらの流れの共通の目標は一つです。ロボットが物理世界とより繊細に安全に接触するようにすること。接触は操作の本質であり、触覚はその接触を理解する感覚です。
おわりに
ロボットに指先の感覚を与えることは、操作を「見ておおよそ当てる」問題から「感じてリアルタイムに調律する」問題へと変えます。ビジョンベースの触覚センサは接触を画像に変え、成熟したビジョンの道具をそのまま使えるようにし、電子皮膚は広い表面の接触を検知します。視覚と触覚を一緒に使い、学習でインハンド操作を身につけ、sim2realの技法で実機の隔たりを狭めていきます。
人が目を閉じてもポケットの中の鍵を探し当てるように、ロボットが指先だけで世界を扱う日 — その方向へ、触覚研究は静かに、しかし着実に進んでいます。
参考資料
- GelSight(紹介): [https://www.gelsight.com/](https://www.gelsight.com/)
- Open X-Embodiment (arXiv, 大規模ロボットデータの文脈): [https://arxiv.org/abs/2310.08864](https://arxiv.org/abs/2310.08864)
- OpenVLA (arXiv, 視覚・言語・行動の方策): [https://arxiv.org/abs/2406.09246](https://arxiv.org/abs/2406.09246)
- RT-2 (arXiv, VLA): [https://arxiv.org/abs/2307.15818](https://arxiv.org/abs/2307.15818)
- Physical Intelligence: [https://www.physicalintelligence.company/](https://www.physicalintelligence.company/)
- NVIDIA Isaac (接触シミュレーションの文脈): [https://developer.nvidia.com/isaac](https://developer.nvidia.com/isaac)
- Boston Dynamics (操作研究の文脈): [https://bostondynamics.com/](https://bostondynamics.com/)
- Hacker News (ロボット/触覚の議論): [https://news.ycombinator.com/](https://news.ycombinator.com/)
현재 단락 (1/219)
目を閉じていても、私たちはポケットの中で鍵と硬貨を区別し、コップをこぼさないように力を調節し、指の間で滑ろうとする物を瞬間的につかみます。このすべてを可能にするのが**触覚**です。