指に局所麻酔をかけると、マッチを擦るという最も基本的な動作でさえ正確さを失ってしまいます。一見すると、マッチを拾って擦る動作は「指先の技術」だけで済むように思えますが、実際には指先の複雑な触覚に依存しています。 触覚フィードバックがなければ、人間の手は単なる不器用なクランプになってしまいます。 マイスナー小体は表皮と真皮の境界に位置し、特に指先、唇、手のひらに密集しています。扁平化した細胞層が神経終末を取り囲む楕円形の構造で、軽い触覚や低周波振動(10~50Hz)を感知するように特別に設計されています。 メルケル細胞は皮膚表面に最も近く、神経終末と複合体を形成します。適応が遅く、ストレスが続く限り信号を送り続けます。 パチニ小体にある最大の触覚受容器は肉眼で見ることができ、小さなタマネギのような形をしています。つまり、数十もの同心円状の結合組織層に包まれた神経繊維です。 ルフィニ小体は真皮の深部に位置する紡錘形の構造です。適応が遅く、継続的な圧力や皮膚の伸縮に敏感です。物を握ったり、指の関節の位置や角度を感じたりするとき、ルフィニ小体は継続的な状態報告を提供します。 だからこそ、私は現在のヒューマノイドロボットの訓練方法に悲観的なのです。なぜなら、人間のあらゆる「マクロ」な動きの裏には、皮膚という「ミクロ」なセンサーの密集したネットワークが存在しているからです。 マスクのオプティマス・プライム:エンドツーエンドの視覚トレーニング。カメラが情報を収集し、ニューラルネットワークが行動を出力。素晴らしい話だ。AIが見て、AIが学び、AIが行動する。すべてはコンピューティングパワーによって処理される。私たちは、純粋な力が奇跡を起こせると信じています。 しかし、これは「皮膚」を「目」に置き換えています。 人は目を閉じていてもポケットから鍵を取り出すことができます。これは、指先が形、重さ、温度、質感を感知できるからです。こうした情報の密度は、視覚では決して測れません。カメラで鍵を見ることはできますが、「鍵を握ったときの親指と人差し指の間の0.1ミリの調整」は見ることができません。 エンドツーエンドのトレーニングの本質は、低帯域幅の信号源(視覚)を用いて、高帯域幅の制御システム(触覚および固有受容覚)をシミュレートすることです。これは次元削減攻撃、つまり逆のアプローチです。 ご覧いただいたデモ動画では、ロボットの動きは太極拳のように遅いです。これはモーターの速度が遅いからではなく、リアルタイムの触覚フィードバックがないためです。「遅さ」を「安定性」と引き換えにしているのです。あらゆる接触は賭けであり、あらゆる力の行使は盲目的な攻撃です。 人間の乳児は生後6ヶ月で何を使ってものを掴むことを学ぶのでしょうか?何百万回もの触覚、握る、離す、そしてまた触覚です。そのたびに、指先は脳に「この圧力、この角度、この結果」と伝えています。これは閉ループです。 エンドツーエンドのトレーニング?閉ループなんて存在しない。というか、不完全な閉ループがある。操作ミスによる皮膚の痛みも、痛みによるフラストレーションもない。正しいか間違っているかはさておき、人間の介入だけが重要だ。粗雑で表面的な報酬メカニズムで、真に「器用な手」を育成できるのだろうか?
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。