손가락에 국소 마취가 되면 성냥을 끄는 가장 기본적인 동작조차 정확도가 떨어집니다. 겉보기에는 성냥을 집어 들고 끄는 데 "손가락 기술"만 필요하다고 생각하지만, 실제로는 손가락 끝의 복잡한 촉각 감각에 의존합니다. 촉각적 피드백이 없다면 인간의 손은 그저 서투른 집게일 뿐입니다. 마이스너 소체는 표피와 진피의 경계에 위치하며, 특히 손가락 끝, 입술, 손바닥에 밀집되어 있습니다. 타원형 구조로, 신경 종말을 둘러싼 납작한 세포층으로 구성되어 있습니다. 가벼운 접촉과 저주파 진동(10~50Hz)을 감지하도록 특별히 설계되었습니다. 메르켈 세포는 피부 표면에 가장 가까이 위치하며 신경 종말과 복합체를 형성합니다. 적응 속도가 느려 스트레스가 지속되는 한 계속해서 신호를 보냅니다. 파치니 소체에 있는 가장 큰 촉각 수용체는 육안으로 볼 수 있으며, 수십 개의 동심원적 결합 조직 층으로 둘러싸인 신경 섬유인 소형 양파와 비슷합니다. 루피니 소체는 진피 깊숙이 위치한 방추형 구조입니다. 루피니 소체는 적응 속도가 느리고 지속적인 압력과 피부 신장에 민감합니다. 물체를 잡거나 손가락 관절의 위치와 각도를 느낄 때 루피니 소체는 지속적인 상태 보고를 제공합니다. 이것이 제가 현재의 인간형 로봇 훈련 방식에 대해 비관적인 이유입니다. 모든 "거시적" 인간 동작 아래에는 촘촘한 "미시적" 센서 네트워크, 즉 피부가 존재하기 때문입니다. 머스크의 옵티머스 프라임: 엔드 투 엔드 시각 훈련. 카메라는 정보를 수집하고, 신경망은 동작을 출력합니다. 놀랍게 들리죠. AI는 보고, 배우고, 행동합니다. 모든 것이 컴퓨팅 파워로 처리됩니다. 우리는 순수한 힘이 기적을 만들어낼 수 있다고 믿습니다. 하지만 이는 "피부"를 "눈"으로 대체하는 것입니다. 사람은 눈을 감은 채로 주머니에서 열쇠를 꺼낼 수 있습니다. 이는 손가락 끝이 모양, 무게, 온도, 질감을 감지할 수 있기 때문입니다. 이러한 정보의 밀도는 시력으로는 결코 알 수 없습니다. 카메라로 열쇠를 볼 수는 있지만, "열쇠를 잡을 때 엄지와 검지 사이에 0.1mm 정도 걸리는 거리"는 볼 수 없습니다. 엔드투엔드 훈련의 핵심은 저대역폭 신호원(시각)을 사용하여 고대역폭 제어 시스템(촉각 및 고유수용성 감각)을 시뮬레이션하는 것입니다. 이는 차원 축소 공격의 일종이며, 그 반대입니다. 시연 영상에서 보시는 것처럼 로봇의 움직임은 태극권만큼이나 느립니다. 모터가 충분히 빠르지 않아서가 아니라, 실시간 촉각 피드백이 없기 때문입니다. "느림"을 "안정성"으로 바꿔야 합니다. 모든 접촉은 도박이고, 모든 힘의 적용은 맹목적인 공격입니다. 인간 유아는 6개월 만에 무엇을 사용해서 잡는 법을 배우나요? 수백만 번의 접촉, 쥐기, 놓기, 그리고 그 이상의 접촉을 통해서입니다. 매번 손가락 끝은 뇌에 "이 압력, 이 각도, 이 결과"라고 말합니다. 마치 닫힌 고리처럼 말이죠. 처음부터 끝까지의 훈련이라고요? 닫힌 루프는 없습니다. 아니, 오히려 불완전한 닫힌 루프가 존재합니다. 작동 오류로 인한 피부의 고통도, 통증으로 인한 좌절감도 없습니다. 오직 인간의 개입만이 있을 뿐입니다. 옳든 그르든 말입니다. 조잡하고 피상적인 보상 메커니즘으로 어떻게 진정한 "손재주"를 키울 수 있을까요?
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.