구글 로봇 전문가가 밝혔습니다: 왜 아직 집에 로봇 보모가 없나요? 베이징으로 돌아가는 길에 장샤오쥔의 팟캐스트를 들었습니다. DeepMind의 Tan Jie와의 인터뷰: 로봇공학, 교차 존재론, 세계 모델, Gemini Robotics 1.5 및 Google 로봇과 대규모 언어 모델을 결합하는 과정의 진행 상황을 미리 이해한 후, AI를 사용하여 이에 대한 기사를 쓰는 것이 매우 흥미로웠습니다. --- 로봇이 시뮬레이션 환경에서는 공중제비를 돌고 달릴 수 있지만, 현실 세계에서는 걸을 때 비틀거리고 비틀거리는 이유를 궁금해한 적이 있나요? 이 문제는 Google DeepMind의 탄지에를 오랫동안 괴롭혔습니다. 그는 팀의 기술 책임자로서 지난 10년 동안 로봇 분야에서 두 가지 중요한 패러다임 변화를 목격했습니다. 첫 번째는 강화 학습이고, 두 번째는 대규모 언어 모델입니다. 탄지에의 직업 전환은 사실 매우 흥미롭습니다. 저는 어렸을 때 비디오 게임을 좋아했고, 박사학위 과정에서 컴퓨터 그래픽을 공부했습니다. 2015년의 유명한 DARPA 로봇 챌린지에 대해 들어보셨나요? 인간형 로봇은 경사로를 건너거나, 자동차를 운전하거나, 밸브를 돌리는 것과 같은 "간단한" 작업을 수행하라는 요청을 받았지만, 결국 부서지고 말았습니다. 하지만 시뮬레이션 환경에서는 어떨까요? 로봇은 이미 공중제비를 할 수 있습니다. 이런 극명한 대조는 탄지에에게 기회를 주었습니다. 시뮬레이션 기술을 현실 세계로 옮길 수 있다면 로봇은 질적인 도약을 경험할 수 있을 것입니다. 2018년, 탄 지에(Tan Jie)는 구글에서 첫 논문을 발표했는데, 심층 강화 학습을 사용하여 4족 로봇의 보행 문제를 해결했습니다. 이 논문은 무엇을 개척했나요? 이는 한 가지 사실을 증명합니다. 로봇을 걷게 하려면 박사 학위가 필요하지 않습니다. 이전에는 사람들이 MPC(모델 예측 제어)를 사용했지만, 관련된 수학이 너무 복잡해서 이해하려면 박사 학위가 필요했습니다. 하지만 강화 학습이 등장하면서 많은 고등학생이 인터넷에서 PPO 패키지를 다운로드하고, 아이작 짐과 함께 로봇을 움직일 수 있게 됐습니다. 기술이 충분히 간단해지면 금세 널리 보급될 것입니다. 지금 살펴보세요. 보스턴 다이내믹스의 아틀라스든, 스페이스X와 엔트로피의 로봇이든 모두 강화 학습을 사용하고 있습니다. 불과 5년 만에 이 분야는 '소수의 사람만 할 수 있는' 것에서 '모두가 할 수 있는' 것으로 바뀌었습니다. 하지만 강화 학습은 '소뇌'의 문제, 즉 걷는 법과 균형을 유지하는 법의 문제만 해결합니다. 로봇은 여전히 "두뇌"가 없습니다. 2022년경에 대규모 언어 모델의 등장으로 모든 것이 바뀌었습니다. 이전에는 로봇에게 "커피 한 잔 주세요"라고 요청해도 무슨 말인지 전혀 알 수 없었습니다. 하지만 이제 ChatGPT에 같은 질문을 하면 자세한 단계 목록을 제공할 수 있습니다. 탄지에(Tan Jie)는 이것을 대뇌와 소뇌의 관계에 비유했습니다. - 뇌(대규모 언어 모델): 이해, 계획, 의사 결정을 담당합니다. - 소뇌(강화 학습): 실행, 제어, 균형을 담당합니다. 둘 다 필수적입니다. 올해 해당 팀은 두 가지 주요 혁신을 특징으로 하는 Gemini Robotics 1.5를 출시했습니다. 1. 로봇에게 "생각하는" 능력을 부여하세요. 이전 VLA 모델은 다음과 같이 작동했습니다. 이미지와 작업 설명을 입력하고 모터 각도를 직접 출력했습니다. 이제요? 로봇이 먼저 "생각"할 겁니다. 예를 들어, 옷을 색깔별로 분류하라고 하면, 먼저 색깔을 식별한 다음, 옷을 어느 더미에 넣을지 결정한 다음 해당 작업을 수행합니다. 사고 과정 전체가 텍스트 형식으로 출력됩니다. 이는 두 가지 이점을 가져다줍니다. ① 로봇은 더 복잡하고 여러 단계로 이루어진 작업을 처리할 수 있습니다. ② 인간은 로봇의 생각을 이해할 수 있어 로봇의 안전성을 높일 수 있습니다. 모션 전송: 온톨로지 간 데이터 마이그레이션 이건 훨씬 더 인상적이에요. 이전 문제는 각 로봇이 자체 데이터만 사용할 수 있다는 것이었습니다. 로봇 A에서 수집한 데이터는 로봇 B에서는 쓸모가 없습니다. 하지만 그들은 모션 전송이라는 방법을 사용하면 서로 다른 로봇이 학습 결과를 공유할 수 있다는 것을 발견했습니다. 예를 들어: 알로하는 평평한 표면에서만 작동할 수 있는 데스크톱 로봇으로, 이전에는 수직적인 장면을 본 적이 없습니다. 프랑카는 수직 도구 랙에서 품목을 자주 꺼내는 산업용 로봇입니다. 두 데이터세트의 데이터를 혼합하여 학습시켰을 때, 알로하는 이전에는 본 적이 없었던 상황에서 갑자기 책꽂이에서 책을 꺼낼 수 있게 되었습니다. 로봇이 수행하는 모든 작업은 다른 로봇이 활용할 수 있기 때문에 데이터 부족 문제가 근본적으로 해결됩니다. 구체적인 방법에 대해 탄지에가 미소를 지으며 말했다. "엄청난 비밀이에요." 탄지에는 기술에 대해 많은 이야기를 한 후, 단 한 단어만을 반복해서 강조했습니다. 데이터, 데이터, 데이터입니다. 대규모 언어 모델 데이터는 무료이며 온라인에서 쉽게 이용할 수 있습니다. 하지만 로봇 데이터는 어떨까? 각각에 비용이 듭니다. 왕허는 몇 가지 계산을 했습니다. 각각 10만 대씩, 인간형 로봇 1만 대가 있다면 10억이 됩니다. 각 기계를 원격으로 2교대로 운영하려면 4명이 필요하며, 한 달에 수만 위안을 벌어들인다. 유지관리, 라벨링, 품질 검사 등을 포함하면 월간 비용은 수억에서 수십억에 이릅니다. 이건 전혀 확장이 불가능합니다. 따라서 탄지에는 다른 길, 즉 확장 가능한 데이터를 믿습니다. 포함하다: - 시뮬레이션 데이터 - YouTube의 인간 영상 - 비디오 생성 모델(예: Sora, VEO)에서 생성된 데이터 엄청난 양의 시뮬레이션 데이터를 생성하고 정확도를 위해 컴퓨팅 성능을 거래하는 것이 유일하게 실행 가능한 접근 방식일 수 있습니다. 세계 모델: 다음 패러다임? 현재 가장 성과가 좋은 모델은 VLA(Vision-Language-Action)입니다. 하지만 언어에는 문제가 있습니다. 언어는 정보 손실을 초래하는 표현 형식입니다. 젓가락을 사용하여 음식을 집을 때 각 손가락의 미묘한 움직임을 어떻게 설명하시겠습니까? 어렵죠. 따라서 실리콘 밸리의 많은 사람들은 이제 입력이 시각과 언어이고 출력이 다음 프레임의 이미지인 세계 모델에 베팅하고 있습니다. 세계 모델은 시각-언어-시각입니다. VLA를 대체하지 않고 VLA와 공존합니다. 미래에는 통합된 대규모 모델이 나올 수도 있지만, 현재 컴퓨팅 성능의 한계로 인해 불가능합니다. 터치: 과소평가된 방식 탄지에의 이해에는 흥미로운 변화가 있었습니다. 그는 촉각은 중요하지 않다고 생각하곤 했습니다. 알로하의 논문에서 로봇이 시력만으로 지갑에서 신용카드를 꺼낼 수 있다는 것이 증명되었기 때문입니다. 하지만 최근 그는 능숙한 손으로 가위를 다루는 법을 터득하면서 마음을 바꿨습니다. 손이 능숙하다면 촉각이 매우 중요해집니다. 가위의 두 개의 링이 매우 크기 때문에 촉각적 피드백이 없다면 손가락이 링 안에 있는지 공중에 있는지 알 수 없고, 열고 닫는 것을 정확하게 제어할 수 없습니다. 따라서 그의 결론은 그립 시대에는 시각이 문제의 95%를 해결할 수 있었지만, 손재주가 뛰어난 시대에는 촉각이 필수불가결해졌다는 것입니다. 실리콘 밸리는 얼마나 큰가요? 많은 사람들은 996 근무제가 중국의 전통이라고 믿는다. 하지만 탄지에에 따르면 실리콘 밸리에서 AI와 로봇공학을 연구하는 사람들도 996시간(오전 9시부터 오후 9시까지, 주 6일)으로 일하고 있다고 합니다. 그는 주당 70~80시간 일합니다. 왜 그렇게 열심히 일하나요? 이 경쟁에서 지고 싶어하는 사람은 아무도 없으니까요. 만약 당신이 세계에서 두 번째로 뛰어난 선수라면, 당신 팀에서 가장 뛰어난 선수는 세계 1위 팀에 합류하고 싶어할 것입니다. 그러니 영원히 최상위권을 유지하려면 두 배나 더 열심히 노력해야 합니다. 메타가 최근 엄청난 액수의 제안을 통해 인재를 빼돌리는 바람에 실리콘 밸리의 AI 인재 시장 전체가 더욱 혼란에 빠졌습니다. 하지만 탄지에 씨는 정말 뛰어난 재능을 가진 사람은 돈에 관심이 없다고 말했습니다. 그들은 단지 자신이 올바른 길을 가고 있는지 확인하고 싶어할 뿐이라고요. 큰 변화가 일어날 때, 사명감을 가진 사람은 잘못된 위치에 있는 것을 용납하지 않을 것입니다. 로봇이 어린아이와 비슷합니까? 흥미로운 질문이네요. 운동 기술 측면에서 로봇은 성인을 능가했습니다. 탄지에(Tan Jie)는 유수의 인간형 로봇이 로봇의 속도보다 더 빨리 달린다고 말했습니다. 하지만 파악 능력과 조작 능력 면에서는 아마도 2~3세 어린이 수준에 불과할 것입니다. 로봇은 사용자가 원하는 바를 대략적으로 이해하고, 몇 번 시도한 후에는 올바르게 수행할 수 있지만, 발이 그다지 안정적이지 않습니다. 손이 능숙하다면 어떨까? 그들은 아직 두 살도 안 됐을 수도 있어요. 로봇의 발전은 매우 고르지 않습니다. 보행 제어는 지난 5년 동안 강화 학습을 통해 대부분 해결되었지만, 손 조작에 대한 좋은 솔루션은 아직 찾지 못했습니다. 2~3년: GPT 순간 탄지에의 판단은 다음과 같다. 2~3년 안에 사람들이 "범용 로봇이 온다"는 걸 실제로 깨닫게 될 만큼 획기적인 발전이 있을 것입니다. 5년 후: 로봇은 제조, 물류, 슈퍼마켓과 같은 수직 산업에 배치되겠지만, 더 이상 전통적인 자동화는 아닐 것입니다. 대신 일반화 기능을 갖추게 될 것입니다. 10년: 로봇이 가정에 널리 보급되기 시작하다 하지만 그는 대부분의 사람들이 로봇의 현재 상태를 과대평가하고 있다는 점을 반복해서 강조했다. 모든 사람이 보는 것은 10번 촬영한 영상 중 가장 좋은 영상일 뿐이지만, 그것이 로봇의 진정한 능력을 나타내는 것은 아니기 때문입니다. 1년 전만 해도 로봇은 크리스마스 스타킹을 들어올릴 수도 없었습니다. 올해의 CORAL 데모에서는 누군가가 다양한 버튼, 스위치, 슬라이더가 있는 복잡한 제어 상자를 가져와서 25가지 작업을 맡겼고, 로봇은 그중 10가지를 완료했습니다. 6개월 전만 해도 상상도 할 수 없는 일이었습니다. 하지만 성공률이 40%에 달하더라도 현실적으로는 여전히 비현실적입니다. 마지막 생각 이 팟캐스트를 듣고 난 후, 몇 가지 생각이 들었습니다. 1. 로봇공학은 단일한 문제가 아니라 여러 복잡한 문제들이 결합된 것입니다. 명확한 주제가 있는 AI와 달리 로봇은 여기저기를 건드리고 있을 뿐, 아직 아무것도 해결하지 못했습니다. 2. 데이터가 가장 큰 병목 현상입니다. 단 하나의 문제만 해결할 수 있다면, 그것은 바로 데이터 문제입니다. 3. 실리콘 밸리는 장기주의를 믿는다. 그들은 단기적으로 수익을 보지 못하더라도 10년 동안 어떤 방향에 베팅할 의향이 있습니다. 이는 빠른 실행을 추구하는 국내 문화와는 매우 다릅니다. 4. 중국인은 이 물결의 큰 비중을 차지합니다. 탄지에의 팀은 50~60%가 중국인이다. 중국 사람들이 서로 뭉쳐 있는 것은 아니지만, 수학에 능하고, 근면하고, 재능이 있기 때문입니다. 5. 로봇의 발전은 과대평가되었다. 진전은 빠르지만 실제로 구현되기까지는 아직 갈 길이 멉니다. 그는 마지막에 제게 매우 흥미로운 말을 했습니다. "기술의 사용이 쉬워지면 빠르게 널리 퍼질 것입니다." 이는 강화 학습에도 적용되며 대규모 언어 모델에도 적용됩니다. 어쩌면 언젠가는 로봇에게 새로운 기술을 가르치는 일이 오늘날 ChatGPT를 사용하는 것만큼 간단해질지도 모릅니다. 그때가 바로 로봇이 실제로 등장한 때였습니다.
팟캐스트 xiaoyuzhoufm.com/episode/692965…IJDm