Google機器人專家揭秘:為什麼你家還沒有機器人保母? 開車回北京路上,聽了張小珺的播客: 《DeepMind譚捷的訪談:機器人、跨本體、世界模式、Gemini Robotics 1.5與Google》 初窺了機器人和大語言模型結合的進展情況,用AI寫成一篇文章分享,我覺得很有趣。 --- 你有沒有想過,為什麼機器人能在模擬環境裡翻跟頭、跑步,現實中卻連走路都搖搖晃晃? 這個問題困擾了Google DeepMind的譚捷很多年。 身為團隊的技術負責人,他見證了過去十年機器人領域的兩次關鍵典範轉移。 第一次是強化學習,第二次是大語言模式。 譚捷的轉型其實還蠻有趣的。 小時候愛打遊戲,博士讀的是電腦圖形。 2015年那場著名的DARPA機器人挑戰賽,不知道你是否聽過。 那些人形機器人要完成過坡、開車、擰閥門這些"簡單"任務,結果摔得七零八落。 但在模擬環境裡呢? 機器人早就能翻跟頭了。 這種巨大的反差讓譚捷看到了機會:如果能把模擬裡的技術遷移到真實世界,機器人就會有質的飛躍。 2018年,譚捷在Google發表了第一篇論文,以深度強化學習解決四足機器人的步態問題。 這篇論文開創了什麼? 證明了一件事:你不需要PhD才能讓機器人走路了。 以前大家用MPC(模型預測控制),那套數學複雜到你必須是博士才能搞懂。 但強化學習出現後,許多高中生都能從網路上下個PPO包,配合Isaac Gym,就能讓機器人動起來。 當一個技術變得夠簡單,它就會迅速普及。 你看現在,不管是波士頓動力的Atlas,還是宇樹、逆熵的機器人,大家都在用強化學習。 這個領域在五年內從"只有少數人能做"變成了"全民都能做"。 但強化學習只解決了"小腦"的問題──怎麼走路、怎麼保持平衡。 機器人還缺一個"大腦"。 2022年前後,大語言模型的出現改變了一切。 以前你請機器人"幫我做杯咖啡",它完全不知道什麼意思。 但現在你問ChatGPT同樣的問題,它能給你列出詳細的步驟。 譚捷把這比喻成大腦和小腦的關係: - 大腦(大語言模型):負責理解、規劃、決策 - 小腦(強化學習):負責執行、控制、平衡 兩者缺一不可。 今年他們團隊發表的Gemini Robotics 1.5有兩個關鍵創新。 1. 給機器人加上"思考"能力 以前的VLA模型是這樣的:輸入影像和任務描述,直接輸出馬達角度。 現在呢?機器人會先"想想"。 例如你讓它依顏色分類衣服,它會先辨識顏色,再決定放到哪一堆,然後再執行動作。 整個思考過程都會用文字輸出。 這帶來兩個好處: ① 機器人能處理更複雜的多步驟任務② 人類能看懂機器人在想什麼,更安全 Motion Transfer:跨本體的資料遷移 這個更厲害。 以前的問題是:每個機器人的數據只能自己用。 你在機器人A上採集的數據,換到機器人B上就沒用了。 但他們發現,透過一個叫Motion Transfer的方法,可以讓不同機器人之間分享學習成果。 舉個例子: Aloha是個桌上型機器人,只會在平面上操作,從來沒看過垂直場景。 Franka是工業機器人,常在垂直工具架上拿東西。 當把兩者的資料混在一起訓練後,Aloha突然也能從書架上拿書了,儘管它從來沒見過這種場景。 它從根本上解決了數據不夠的問題,因為任何機器人所做的任務都能被其他機器人利用。 至於具體怎麼做的? 譚捷笑著說:"It's very secret。" 聊了這麼多技術,但譚捷一再強調的只有一個字: 數據、數據、數據。 大語言模型的數據是免費的,網路上到處都是。 但機器人數據呢? 每一條都要花錢。 王賀算過一筆帳: 1萬台人形機器人,每台10萬,就是10個億。 每台兩班倒需要4個人遙操作,一個月小幾萬。 加上維護、標註、質檢,每個月成本在數億到十億。 這完全不可擴展。 所以譚捷信仰的是另一條路: 可擴展的數據。 包括: - 仿真數據 - YouTube上的人類視頻 - 視訊生成模型(如Sora、VEO)產生的數據 產生極大量的模擬數據,用算力換精度,這可能是唯一可行的路。 世界模型:下一個範式? VLA(Vision-Language-Action)是現在效果最好的模型。 但語言有個問題: 它是一種有訊息損失的表達方式。 你怎麼用語言描述"用筷子夾菜"時每個手指的細微動作? 很難。 所以矽谷現在很多人在押注世界模型,輸入是視覺和語言,輸出是下一幀的圖像。 世界模型就是Vision-Language-Vision。 它不是替代VLA,而是和VLA共存。 可能未來會有一個統一的大模型,但現在受限於算力,還做不到。 觸覺:被低估的模態 譚捷有個有趣的認知變化。 以前他覺得觸覺不重要,因為Aloha那篇論文證明了,純視覺就能讓機器人從皮包裡拿出信用卡。 但最近用靈巧手控制剪刀時,他改變了想法。 當你有靈巧手時,觸覺就非常重要。 因為剪刀的兩個環很大,如果沒有觸覺回饋,你不知道手指是在環裡還是在空氣中,就無法準確控制開合。 所以他的結論是:在夾爪時代,視覺能解決95%的問題。但到了靈巧手時代,觸覺就不可或缺了。 矽谷有多卷? 很多人覺得996是中國傳統。 但譚捷說,矽谷現在做AI和機器人的,也是996。 他自己一週工作70-80小時。 為什麼要這麼拼? 因為沒有人想輸在這場競爭裡。 如果你是世界第二,團隊裡最優秀的人就會想去世界第一的團隊。 所以你只能加倍工作,永遠保持在第一梯隊。 Meta最近用天價挖人,更是擾動了整個矽谷的AI人才市場。 但譚捷說,真正優秀的人才,他們在乎的不是錢,而是想確保自己在對的船上。 當巨大變革發生時,一個有使命感的人不會容忍自己在錯誤的地方。 機器人像幾歲小孩? 這是個有意思的問題。 從運動能力來看,機器人已經超越成年人了。 譚捷說宇樹的人形機器人跑得比還快。 但從抓取和操作能力看,可能只有兩、三歲小孩的等級。 它能大概理解你要它幹什麼,嘗試幾次能做對,但抓得不穩。 如果是靈巧手呢? 可能連兩歲都不到。 機器人的發展非常不平衡。 步態控制在過去5年被強化學習基本上解決了,但手部操作還遠遠沒有找到好的解決方案。 兩到三年:GPT時刻 譚捷的判斷是: 2-3年:會有足夠的突破,讓人們真實意識到"通用機器人來了" 5年:機器人會在製造業、物流、超市等垂直領域落地,但不再是傳統自動化,而是有泛化能力的 10年:機器人開始廣泛進入家庭 但他也一再強調:大多數人高估了機器人的現狀。 因為大家看到的都是拍了10遍裡最好的那個視頻,但那不代表機器人真正的能力。 一年前,他們的機器人連聖誕襪都抓不起來。 今年在CORAL的demo上,有人帶了一個複雜的控制盒,上面有各種按鈕、開關、滑塊,給了25個任務,機器人完成了10個。 這在6個月前是不可想像的。 但10個成功率是40%,在現實生活中還是不可用的。 最後的思考 聽完這期播客,我有幾個感受: 1. 機器人不是單一問題,而是一系列複雜問題的疊加。 不像AI有明確的主線,機器人這裡一點那裡一點,都還沒解決。 2. 數據是最大的瓶頸。 如果只能解決一個問題,那就是數據問題。 3. 矽谷相信長期主義。 他們願意花10年時間押註一個方向,即使短期看不到回報。 這和國內追求快速落地的文化很不一樣。 4. 華人在這波浪潮裡佔比很高。 譚捷的團隊50-60%是華人。 不是因為華人抱團,而是因為華人數學好、能吃苦、有才華。 5. 機器人的發展被高估了。 雖然進展很快,但離真正落地還有很大距離。 最後他說了一句話,我覺得自己挺有趣: "當一個技術越來越容易用的時候,那個技術很快就會普及。" 強化學習是這樣,大語言模型也是這樣。 也許有一天,讓機器人學會新技能,會像今天用ChatGPT一樣簡單。 那時候,機器人才真正來了。
播客網址https://t.co/6Cmg3FIJDm