Google のロボット専門家が明かす: なぜまだ自宅にロボット乳母がいないのか? 北京に戻る車中で、張小軍のポッドキャストを聴きました。 DeepMindのTan Jie氏へのインタビュー:ロボティクス、クロスオントロジー、世界モデル、Gemini Robotics 1.5、そしてGoogle ロボットと大規模言語モデルの組み合わせの進歩について予備的な理解を得たので、AI を使用してそれについて記事を書くのは非常に興味深いと感じました。 --- ロボットはシミュレーション環境では宙返りしたり走ったりできるのに、現実世界では歩くときによろめいたりよろめいたりするのはなぜだろうと考えたことはありませんか? この問題は、Google DeepMind の Tan Jie 氏を長年悩ませてきました。 チームの技術リーダーとして、彼は過去 10 年間にロボット工学分野における 2 つの重要なパラダイム シフトを目撃しました。 1 つ目は強化学習、2 つ目は大規模言語モデルです。 Tan Jie のキャリアの変遷は実は非常に興味深いものです。 私は子供の頃からビデオゲームをするのが大好きで、博士号を取得するためにコンピューターグラフィックスを学びました。 2015 年に開催された有名な DARPA ロボティクス チャレンジについて聞いたことがありますか? これらのヒューマノイドロボットは、坂道を渡ったり、車を運転したり、バルブを回したりするといった「単純な」作業を要求されたが、結局は崩壊してしまった。 しかし、シミュレーション環境ではどうでしょうか?ロボットはすでに宙返りをすることができます。 この際立った対照は Tan Jie 氏にチャンスを与えました。シミュレーションの技術を現実世界に移すことができれば、ロボットは質的に飛躍するだろうと考えたのです。 2018年、Tan Jie氏はGoogleで、深層強化学習を使用して四足ロボットの歩行問題を解決する最初の論文を発表しました。 この論文は何の先駆者となったのでしょうか? これは一つのことを証明しています。ロボットを歩かせるのに博士号は必要ないのです。 以前は、MPC (モデル予測制御) が使用されていましたが、関連する数学が非常に複雑で、理解するには博士号が必要でした。 しかし、強化学習の登場により、多くの高校生がインターネットから PPO パッケージをダウンロードし、Isaac Gym と一緒にロボットを動かすことができるようになりました。 技術が十分に単純になると、すぐに普及するでしょう。 今では、ボストン・ダイナミクスのアトラスであれ、スペースXやエントロピーのロボットであれ、誰もが強化学習を使用しています。 この分野は、5年以内に「少数の人しかできない」分野から「誰でもできる」分野へと変化しました。 しかし、強化学習は「小脳」の問題、つまり歩き方やバランスの維持方法だけを解決します。 このロボットにはまだ「脳」が欠けている。 2022年頃、大規模言語モデルの出現によってすべてが変わりました。 これまでは、ロボットに「コーヒーを一杯作って」と頼んでも、ロボットは何を言いたいのか理解できなかった。 しかし、ChatGPT に同じ質問をすると、詳細な手順のリストが表示されます。 Tan Jie 氏はこれを大脳と小脳の関係に例えました。 - 脳(大規模言語モデル):理解、計画、意思決定を担います。 - 小脳(強化学習):実行、制御、バランスを担う。 どちらも欠かせないもの。 今年、彼らのチームは 2 つの重要な革新を特徴とする Gemini Robotics 1.5 をリリースしました。 1. ロボットに「考える」能力を与える。 以前の VLA モデルは次のように動作しました。画像とタスクの説明を入力し、モーターの角度を直接出力します。 さて?ロボットはまず「考えます」。 たとえば、服を色別に分類するように指示すると、まず色を識別し、次にどの山に置くかを決定して、アクションを実行します。 思考プロセス全体がテキスト形式で出力されます。 これには 2 つの利点があります: ① ロボットはより複雑で多段階の作業を処理できます。② 人間はロボットの考えを理解できるため、ロボットはより安全になります。 モーション転送: オントロジー間のデータ移行 こっちの方がさらに印象的だ。 以前の問題は、各ロボットが独自のデータしか使用できないことでした。 ロボット A で収集したデータはロボット B では役に立ちません。 しかし、彼らは「モーション トランスファー」と呼ばれる手法により、異なるロボットが学習成果を共有できることを発見しました。 例えば: Aloha は、平面上でのみ動作することができ、これまで垂直方向のシーンを見たことがないデスクトップ ロボットです。 Franka は、垂直ツールラックからアイテムを頻繁に取得する産業用ロボットです。 両方のデータセットのデータがトレーニングのために混合されると、Aloha は、これまでそのようなシナリオを見たことがなかったにもかかわらず、突然本棚から本を取り出すことができるようになりました。 ロボットが実行するタスクはどれも他のロボットが利用できるため、データ不足の問題を根本的に解決します。 具体的な方法については、タン・ジエは微笑んで「それは極秘です」と語った。 多くのテクノロジーについて議論した後、Tan Jie 氏は「データ、データ、データ」という 1 つの単語だけを繰り返し強調しました。 大規模な言語モデルデータは無料で、オンラインで簡単に入手できます。 しかし、ロボットのデータはどうでしょうか? それぞれお金がかかります。 王和はいくつかの計算を行った。 ヒューマノイドロボットが 1 万台、それぞれ 10 万台だと 10 億になります。 各機械は2交代制で遠隔操作する4人を必要とし、月に数万元の収入をもたらす。 メンテナンス、ラベル作成、品質検査などを含めると、月々のコストは数億から数十億に及びます。 これはまったくスケーラブルではありません。 したがって、Tan Jie 氏は、スケーラブルなデータという別の道を信じています。 含む: - シミュレーションデータ - YouTubeの人間動画 - ビデオ生成モデル(Sora、VEOなど)によって生成されたデータ 膨大な量のシミュレーション データを生成し、計算能力と引き換えに精度を高めることが、唯一実行可能なアプローチである可能性があります。 世界モデル: 次のパラダイム? VLA (Vision-Language-Action) は現在最もパフォーマンスの高いモデルです。 しかし、言語には問題があります。それは、情報の損失につながる表現形式であるということです。 箸を使って食べ物をつまむとき、各指の微妙な動きをどのように説明しますか? それは難しい。 そのため、シリコンバレーの多くの人々は現在、視覚と言語が入力で、次のフレームの画像が出力という世界モデルに賭けています。 世界モデルは、Vision-Language-Vision です。 これは VLA に代わるものではなく、VLA と共存します。 将来的には統合された大規模モデルが登場する可能性がありますが、現時点では計算能力の制限によりそれは不可能です。 触覚:過小評価されている感覚 Tan Jie 氏の理解には興味深い変化が見られます。 アロハの論文では、視覚だけでロボットが財布からクレジットカードを取り出せることが証明されていたため、彼は触覚は重要ではないと考えていた。 しかし最近、器用な手でハサミをコントロールできるようになって、彼は考えを変えた。 手が器用な場合、触覚は非常に重要になります。 ハサミの2つのリングは非常に大きいため、触覚フィードバックがなければ、指がリングの内側にあるか空中にあるかがわからず、開閉を正確に制御できません。 したがって、彼の結論は、グリッパーの時代では視覚で問題の95%を解決できたが、器用な手の時代では触覚が不可欠になったというものである。 シリコンバレーはどれくらい大きいですか? 996勤務スケジュールは中国の伝統であると多くの人が信じています。 しかしタン・ジエ氏は、シリコンバレーでAIやロボット工学に携わる人たちも996時間(午前9時から午後9時まで、週6日)働いていると語った。 彼は週に70~80時間働いています。 なぜそんなに一生懸命働くのですか? 誰もこの競争で負けたくないからです。 もしあなたが世界で 2 番目に優秀なら、あなたのチームの最も優秀な人材は世界一のチームに参加したいと思うはずです。 したがって、永遠にトップレベルに留まるためには、2倍の努力をしなければなりません。 Meta が最近、法外な報酬で人材を引き抜いたことで、シリコンバレーの AI 人材市場全体がさらに混乱した。 しかし、タン・ジエ氏は、本当に優れた才能を持つ人はお金のことは気にせず、自分が正しい道を歩んでいるかどうかだけを確かめたいのだと語った。 大きな変化が起こったとき、使命感を持った人は間違った場所にいることを許しません。 ロボットは幼い子供に似ていますか? それは興味深い質問ですね。 運動能力の面では、ロボットは大人を超えています。 タン・ジエ氏は、ユー・シュウの人型ロボットはロボットのスピードよりも速く走ると語った。 しかし、把握したり操作したりする能力に関しては、おそらく2、3歳児レベルに過ぎません。 大体何をしたいのか理解でき、数回試すだけで正しく実行できますが、安定性はあまりありません。 手先が器用な場合はどうでしょうか? まだ2歳にもならないかもしれません。 ロボットの開発は非常に不均一です。 歩行制御は過去 5 年間で強化学習によって大部分が解決されましたが、手の操作に関する適切な解決策はまだ見つかっていません。 2~3年: GPTの瞬間 Tan Jie 氏の判断は次のとおりです。 2~3年後には、「汎用ロボットの到来」を人々が真に実感できるほどのブレークスルーが起こるでしょう。 5 年後: ロボットは製造、物流、スーパーマーケットなどの垂直産業に導入されますが、従来の自動化ではなく、一般化機能を備えるようになります。 10年:ロボットが家庭に広く浸透し始める しかし彼はまた、ほとんどの人がロボットの現状を過大評価していると繰り返し強調した。 なぜなら、誰もが目にするのは 10 回の撮影のうちの最高のビデオですが、それはロボットの真の能力を表すものではないからです。 1年前、彼らのロボットはクリスマスの靴下を拾うことさえできませんでした。 今年の CORAL デモでは、さまざまなボタン、スイッチ、スライダーを備えた複雑なコントロール ボックスが持ち込まれ、25 個のタスクが与えられ、そのうちロボットは 10 個を完了しました。 これは6か月前には想像もできなかったことです。 しかし、成功率が 40% であっても、現実には非現実的です。 最後に このポッドキャストを聞いた後、いくつか考えが浮かびました。 1. ロボット工学は単一の問題ではなく、一連の複雑な問題の組み合わせです。 明確な主題があるAIと違って、ロボットはあちこち手を出し、まだ何も解決していない。 2. データが最大のボトルネックです。 解決できる問題が 1 つだけあるとすれば、それはデータの問題です。 3. シリコンバレーは長期主義を信じている。 彼らは、たとえ短期的には利益が得られなくても、ある方向性に賭けて10年を費やす覚悟がある。 これは、迅速な実施を追求する国内文化とは大きく異なります。 4. この波の大部分は中国人によって構成されています。 Tan Jie 氏のチームの 50~60% は中国人です。 それは中国人が団結しているからではなく、数学が得意で、勤勉で、才能があるからです。 5. ロボットの開発は過大評価されている。 進歩は速いものの、実際に実施されるまでにはまだ長い道のりがあります。 彼は最後に、私にとって非常に興味深いことを言いました。 「技術が使いやすくなると、すぐに普及するでしょう。」 これは強化学習にも当てはまりますが、大規模言語モデルにも当てはまります。 おそらくいつの日か、ロボットに新しいスキルを教えることは、今日の ChatGPT を使用するのと同じくらい簡単になるでしょう。 そのとき、ロボットが本当に登場したのです。
ポッドキャxiaoyuzhoufm.com/episode/692965…mg3FIJDm