Un expert en robotique de Google révèle : Pourquoi n'avez-vous pas encore de nounou robot à la maison ? Sur le chemin du retour vers Pékin, j'ai écouté le podcast de Zhang Xiaojun : Entretien avec Tan Jie de DeepMind : robotique, ontologie croisée, modèle du monde, Gemini Robotics 1.5 et Google Ayant acquis une première compréhension des progrès réalisés dans la combinaison de robots et de grands modèles de langage, j'ai trouvé très intéressant d'écrire un article à ce sujet en utilisant l'IA. --- Vous êtes-vous déjà demandé pourquoi les robots peuvent faire des sauts périlleux et courir dans des environnements simulés, mais titubent et vacillent lorsqu'ils marchent dans la vie réelle ? Ce problème préoccupe Tan Jie de Google DeepMind depuis de nombreuses années. En tant que responsable technique de l'équipe, il a été témoin de deux changements de paradigme majeurs dans le domaine de la robotique au cours de la dernière décennie. La première était l'apprentissage par renforcement, et la seconde, les grands modèles de langage. La reconversion professionnelle de Tan Jie est en fait assez intéressante. J'adorais jouer aux jeux vidéo quand j'étais enfant, et j'ai étudié l'infographie pour mon doctorat. Avez-vous entendu parler du célèbre DARPA Robotics Challenge de 2015 ? On avait demandé à ces robots humanoïdes d'effectuer des tâches « simples » comme franchir des pentes, conduire des voitures et tourner des vannes, mais ils ont fini par se désintégrer. Mais qu’en est-il dans un environnement de simulation ? Les robots savent déjà faire des sauts périlleux. Ce contraste saisissant a offert une opportunité à Tan Jie : si la technologie issue de la simulation pouvait être transférée au monde réel, les robots connaîtraient un bond qualitatif. En 2018, Tan Jie a publié son premier article chez Google, utilisant l'apprentissage par renforcement profond pour résoudre le problème de la démarche des robots quadrupèdes. Qu'a été le premier article à innover ? Cela prouve une chose : il n'est pas nécessaire d'avoir un doctorat pour faire marcher des robots. Auparavant, on utilisait le MPC (Model Predictive Control), mais les mathématiques impliquées étaient si complexes qu'il fallait un doctorat pour les comprendre. Cependant, avec l'avènement de l'apprentissage par renforcement, de nombreux lycéens peuvent télécharger un logiciel PPO sur Internet et, avec Isaac Gym, faire bouger des robots. Lorsqu'une technologie devient suffisamment simple, elle se répand rapidement. Regardez où nous en sommes aujourd'hui : que ce soit Atlas de Boston Dynamics ou les robots de SpaceX et d'Entropy, tout le monde utilise l'apprentissage par renforcement. En cinq ans, ce domaine est passé d'un domaine « réservé à quelques personnes » à un domaine « accessible à tous ». Mais l'apprentissage par renforcement ne résout que le problème du « cervelet » — comment marcher et comment maintenir son équilibre. Le robot est toujours dépourvu de « cerveau ». Aux alentours de 2022, l'émergence de grands modèles de langage a tout changé. Auparavant, si vous demandiez à un robot de « me faire une tasse de café », il n'avait aucune idée de ce que vous vouliez dire. Mais maintenant, si vous posez la même question à ChatGPT, il peut vous fournir une liste détaillée des étapes à suivre. Tan Jie a comparé cela à la relation entre le cerveau et le cervelet : - Le cerveau (modèle du langage étendu) : responsable de la compréhension, de la planification et de la prise de décision. - Cervelet (apprentissage par renforcement) : responsable de l'exécution, du contrôle et de l'équilibre. Tous deux sont indispensables. Cette année, leur équipe a lancé Gemini Robotics 1.5, qui intègre deux innovations majeures. 1. Donner aux robots la capacité de « penser ». Les modèles VLA précédents fonctionnaient ainsi : image et description de la tâche en entrée, angle du moteur en sortie directe. Maintenant ? Le robot va d'abord « y réfléchir ». Par exemple, si vous lui demandez de trier les vêtements par couleur, il identifiera d'abord la couleur, puis décidera dans quelle pile les mettre, et enfin effectuera l'action. L'intégralité du processus de réflexion sera retranscrite sous forme de texte. Cela présente deux avantages : ① Les robots peuvent gérer des tâches plus complexes et comportant plusieurs étapes. ② Les humains peuvent comprendre ce que pensent les robots, ce qui les rend plus sûrs. Transfert de données : Migration de données entre ontologies Celui-ci est encore plus impressionnant. Le problème précédent était que chaque robot ne pouvait utiliser que ses propres données. Les données que vous collecterez sur le robot A seront inutiles sur le robot B. Ils ont toutefois découvert qu'une méthode appelée transfert de mouvement permet à différents robots de partager les résultats d'apprentissage. Par exemple: Aloha est un robot de bureau qui ne peut fonctionner que sur une surface plane et n'a jamais vu de scène verticale auparavant. Franka est un robot industriel qui récupère fréquemment des articles sur des supports d'outils verticaux. Lorsque les données des deux ensembles de données ont été mélangées pour l'entraînement, Aloha a soudainement été capable de prendre des livres sur l'étagère, alors qu'il n'avait jamais vu un tel scénario auparavant. Cela résout fondamentalement le problème de l'insuffisance de données, car toute tâche effectuée par un robot peut être utilisée par d'autres robots. Quant aux détails de la manière dont cela a été fait, Tan Jie a souri et a dit : « C'est un secret bien gardé. » Après avoir abordé tant de sujets technologiques, Tan Jie n'a cessé de répéter un seul mot : données, données, données. Les données volumineuses relatives aux modèles de langage sont gratuites et facilement accessibles en ligne. Mais qu'en est-il des données relatives aux robots ? Chacun d'eux coûte de l'argent. Wang He a effectué quelques calculs : 10 000 robots humanoïdes, à raison de 100 000 chacun, représenteraient 1 milliard. Chaque machine nécessite quatre personnes pour fonctionner à distance, en deux équipes, ce qui rapporte des dizaines de milliers de yuans par mois. En incluant la maintenance, l'étiquetage et le contrôle qualité, le coût mensuel varie de centaines de millions à des milliards. C'est totalement impossible à mettre à l'échelle. Par conséquent, Tan Jie croit en une voie différente : les données évolutives. inclure: - Données de simulation - Vidéos humaines sur YouTube - Données générées par les modèles de génération vidéo (tels que Sora, VEO) Générer une quantité massive de données de simulation et privilégier la précision au détriment de la puissance de calcul est peut-être la seule approche viable. Modèle mondial : le prochain paradigme ? Le modèle VLA (Vision-Langage-Action) est actuellement le plus performant. Mais le langage a un problème : c'est une forme d'expression qui entraîne une perte d'informations. Comment décririez-vous les mouvements subtils de chaque doigt lorsque vous utilisez des baguettes pour prendre de la nourriture ? Il est difficile. Par conséquent, de nombreuses personnes dans la Silicon Valley parient désormais sur un modèle mondial où l'entrée est la vision et le langage, et la sortie est l'image de la trame suivante. Le modèle du monde est Vision-Langage-Vision. Il ne remplace pas VLA, mais coexiste plutôt avec VLA. Un modèle unifié de grande envergure pourrait voir le jour à l'avenir, mais cela n'est pas possible actuellement en raison des limitations de la puissance de calcul. Le toucher : une modalité sous-estimée Tan Jie a connu une évolution intéressante dans sa compréhension. Il pensait auparavant que le toucher était sans importance car l'article d'Aloha prouvait que la vision seule pouvait permettre à un robot de sortir une carte de crédit d'un portefeuille. Mais récemment, lorsqu'il a utilisé ses mains habiles pour manipuler les ciseaux, il a changé d'avis. Quand on a des mains habiles, le toucher devient très important. Comme les deux anneaux des ciseaux sont très grands, sans retour tactile, vous ne sauriez pas si votre doigt est à l'intérieur de l'anneau ou dans le vide, et vous ne pourriez pas contrôler précisément l'ouverture et la fermeture. Il en conclut donc qu'à l'époque des pinces, la vision permettait de résoudre 95 % des problèmes. Mais à l'ère des mains habiles, le toucher est devenu indispensable. Quelle est la taille de la Silicon Valley ? Beaucoup de gens pensent que le cycle de travail 996 est une tradition chinoise. Mais Tan Jie a déclaré que ceux qui travaillent sur l'IA et la robotique dans la Silicon Valley travaillent également 996 (de 9 h à 21 h, 6 jours par semaine). Il travaille 70 à 80 heures par semaine. Pourquoi travailler si dur ? Parce que personne ne veut perdre dans cette compétition. Si vous êtes le deuxième meilleur au monde, le meilleur membre de votre équipe voudra rejoindre la meilleure équipe du monde. Il faut donc travailler deux fois plus pour rester indéfiniment au sommet. Le recours récent de Meta à des offres exorbitantes pour débaucher des talents a encore davantage perturbé l'ensemble du marché des talents en IA dans la Silicon Valley. Mais Tan Jie a déclaré que les talents vraiment exceptionnels ne se soucient pas de l'argent ; ils veulent simplement s'assurer qu'ils sont sur la bonne voie. Face à de grands changements, une personne animée par le sens de sa mission ne tolérera pas de se trouver au mauvais endroit. Le robot ressemble-t-il à un jeune enfant ? C'est une question intéressante. En matière de motricité, les robots ont surpassé les adultes. Tan Jie a déclaré que le robot humanoïde de Yu Shu court encore plus vite que [le robot]. Cependant, en termes de capacités de préhension et de manipulation, elles ne correspondent probablement qu'à celles d'un enfant de deux ou trois ans. Il comprend plus ou moins ce que vous voulez qu'il fasse, et il peut le faire correctement après quelques essais, mais il n'est pas très stable sur ses appuis. Et si vous aviez des mains habiles ? Ils n'ont peut-être même pas deux ans. Le développement des robots est très inégal. Le contrôle de la marche a été largement résolu par l'apprentissage par renforcement au cours des 5 dernières années, mais une bonne solution pour la manipulation de la main est encore loin d'être trouvée. Deux à trois ans : Le moment GPT Le jugement de Tan Jie est le suivant : D’ici 2 à 3 ans : il y aura suffisamment d’avancées majeures pour que les gens se rendent vraiment compte que « les robots à usage général arrivent ». Dans 5 ans : les robots seront déployés dans des secteurs verticaux tels que la fabrication, la logistique et les supermarchés, mais il ne s’agira plus d’une automatisation traditionnelle ; ils auront plutôt des capacités de généralisation. 10 ans : Les robots commencent à entrer massivement dans les foyers Mais il a aussi souligné à plusieurs reprises que la plupart des gens surestiment l'état actuel des robots. Car ce que tout le monde voit, c'est la meilleure vidéo parmi 10 prises, mais cela ne représente pas les véritables capacités du robot. Il y a un an, leurs robots étaient même incapables de ramasser les chaussettes de Noël. Lors de la démonstration CORAL de cette année, quelqu'un a apporté un boîtier de commande complexe avec divers boutons, interrupteurs et curseurs, et a donné 25 tâches, dont le robot en a accompli 10. Cela aurait été inimaginable il y a six mois. Cependant, même avec un taux de réussite de 40 %, cela reste impraticable dans la vie réelle. Réflexions finales Après avoir écouté ce podcast, j'ai quelques réflexions : 1. La robotique n'est pas un problème unique, mais une combinaison d'une série de problèmes complexes. Contrairement à l'IA, qui possède un thème principal clair, les robots s'essaient à tout et n'ont encore rien résolu. 2. Les données constituent le principal goulot d'étranglement. S'il ne peut y avoir qu'un seul problème à résoudre, c'est bien celui des données. 3. La Silicon Valley croit au long terme. Ils sont prêts à investir dix ans dans une direction, même s'ils ne constatent pas de retour sur investissement à court terme. Cela diffère considérablement de la culture nationale qui privilégie une mise en œuvre rapide. 4. Les Chinois constituent une part importante de cette vague. L'équipe de Tan Jie est composée à 50-60% de Chinois. Ce n'est pas parce que les Chinois sont solidaires, mais parce qu'ils sont bons en mathématiques, travailleurs et talentueux. 5. Le développement des robots a été surestimé. Bien que les progrès soient rapides, le chemin est encore long avant une véritable mise en œuvre. Il a dit quelque chose à la fin que j'ai trouvé assez intéressant : « Lorsqu'une technologie devient plus facile à utiliser, elle se généralise rapidement. » Cela s'applique à l'apprentissage par renforcement, et également aux grands modèles de langage. Peut-être qu'un jour, enseigner de nouvelles compétences aux robots sera aussi simple qu'utiliser ChatGPT aujourd'hui. C'est alors que les robots sont véritablement arrivés.
Lien xiaoyuzhoufm.com/episode/692965…co/6Cmg3FIJDm