Jeff Dean a présenté une conférence à Stanford la semaine dernière, résumant les points clés à l'aide de l'IA et rédigeant l'article. La vidéo se trouve dans les commentaires. Comment l'IA est-elle devenue si puissante du jour au lendemain ? Jeff Dean, responsable de l'IA chez Google, a partagé cette histoire basée sur sa propre expérience. Il a déclaré : « L’IA que nous voyons aujourd’hui est le produit de l’accumulation de technologies au cours des quinze dernières années. » Il ne s'agissait pas d'une seule percée, mais d'une série de percées. Chaque avancée majeure représente un bond en avant considérable pour l'IA. Permettez-moi maintenant de vous expliquer en quoi consistent ces avancées. Du tout premier exemple où « le modèle a appris à être un chat » jusqu'à aujourd'hui où « l'IA remporte la médaille d'or aux Olympiades internationales de mathématiques ». En 2012, le modèle a appris à reconnaître les chats par lui-même. 2012. Projet Google Brain. Jeff Dean et son équipe mènent une expérience. Ils voulaient savoir : l'IA peut-elle apprendre à reconnaître les choses par elle-même ? Ne lui mettez pas d'étiquette, ne lui dites pas « c'est un chat » ou « c'est un chien ». Donnez-lui simplement des photos et laissez-le les regarder à son aise. Ils ont utilisé 10 millions d'images extraites de vidéos YouTube, sélectionnées aléatoirement. Il n'y avait aucune étiquette. Ensuite, ils ont entraîné un réseau neuronal. Ce réseau était immense, 50 à 100 fois plus grand qu'auparavant. Après l'entraînement, ils ont examiné les neurones de la couche supérieure du réseau. À quoi étaient-ils sensibles ? Le résultat a choqué tout le monde. Il existe un neurone particulièrement sensible aux chats. Si on lui montre une photo de chat, ce neurone s'active. Si on lui montre une photo de chien, il ne s'active pas. Le modèle a appris par lui-même ce qu'est un « chat ». Personne ne le lui a appris. Il l'a appris à partir de 10 millions d'images. Il s'agit d'un apprentissage non supervisé. Jeff Dean a dit : « C'est vraiment génial ! » Cela prouve que l'IA peut découvrir des concepts par elle-même. Elle n'a pas besoin que les humains lui disent « de quoi il s'agit ». Il lui suffit d'analyser suffisamment de données. Il s'agit du point de départ de la capacité d'apprentissage de l'IA. Nous avons parlé de la façon dont l'IA apprend à « voir ». Nous allons maintenant parler de la façon dont l'IA apprend à « comprendre le langage ». Technologie clé : Word2Vec. Auparavant, les ordinateurs traitaient les langues en considérant chaque mot comme un symbole isolé. « Chat » était « chat ». « Chien » était « chien ». Il n'y avait aucun lien entre eux. Mais Word2Vec est différent. Il transforme chaque mot en un vecteur de grande dimension. Qu'est-ce que cela signifie ? Cela signifie que chaque mot est une suite de nombres. Par exemple, « Roi » pourrait être (0,5 ; 0,8 ; 0,3 ; …). « Reine » pourrait être (0,5 ; 0,2 ; 0,3 ; …). Mais le plus étonnant, c'est que la direction de ces vecteurs a une signification. Si vous effectuez le calcul : « Roi » - « Homme » + « Femme », vous obtiendrez un nouveau vecteur. Le mot le plus proche de ce vecteur est « Reine ». C'est toute la magie de Word2Vec. Il ne s'agit pas simplement de convertir des mots en nombres. Cela transforme les relations sémantiques en relations mathématiques. La relation entre « roi » et « reine » est comparable à celle entre « homme » et « femme ». Cette relation est codée dans la direction du vecteur. « Cela permet aux machines de "comprendre" le langage pour la première fois », a déclaré Jeff Dean. Il ne comprend pas vraiment. Mais il peut calculer la sémantique. Nous avons discuté de la façon dont l'IA comprend le langage. Passons maintenant à un problème plus pratique : la puissance de calcul. Aux alentours de 2015, Google souhaitait lancer un modèle de reconnaissance vocale amélioré. Il fonctionnait très bien et les utilisateurs l'appréciaient. Mais il y a un problème. Jeff Dean a fait les calculs : si Google utilisait ce modèle, il lui faudrait doubler le nombre d’ordinateurs. Vous avez bien entendu. Doublez la dose. Qu'est-ce que cela signifie ? Google possédait déjà des centaines de milliers de serveurs à l'époque. Doubler ce nombre impliquait d'en acheter des centaines de milliers de plus. C'est tout simplement irréaliste. Ils devaient donc trouver une solution. La réponse est : du matériel dédié. Ils ont découvert que les réseaux neuronaux possèdent une caractéristique unique : ils tolèrent très bien les calculs de faible précision. De plus, son principe fondamental repose sur la multiplication de matrices denses. Ces deux caractéristiques leur permettent de concevoir des puces spécialisées. Il n'utilise ni processeur central (CPU) ni carte graphique (GPU). Il utilise en revanche une puce spécialement conçue pour les réseaux neuronaux. Il s'agit du TPU : unité de traitement tensoriel. En 2015, TPUv1 a été lancé. Il était 15 à 30 fois plus rapide que les processeurs et les cartes graphiques de l'époque, et 30 à 80 fois plus économe en énergie. Cela a permis de résoudre la crise de la puissance de calcul. Par la suite, ils ont continué à itérer. Le dernier système est 3600 fois plus rapide que TPUv2. Jeff Dean a déclaré : « Sans matériel dédié, l'IA telle que nous la connaissons aujourd'hui n'existerait pas. » La puissance de calcul est l'infrastructure de l'IA. Transformer a tout changé. Nous avons parlé du matériel. Maintenant, nous allons parler d'architecture. En 2017, un collègue de Google a proposé une nouvelle architecture : le Transformer. Cela a tout changé. Avant Transformer, les modèles de traitement du langage étaient tous des modèles à boucles. Quelle est la signification ? Autrement dit, le modèle doit traiter chaque mot un par un. De plus, il compresse toutes les informations en un seul vecteur. C'est très inefficace. Transformer ne fait pas ça. Son idée centrale est : Ne pas compresser ; préserver tous les états intermédiaires. Ensuite, laissez le modèle « gérer » tout état nécessaire. C'est ce qu'on appelle l'attention à soi-même. Et quel a été le résultat ? Il présente un taux de précision plus élevé. La charge de calcul est réduite d'un facteur 10 à 100. Le nombre de paramètres du modèle est réduit d'un facteur 10. C'est dingue ! Plus rapide, plus précis, plus petit. De plus, Transformer peut gérer bien plus que de simples langages. Il peut également traiter des images. Il s'agit du Vision Transformer (ViT). Jeff Dean a déclaré : « Le Transformer est le fondement de l'IA moderne. » ChatGPT utilise Transformer. Gemini utilise Transformer. Tous les grands modèles que vous voyez sont des Transformers. Trois techniques pour rendre les modèles plus intelligents Nous avons parlé de Transformer. Parlons maintenant de la formation. Comment rendre les modèles plus intelligents ? Il existe trois techniques clés. Le premier : modèle clairsemé. Dans un réseau neuronal classique, le modèle entier est activé pour chaque prédiction. C'est un gaspillage de ressources. Les modèles clairsemés sont différents. Ils n'activent que 1 % à 5 % des paramètres. Les autres sont « inactifs ». Cela a permis de réduire les coûts de formation par huit. Jeff Dean a déclaré : « Gemini est un modèle clairsemé. » La seconde : la distillation. Cela implique de transférer des connaissances d'un modèle complexe vers un modèle plus simple. Comment fonctionne ce transfert ? Le grand modèle ne se contente pas de dire au petit modèle s'il a « raison » ou « tort ». Elle fournit une distribution de probabilité. Ce signal est très riche. Résultat ? Le petit modèle a obtenu le même résultat que le grand modèle en utilisant seulement 3 % des données. Le troisième : le raisonnement. Vous donnez au modèle un exemple pour « illustrer son fonctionnement ». Par exemple, lors de la résolution d'un problème mathématique, au lieu de donner directement la réponse, vous décrivez le raisonnement étape par étape. Cela améliore considérablement la précision du modèle pour les tâches de raisonnement complexes. Ces trois techniques rendent le modèle plus efficace et plus intelligent. Nous avons déjà abordé les fondements technologiques de l'IA. Parlons maintenant des résultats. En 2022, les chercheurs de Google étaient enthousiasmés par quelque chose. Leur modèle permet enfin de résoudre des problèmes de mathématiques de niveau collège. Précision : 15 %. « Jean avait cinq lapins, puis il en a eu deux de plus. Combien de lapins a-t-il maintenant ? » L’IA peut répondre correctement à ce type de question dans environ 15 % des cas. Ils estimaient qu'il s'agissait d'une avancée majeure. 2024. Deux ans plus tard. La même équipe a lancé le Gemini 2.5 Pro. Ce dernier a participé aux Olympiades internationales de mathématiques. Six questions. Il a répondu correctement à cinq d'entre elles. C'est du niveau médaille d'or. De la résolution de 15 % des problèmes de mathématiques de collège à l'obtention d'une médaille d'or aux Olympiades internationales de mathématiques. En deux ans. Jeff Dean a déclaré : « C'est la vitesse à laquelle l'IA progresse. » Ce n'est pas linéaire. Ce n'est pas une amélioration progressive. C'est exponentiel. En 2022, l'IA apprenait encore l'addition. D’ici 2024, l’IA sera déjà capable de résoudre des problèmes mathématiques d’olympiades. Et 2026 ? Nous ne savons pas. Mais si cela continue à ce rythme, cela pourrait dépasser nos attentes. Voici l'IA que nous connaissons aujourd'hui. Elle n'est pas devenue plus forte progressivement ; elle l'est devenue soudainement. De « Le modèle a appris à se comporter comme un chat » en 2012 à « L’IA remporte la médaille d’or aux Olympiades internationales de mathématiques » en 2024. Douze ans. L'IA est passée de presque rien savoir à presque tout savoir. Et ensuite ? Jeff Dean a déclaré : L'IA aura un impact considérable sur les soins de santé, l'éducation et la recherche scientifique. Même une personne incapable de programmer peut se faire créer un site web par une IA. Il s'agit de rendre les connaissances professionnelles accessibles à un plus grand nombre de personnes. Cependant, nous devons aussi faire face aux risques potentiels. Par exemple, la propagation de la désinformation. L'IA peut générer un contenu incroyablement réaliste. En cas de mauvaise utilisation, les conséquences peuvent être graves. Jeff Dean a déclaré : « Nous ne pouvons pas ignorer les impacts négatifs potentiels. Notre objectif est de maximiser les avantages de l'IA tout en minimisant ses inconvénients potentiels. » Voici l'histoire de l'IA. De la rétropropagation au Transformer en passant par Gemini, technologies, matériels et algorithmes ont tous été combinés au cours des quinze dernières années. L'IA que nous connaissons aujourd'hui est le fruit de tout cela. Et cette histoire continue.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.