L'article fascinant mentionné par Jeff Dean, le gourou technologique de Google : Titans Laissons l'IA nous fournir une explication simple. Titans dote l'IA d'une « véritable mémoire », lui permettant de se souvenir des choses importantes comme un humain, d'oublier les choses sans importance, et d'apprendre et de mémoriser au fur et à mesure de son utilisation. Trois caractéristiques impressionnantes : 1. Résolution du problème de la « mémoire du poisson rouge » en intelligence artificielle. Transformateur : Tel un élève brillant, il se souvient de tout clairement, mais ne peut pas retenir trop d'informations (ne peut lire que quelques milliers de mots). Les RNN traditionnels sont comme des maniaques de la compression, entassant tout dans une petite boîte, ce qui fait qu'ils ne retiennent rien. La solution des Titans - Mémoire à court terme : utilisation des mécanismes attentionnels pour traiter précisément le contenu actuellement perçu. - Mémoire à long terme : Utilisation des réseaux neuronaux comme « cerveau » pour encoder les informations importantes en paramètres. - Mémoire persistante : Stockage des connaissances relatives à la tâche elle-même À l'instar du cerveau humain, les trois types de mémoire ont chacun leur propre fonction. 2. Capable de juger ce qui mérite d'être retenu Innovation fondamentale : S'inspirer du système de mémoire humaine : les événements inattendus sont plus facilement mémorisés, ce qui définit un indicateur de surprise. Lisez les actualités : Voir « Il fait beau aujourd'hui » → Ne soyez pas surpris, inutile de le retenir. J'ai été surpris de voir « Découverte de la vie sur Mars », alors je l'ai rapidement noté. - Rapports complémentaires → Même si je ne suis plus aussi surpris, il est toujours bon de s'en souvenir car c'est lié à des événements majeurs antérieurs. Comment fonctionnent les Titans : - Surprise du moment : en quoi ces informations diffèrent-elles de ce que j'ai vu auparavant ? - Surprises historiques : Des événements importants se sont-ils produits récemment ? - Oubli adaptatif : Combien de temps ce souvenir doit-il être conservé ? 3. Apprenez en l'utilisant, et vous deviendrez plus intelligent à mesure que vous l'utiliserez. Les modèles traditionnels sont figés une fois entraînés ; lors des tests, ils ne peuvent que « se rappeler » plutôt que « apprendre ». Le module de mémoire de Titans était encore en cours de mise à jour pendant les tests, ajustant la mémoire en temps réel à mesure que du nouveau contenu apparaissait. Les résultats expérimentaux ont-ils été spectaculaires ? Compréhension de texte extrêmement long, tâche de type « chercher une aiguille dans une botte de foin ». Trouver une information clé dans un article de 16 000 mots ; taux de précision des Titans : plus de 96 %. Mon adversaire le plus redoutable, Mamba2 : 5,4 % (estimation approximative). La tâche de raisonnement extrêmement difficile de BABILong : déduire à partir d’un document d’un million de mots. Titans, avec moins de 1/70e du nombre de paramètres, a vaincu Llama 3.1 avec 70 milliards de paramètres, et a même surpassé GPT-4. Ils sont également performants dans les tâches routinières. - Modélisation du langage : supérieure à Transformer et à tous les RNN linéaires - Prédiction de séries temporelles : leader sur 7 ensembles de données - Analyse de séquences génétiques : atteindre un niveau optimal de pointe (SOTA) Pourquoi les autres modèles ne peuvent-ils pas le faire ? Le dilemme du Transformer : vouloir mémoriser 1 million de mots ? La mémoire explose, les calculs deviennent impossibles, et on ne peut visualiser que des fenêtres de longueur fixe. Le problème des RNN linéaires est qu'ils compressent l'historique dans un vecteur ou une matrice, ce qui revient à résumer un livre en une seule phrase. Trop d'informations sont perdues, il n'y a pas de mécanisme d'oubli et, avec le temps, le « cerveau » se désorganise. Les avantages des Titans - Mémoire profonde : L'utilisation de réseaux neuronaux multicouches comme mémoire est bien plus puissante qu'une simple matrice. - Mécanisme de dynamique : il faut regarder non seulement le présent, mais aussi les tendances récentes. - La Porte de l'Oubli : Oubliez ce qui doit être oublié, souvenez-vous de ce dont il faut se souvenir. - Formation parallèle : Bien que complexe, elle n'est pas lente. ingéniosité technique Transformer « l’apprentissage » en « mémoire » implique l’utilisation d’un module de mémoire qui effectue essentiellement une descente de gradient, mais cela se fait pendant les tests, ce qui le rend équivalent à un « méta-apprenant ». De nombreuses méthodes existantes ont été unifiées : - La porte oubliée de Mamba ? Un cas particulier de Titans - Les règles incrémentales de DeltaNet ? Une version simplifiée de Titans - Entraînement en temps de test TTT ? Les Titans ont pris de l'élan et oublié. Pourquoi ce travail est-il important ? Cela a ouvert de nouvelles perspectives de réflexion, allant au-delà du simple « élargissement du modèle » ou de « l'optimisation de l'attention », et repensant l'architecture du point de vue du système de mémoire. Cibler les véritables difficultés : l'analyse de longs documents, la compréhension de longues vidéos et les scénarios d'apprentissage continu. La dernière analogie Le transformateur est comme la mémoire de l'appareil photo : il peut se souvenir de tout ce qu'il voit, mais il ne peut regarder qu'une petite partie à la fois. Les RNN traditionnels, c'est comme prendre des notes, résumer tout en quelques phrases, mais en perdant les détails. Titans = Cerveau humain Mémoire à court terme : traite les informations actuelles. - Mémoire à long terme : stockage des expériences importantes Métamémoire : savoir apprendre Oubliez les choses sans importance. Qu'est-ce qui le rend si fort ? 1. Je me souviens de plus : avec une expansion à 2 millions de jetons, d'autres modèles se seraient effondrés depuis longtemps. 2. Se souvenir avec plus de précision : savoir ce qui est important et ce qui doit être oublié. 3. Plus vous l'utilisez, plus il devient intelligent : il continue d'apprendre pendant les tests. 4. La théorie est garantie : il existe des preuves mathématiques et des expériences. 5. Les expériences sont très impressionnantes : toutes les tâches sont au niveau de l'état de l'art (SOTA) ou presque. C'est vraiment génial !
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.