Google dévoile un nouveau paradigme d'apprentissage automatique : l'apprentissage imbriqué, qui s'attaque au problème de l'oubli catastrophique dans l'apprentissage continu au sein du cadre LLM. L'idée principale n'est pas d'entraîner le modèle comme une entité unique et monolithique, mais plutôt comme un ensemble de systèmes d'apprentissage plus petits et imbriqués. Cette approche considère le modèle comme un système de multiples problèmes d'optimisation imbriqués, chaque sous-système ayant son propre rythme d'apprentissage et son propre flux d'informations, plutôt que comme un processus d'entraînement unifié. Cela améliore la capacité du LLM à gérer des contextes longs et permet un apprentissage continu. Ils ont utilisé un modèle d'architecture auto-modificatrice appelé Hope pour tester et valider cette approche, et les résultats ont montré qu'elle possédait de meilleures capacités de gestion de la mémoire à contexte long que les modèles de pointe existants. Il surpasse Titans, Samba et le Transformer de base dans les tâches de modélisation du langage et de raisonnement de bon sens ; et surpasse Titans, TTT et Mamba2 dans la gestion de contextes longs. Tout d'abord, les paramètres sont stratifiés, et la même matrice de poids est divisée en W₁, W₂, ..., Wₙ selon la période de mise à jour (période 1, 4, 16, 64... étapes). Le système de mémoire continue considère alors la mémoire comme un « spectre », avec différents modules responsables d'informations de durées différentes, empêchant ainsi l'oubli de ce qui a été appris. L'optimiseur profond est amélioré en traitant l'optimiseur comme un module de mémoire associative, affinant ainsi sa fonction objectif et renforçant sa robustesse au bruit. Le code de formation n'ajoute qu'une seule ligne concernant la condition de « mise à jour ultérieure » ; le reste du cadre reste inchangé.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
