Je viens de lire le nouvel article de Yann LeCun et Randall Balestriero pour LeJEPA. J'étais curieux de savoir sur quoi Yann travaillait ces derniers temps, surtout compte tenu de ses critiques à l'égard des LLM (que je ne partage pas, car je pense que les LLM vont continuer à s'améliorer et nous mèneront bientôt à l'ASI). Quoi qu'il en soit, plusieurs discussions existent déjà sur X concernant cet article et ses apports. En résumé, il s'agit d'une approche rigoureuse, théoriquement justifiée et parcimonieuse de l'apprentissage auto-supervisé, qui remplace un ensemble complexe et disparate d'heuristiques ad hoc et peu fiables visant à prévenir l'effondrement du mode, véritable fléau de l'apprentissage auto-supervisé. C’est là que le modèle se trompe et commence à associer toutes les entrées à des représentations presque identiques ou à un sous-espace étroit de représentations, réduisant toute la richesse du problème à une correspondance pathologiquement simple et erronée. Le premier pilier de cette nouvelle approche est leur démonstration que les distributions gaussiennes isotropes minimisent de manière unique le risque de prédiction en aval dans le pire des cas. Dès que j'ai lu cela, j'ai immédiatement pensé à CMA-ES, le meilleur algorithme d'optimisation boîte noire disponible lorsque vous n'avez pas accès au gradient de la fonction que vous essayez de minimiser, mais que vous ne pouvez effectuer que des évaluations de fonction (coûteuses/lentes). Nikolaus Hansen travaille sur CMA-ES depuis qu'il l'a introduit en 1996. J'ai toujours été fasciné par cette approche et je l'ai utilisée avec beaucoup de succès pour explorer efficacement les hyperparamètres des réseaux neuronaux profonds en 2011 au lieu d'effectuer des recherches sur grille inefficaces. Bref, si j'évoque ce sujet, c'est parce qu'il existe un parallèle frappant et un lien profond entre cette approche et l'essence même de LeJEPA. CMA-ES recommande de commencer par une gaussienne isotrope, car c'est la distribution à entropie maximale (la moins biaisée) compte tenu des seules contraintes de variance. Il faut ensuite adapter la covariance pour appréhender la géométrie du problème. LeJEPA affirme : Maintenez une distribution gaussienne isotrope car il s'agit de la distribution à entropie maximale (la moins biaisée) pour les tâches futures inconnues. Tous deux reconnaissent que l'isotropie est optimale en situation d'incertitude pour trois raisons : Le principe d'entropie maximale ; parmi toutes les distributions à variance fixe, la gaussienne isotrope possède l'entropie maximale ; c'est-à-dire qu'elle repose sur le moins d'hypothèses. Il n'y a pas de biais directionnel ; une variance égale dans toutes les directions signifie que vous ne vous engagez pas d'avance envers une structure de problème particulière. Vous obtenez l'optimalité dans le pire des cas ; minimisez le regret maximal pour toutes les géométries possibles du problème. Alors, quelle est la différence ? Tout repose sur le moment de l’adaptation. CMA-ES peut s’adapter pendant l’optimisation ; il commence par être isotrope, puis devient anisotrope à mesure qu’il apprend le contexte d’optimisation spécifique. À l'inverse, LeJEPA doit rester isotrope car il se prépare à des tâches en aval inconnues qui n'ont pas encore été observées. Ce parallèle suggère que LeJEPA applique un principe fondamental de la théorie de l'optimisation à l'apprentissage des représentations. En substance, cela revient à dire : « La distribution de recherche optimale pour l'optimisation en boîte noire est également la distribution d'intégration optimale pour l'apprentissage par transfert. » Cela se comprend aisément, car les deux problèmes impliquent de naviguer dans des environnements inconnus ; pour CMA-ES, il s’agit de l’environnement d’optimisation inconnu ; pour LeJEPA, il s’agit de l’espace inconnu des tâches en aval. Cette différence m'amène à me demander : pourrait-on avoir une « LeJEPA adaptative » qui, initialement isotrope, ajusterait sa distribution d'embeddings une fois la tâche aval connue, à l'instar de CMA-ES lors de l'optimisation ? Ce serait comme un méta-apprentissage de l'anisotropie optimale pour des familles de tâches spécifiques. Bref, je voulais partager mes réflexions à ce sujet. C'est fascinant de voir les liens entre ces différents domaines. La communauté de l'optimisation boîte noire a toujours été assez distincte de celle du deep learning, et les échanges entre les deux sont rares. C'est logique, car s'il y a un dégradé, il serait insensé de ne pas l'utiliser. Mais il existe des liens étroits.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
