向阳乔木 (@vista8): 基于王冠提到的OpenAI研究员之前在斯坦福分享的，让AI写一篇容易懂的文章。训练GPT到底在干什么？大多数人会说"学语言规律""预测…

D’après les propos de Wang Guan, un chercheur d’OpenAI avait précédemment évoqué à Stanford la possibilité pour une IA de rédiger un article facile à comprendre. Que fait exactement la formation GPT ? La plupart des gens diraient « apprendre les règles de la langue » ou « prédire le mot suivant ». Tout cela est correct, mais pas assez profond. Jack Rae d'OpenAI a proposé une perspective novatrice à Stanford : l'entraînement de grands modèles de langage revient essentiellement à effectuer une compression sans perte. C'est contre-intuitif, n'est-ce pas ? Comment un modèle comportant 175 paramètres peut-il être « compressé » ? Mais si vous comprenez ce point de vue, nombre de vos confusions s'éclairciront soudainement. Commençons par parler un peu de philosophie. Dès le IVe siècle avant J.-C., Aristote affirmait : « Un argument qui repose sur moins d'hypothèses est souvent supérieur. » Cette idée selon laquelle « la simplicité est beauté » a été résumée plus tard par Ockham au XIVe siècle dans le célèbre principe du « rasoir d'Ockham » : l'explication la plus simple est souvent la bonne. Cependant, ces spéculations philosophiques ont été transformées en théorèmes mathématiques démontrables par Ray Solomonoff en 1964 : Si un ensemble de données est généré par un certain algorithme, la meilleure façon de prédire cet ensemble de données consiste à trouver le plus petit fichier compressé exécutable de cet ensemble. Le théorème est assez ingénieux ; il stipule que plus on compresse les données, mieux on en comprend l'essence. Rappelons-nous l'expérience de pensée classique de la « chambre chinoise ». Une personne tenait un énorme livre de règles, qui contenait toutes les phrases anglaises possibles et leurs traductions chinoises correspondantes. Cette personne comprend-elle vraiment la traduction ? Du point de vue de la compression, la réponse est claire : ce manuel est trop volumineux et représente la pire façon de le comprendre. Si un nouveau mot ou une nouvelle expression apparaît, le système plante immédiatement car il se contente de consulter un tableau et n'a pas véritablement compris les règles de la langue. Mais si vous parvenez à condenser ce manuel en un ensemble concis de règles de grammaire et de vocabulaire de base, c'est une autre histoire. Plus le taux de compression est élevé, plus le modèle extrait est fondamental et plus sa capacité de généralisation est forte. Les grands modèles de langage sont les meilleurs compresseurs. Commençons par examiner quelques chiffres étonnants. Le modèle Llama de Meta, version 65B, a été entraîné pendant une époque sur 1,4 billion de jetons. La taille des données d'origine était de 5,6 To, mais si ce modèle est utilisé pour les « compresser », seuls 400 Go d'espace environ sont nécessaires au final. Taux de compression 14 fois. En comparaison, le meilleur algorithme de compression de texte traditionnel à ce jour (le lauréat du prix Hutter) atteint un taux de compression de 8,7x. Les modèles de langage de grande taille sont déjà les compresseurs de texte sans perte les plus avancés. Vous pourriez vous demander : Attendez, le modèle 65B ne fait-il pas déjà 260 Go ? Comment pouvez-vous affirmer qu’il ne fait que 400 Go après compression ? C'est la partie la plus passionnante. Vous n'avez pas besoin de transférer les poids du modèle ; l'essentiel est de comprendre le véritable sens de la « compression ». Supposons que vous vouliez envoyer l'intégralité du contenu de Wikipédia à un ami, mais que votre bande passante soit très faible. La méthode traditionnelle consiste à utiliser la compression gzip, mais il existe une solution plus intelligente : Tu as envoyé deux choses à ton ami : 1. Un extrait de code pour entraîner un Transformer (seulement 1 Mo) 2. La séquence de données compressées utilisant ce modèle (400 Go) Après avoir reçu le code, mon ami l'a utilisé pour entraîner un modèle identique à partir de zéro. Pour chaque jeton prédit, les données compressées sont « décodées » pour révéler le jeton réel, puis l'entraînement se poursuit pour prédire le suivant. En répétant ce processus, les 5,6 To de données d'origine peuvent être intégralement restaurés. Vous voyez ? Il n'est jamais nécessaire de transmettre les poids du modèle. Que vous entraîniez un Transformer à 10 couches ou à 1000 couches, la complexité du code d'initialisation est quasiment identique. Les données qui consomment réellement de l'espace sont les « données compressées », et leur taille dépend de la précision des prédictions du modèle. C’est pourquoi les modèles plus volumineux sont en réalité mieux compressés. Redéfinissons la « simplicité ». L'apprentissage automatique traditionnel nous enseigne que « les modèles plus petits généralisent mieux » parce qu'ils sont « plus simples ». Cependant, le terme « simple » fait ici référence à un nombre réduit de paramètres. La perspective de la compression nous enseigne que la véritable simplicité ne consiste pas à avoir moins de paramètres, mais à décrire les données de manière plus concise. Llama 33B et 65B ont la même « complexité de code » (les deux ont 1 Mo de code d'entraînement), mais 65B compresse les données pour être plus petit. En résumé, la 65B est un modèle « plus simple » et aussi un modèle plus intelligent. C’est pourquoi les grands modèles ne subissent pas de surapprentissage, et pourquoi les lois d’échelle sont efficaces. Plus le modèle est capable de compresser les données, plus il apprendra de règles fondamentales et plus sa capacité de généralisation sera grande. Les perspectives compressées nous offrent également un avantage particulier : c’est le seul objectif d’entraînement qui ne soit pas indépendant du jeu. La contamination des ensembles de test constitue un problème majeur dans les évaluations de modèles de grande taille. Cependant, ce problème n'existe pas lorsqu'il est mesuré par compression. Supposons que vous intégriez l'intégralité de l'ensemble de test dans l'ensemble d'entraînement, permettant ainsi au modèle de le mémoriser parfaitement. De cette manière, la précision de prédiction du modèle est de 100 %, et la partie des données compressées devient effectivement nulle. Mais quel est le coût ? Il faut inclure l'intégralité des données dans la « longueur de la description du modèle ». L'effet de compression global s'est en fait aggravé. C’est là toute l’élégance de la compression : toute tricherie sera mathématiquement mise au jour. Ce n'est qu'en comprenant véritablement les principes essentiels que nous pourrons parvenir à une meilleure compression. De ce point de vue, la voie vers l'IA générale devient claire : Collectez toutes les informations perceptives utiles, puis compressez-les autant que possible. Toute méthode permettant d'améliorer le taux de compression mérite d'être étudiée : • Meilleure architecture (S4, attention éparse) • Poursuivre la mise à l'échelle (modèle plus grand, plus de données) • Utilisation d'outils (calculatrice, moteur de recherche) • Données synthétiques • Fusion multimodale Dans la mesure où elle peut réduire la « taille totale après compression », elle se rapproche de l'AGI. Si l'on se penche sur l'histoire, chaque changement de paradigme en IA a essentiellement été un bond en avant très court : • Les n-grammes permettent une reconnaissance vocale basique. • Les RNN permettent de générer des paragraphes cohérents et d'effectuer une traduction automatique. • Les Transformers à grande échelle permettent de comprendre de longs documents et d'effectuer un raisonnement complexe. À chaque fois, nous compressons davantage l'information mondiale et la comprenons plus profondément. Bien sûr, cette perspective a aussi ses limites. Pour les données multidimensionnelles telles que les images et les vidéos, la modélisation pixel par pixel peut être correcte mais impraticable. La charge de calcul serait explosive. Il nous faudra peut-être d'abord effectuer un filtrage sémantique. Plus important encore, une grande partie des informations utiles dans le monde est inobservable. Par exemple, dans l'« arbre de recherche » d'un maître de go, on ne peut voir que les coups effectués, et non les branches qu'ils considèrent. C’est pourquoi AlphaZero doit jouer contre lui-même ; il génère ces données inobservables. Par conséquent, la compression des données observables est nécessaire, mais pas suffisante. L'apprentissage par renforcement et l'exploration proactive restent des méthodes essentielles. Mais en tout cas, la compression nous offre une nouvelle perspective sur la compréhension de l'intelligence. Lorsqu'on dit qu'un modèle a « émergé » de nouvelles capacités, cela signifie-t-il essentiellement que le taux de compression a franchi un certain seuil critique ? Lorsqu'on dit qu'un modèle « comprend » un concept, cela signifie-t-il qu'il a trouvé une manière plus concise d'encoder l'information pertinente ? Lorsque nous poursuivons la quête de l'AGI, recherchons-nous la longueur descriptive minimale de l'information dans l'univers ? Il n'existe pas de réponses standard à ces questions. Mais c'est précisément ce qui rend ce domaine si fascinant : nous utilisons les mathématiques et l'ingénierie pour explorer la nature de l'intelligence. L'essence de l'intelligence réside peut-être dans la concision. Ce que nous faisons actuellement, c'est progresser pas à pas sur cette voie vers la réponse la plus simple et la plus élégante.

Lien veyoutube.com/watch?v=dO4TPJ… https://t.co/0PHaKYslmc

Fil de 向阳乔木 (@vista8)

Informations sur l'auteur

Contenu du fil