X (Twitter)

Je crois que beaucoup de gens ont traduit ou résumé le résumé 2025 d'AK. Je l'ai réécrit et mis en forme à nouveau pour mon propre apprentissage ; je recommande la lecture du texte original. --- Andrej Karpathy a rédigé une rétrospective de son LLM pour 2025, listant six éléments qui, selon lui, « changeront la donne ». 1. L'apprentissage par renforcement a trouvé de nouvelles applications. Auparavant, l'entraînement de grands modèles comportait trois étapes : ① Pré-entraînement (ensemble GPT-2/3 de 2020) 2. Surveillance et optimisation (InstructGPT en 2022) ④ Apprentissage par renforcement avec rétroaction humaine (RLHF, également en 2022). Cette formule est restée stable pendant plusieurs années. En 2025, une quatrième étape a été ajoutée : RLVR (apprentissage par renforcement à récompense vérifiable). Lorsqu'un modèle est chargé de résoudre des problèmes mathématiques ou d'écrire du code — des questions ayant des réponses standard —, il mettra au point ses propres stratégies de raisonnement. Ils décomposent les problèmes en étapes plus petites, essaient et échouent à plusieurs reprises, et finissent par trouver une méthode qui leur convient. Ces stratégies sont difficiles à enseigner avec les méthodes d'entraînement précédentes car on ne sait pas quel chemin d'inférence est optimal pour le modèle ; on ne peut que le laisser le découvrir par lui-même grâce à l'optimisation des récompenses. Le principal changement réside dans l'allocation des ressources informatiques. Les méthodes précédentes de réglage fin supervisé et RLHF étaient toutes deux des « couches minces » à faible coût de calcul. Cependant, RLVR peut être entraîné pendant longtemps car la fonction de récompense est objective et ne peut pas être exploitée. De ce fait, la puissance de calcul initialement prévue pour le pré-entraînement a été consommée par RLVR. Par conséquent, en 2025, la taille du modèle n'a pas beaucoup changé, mais la durée de l'apprentissage par renforcement a été considérablement prolongée. De plus, un nouveau bouton de commande permet de régler la quantité à calculer pendant le test. Vous pouvez améliorer les capacités du modèle en lui faisant générer des processus de raisonnement plus longs et en augmentant le « temps de réflexion ». Le modèle o1 d’OpenAI (fin 2024) est le premier modèle RLVR. Mais o3 (début 2025) est le véritable tournant, et vous pourrez directement ressentir la différence. 2. Nous invoquons des fantômes, nous n'élevons pas des animaux. En 2025, Karpathy a déclaré avoir commencé à comprendre plus intuitivement la « forme » de l'intelligence des modèles à grande échelle. Il a utilisé une analogie très intéressante : nous ne sommes pas des animaux en évolution, nous invoquons des fantômes. Tout est différent dans les grands modèles : architecture du réseau neuronal, données d’entraînement, algorithmes d’entraînement et surtout pression d’optimisation. L'intelligence humaine est optimisée pour la survie dans la jungle. Cependant, l'intelligence des grands modèles est optimisée pour imiter le texte humain, obtenir des récompenses dans les problèmes mathématiques et obtenir l'approbation humaine dans le domaine des LLM. Par conséquent, leurs capacités sont particulièrement inégales, comme des dents de scie. Dans les domaines vérifiables (tels que les mathématiques et le code), les capacités d'un modèle peuvent « exploser » car il peut être entraîné à l'aide de RLVR. Cependant, il pourrait aussi s'agir d'un élève de primaire désorienté, dont les données pourraient être volées à tout moment par une attaque de jailbreak. Karpathy affirme que l'intelligence humaine est elle aussi irrégulière, mais sous une forme différente. Il a perdu confiance dans les critères d'évaluation. Le problème fondamental est que les tests de référence se déroulent presque toujours dans des environnements vérifiables, ce qui les rend immédiatement la cible de la RLVR et de la génération de données synthétiques. L'équipe du laboratoire construit l'environnement d'entraînement à proximité de l'espace d'intégration occupé par les points de référence, en créant des bords irréguliers pour les recouvrir. L'entraînement sur des ensembles de test est devenu un nouvel art. (Ironie ?) Il a également posé une question très pertinente : que se passerait-il si vous obteniez d'excellents résultats à tous les tests de référence, mais que vous n'atteigniez malgré tout pas l'AGI ? 3. Le curseur permet à tous de voir la couche application. Cursor a connu un grand succès cette année, mais Karpathy estime que le plus important est qu'il a permis de montrer aux utilisateurs un nouveau niveau d'« applications LLM ». Les gens ont commencé à dire « Curseur pour X ». Des applications comme Cursors font bien plus que simplement optimiser un grand modèle une seule fois : ① Effectuer une ingénierie du contexte. ② Enchaîner plusieurs appels de modèles volumineux en graphes acycliques orientés (DAG) de plus en plus complexes en arrière-plan, en optimisant les performances et le coût. ③ Fournir aux utilisateurs une interface spécifique à l'application. ④ Proposer un curseur autorégulé permettant de contrôler son degré de liberté. On a beaucoup discuté en 2025 de l'épaisseur que devra avoir cette couche applicative. Les grands laboratoires de modélisation vont-ils absorber toutes les applications ? Ou les applications LLM trouveront-elles leur place pour survivre ? L'opinion de Karpathy est la suivante : Les grands laboratoires de modélisation peuvent former de « bons étudiants universitaires ». Mais les applications LLM organisent ces étudiants, les transformant en équipes spécialisées dans des domaines spécifiques grâce à la mise à disposition de données privées, de capteurs, d'actionneurs et de boucles de rétroaction. 4. Claude Code intègre l'IA à votre ordinateur. Claude Code est le premier « agent intelligent » convaincant de 2025. Elle utilise des outils et un raisonnement cyclique pour résoudre des problèmes complexes. Mais surtout, il s'exécute sur votre ordinateur, en utilisant votre environnement, vos données et votre contexte privés. Karpathy estime qu'OpenAI a pris la mauvaise direction. Ils ont concentré leurs efforts sur Codex et les agents sur des conteneurs cloud orchestrés par ChatGPT, plutôt que sur l'hôte local. Bien que les essaims intelligents basés sur le cloud puissent sembler être la « forme ultime d'IA générale », nous vivons aujourd'hui dans un monde intermédiaire où les capacités sont développées de manière inégale et les progrès lents. À ce stade, il est plus raisonnable que l'agent intelligent travaille directement aux côtés du développeur sur l'ordinateur. Claude Code a transformé cela en un outil en ligne de commande simple et élégant qui a changé la façon dont fonctionne l'IA. Ce n'est plus simplement un site web que vous visitez (comme Google), mais un petit lutin ou un fantôme qui « vit » sur votre ordinateur. Il s'agit d'un nouveau paradigme pour interagir avec l'IA. 5. Vibe Coding rend la programmation accessible à tous. En 2025, l'IA aura franchi un seuil de capacité. Vous pouvez créer toutes sortes de programmes complexes en les décrivant en anglais, sans même vous soucier de l'apparence du code. Karpathy a mentionné le « Vibe Coding » avec désinvolture dans un tweet, sans jamais s'attendre à ce que cela prenne une telle ampleur. Vibe Coding fait de la programmation un domaine non exclusif aux professionnels ; tout le monde peut s'y mettre. Mais surtout, cela permet aux professionnels d'écrire davantage de logiciels qu'ils n'écriraient pas normalement. Karpathy a donné son propre exemple. Dans le cadre du projet nanochat, il a écrit un tokenizer BPE efficace en Rust, mais il ne comprenait pas du tout Rust à ce niveau et s'est entièrement appuyé sur Vibe Coding. Il a également réalisé de nombreux projets de démonstration rapides (menugen, llm-council, reader3, HN time capsule), et même quelques programmes ponctuels, juste pour trouver un bug. Le code devint soudainement gratuit, éphémère, malléable et jetable. Vibe Coding va changer l'apparence des logiciels et la définition du travail. Karpathy a également mentionné son article précédent, intitulé « Donner du pouvoir aux gens : comment les LLM perturbent la diffusion technologique ». Contrairement à toutes les technologies précédentes, les avantages que les gens ordinaires retirent des modèles à grande échelle dépassent de loin ceux des professionnels, des entreprises et des gouvernements. 6. Nano Banana est une interface graphique pour les grands modèles. Le Gemini Nano Banana de Google est l'un des modèles les plus surprenants de 2025. Karpathy estime que les modèles à grande échelle constituent le prochain paradigme informatique majeur, tout comme les ordinateurs des années 1970 et 1980. Par conséquent, nous constatons des innovations similaires pour des raisons similaires. Il y aura un équivalent pour le calcul individuel, un équivalent pour les microcontrôleurs (cœurs cognitifs) et un équivalent pour Internet (réseau d'agents intelligents). Sur l'interface interactive, « discuter » avec le grand modèle revient à taper des commandes sur une console dans les années 1980. Le texte est le format brut que les ordinateurs et les grands modèles préfèrent, mais pas celui que les humains préfèrent. Les gens n'aiment pas vraiment lire ; c'est trop lent et fatigant. Les gens préfèrent les informations visuelles et spatiales, c'est pourquoi les ordinateurs traditionnels ont inventé l'interface graphique. Les modèles de grande envergure devraient également s'exprimer dans les formats que nous privilégions : images, infographies, diapositives, tableaux blancs, animations, vidéos et applications web. Les premières versions utilisaient des émojis et Markdown, qui étaient des moyens de « décorer » le texte, facilitant ainsi la compréhension des informations grâce à des titres, du gras, de l'italique, des listes et des tableaux. Mais qui va concrètement développer l'interface graphique d'un modèle aussi vaste ? Nano Banana est un premier indice. Plus important encore, il ne se contente pas de générer des images ; il intègre la génération de texte, la génération d'images et la connaissance du monde dans les pondérations du modèle, formant ainsi une capacité conjointe. Dernières paroles Karpathy a déclaré que le modèle de 2025 était à la fois beaucoup plus intelligent et beaucoup plus bête qu'il ne l'avait imaginé. Mais elles sont extrêmement utiles, et l'industrie n'a même pas encore exploité 10 % de leur potentiel. Il y a tellement d'idées à essayer ; ce domaine est encore très ouvert sur le plan conceptuel. Il a dit quelque chose cette année dans le podcast Dwarkesh que j'ai trouvé très intéressant : il croit en deux choses apparemment contradictoires à la fois — que nous verrons des progrès rapides et continus, mais qu'en même temps il reste encore beaucoup de travail à accomplir. Accrochez-vous bien.

Fil de 向阳乔木 (@vista8)

Informations sur l'auteur

Contenu du fil