X (Twitter)

Andrej Karpathy, cofondateur d'OpenAI, ancien directeur de l'IA chez Tesla et l'un des chercheurs en IA les plus influents au monde, vient de publier son bilan de fin d'année 2025 du LLM. Le premier changement majeur : un changement de paradigme dans les méthodes de formation. Avant 2025, l'entraînement d'un modèle de grande taille et exploitable impliquait essentiellement trois étapes : le pré-entraînement, l'ajustement fin supervisé et l'apprentissage par renforcement avec retour d'information humain. Cette formule, utilisée depuis 2020, demeure stable et fiable. En 2025, une quatrième étape cruciale a été ajoutée : RLVR, qui signifie Reinforcement Learning from Verifiable Rewards (apprentissage par renforcement à partir de récompenses vérifiables). Qu'est-ce que cela signifie ? En clair, cela signifie laisser le modèle s'entraîner de manière répétée dans un environnement avec des « réponses standard ». Par exemple, en mathématiques, la réponse est soit juste, soit fausse ; il n'est pas nécessaire d'intervenir humainement. Il en va de même pour le code : s'il fonctionne, il fonctionne. Quelle est la différence fondamentale entre cette méthode et les formations précédentes ? Les méthodes d'ajustement supervisé et les retours humains consistaient essentiellement à « copier le modèle », qui apprenait à partir des exemples fournis par l'humain. Mais RLVR est différent ; il permet au modèle de découvrir ses propres stratégies de résolution de problèmes. C'est comme apprendre à nager : avant, on regardait des tutoriels vidéo et on imitait les mouvements ; maintenant, on est simplement jeté à l'eau : du moment qu'on arrive à nager jusqu'à l'autre rive, la façon de pagayer importe peu. Le résultat ? Le modèle a « découvert » une sorte de raisonnement autonome. Il a appris à décomposer les problèmes complexes en étapes plus simples et à revenir en arrière pour recommencer lorsqu’il s’égarait. Ces stratégies sont impossibles à reproduire pour l’être humain, car même lui ne peut expliquer clairement à quoi ressemble un « processus de pensée correct ». Ce changement a engendré une réaction en chaîne : la répartition de la puissance de calcul a été bouleversée. Auparavant, la majeure partie de cette puissance était consacrée à la phase de pré-entraînement, mais aujourd’hui, elle est de plus en plus utilisée lors de la phase d’apprentissage par renforcement. Le nombre de paramètres du modèle n’a que très peu augmenté, mais sa capacité d’inférence a explosé. OpenAI o1 a marqué le point de départ de cette évolution, et o3 a constitué le tournant décisif qui a permis aux utilisateurs de constater concrètement la différence. Une autre approche novatrice consiste à optimiser la puissance de calcul lors de l'inférence. En prolongeant la phase d'inférence, le modèle génère des chaînes d'inférence plus longues, ce qui améliore ses performances. Il s'agit en quelque sorte d'un paramètre supplémentaire permettant d'ajuster ses capacités. Deuxième changement majeur : nous comprenons enfin quelle est la « forme » de l’intelligence artificielle. Karpathy a utilisé une analogie brillante : nous n'élevons pas des animaux, nous invoquons des fantômes. L'intelligence humaine évolue et son objectif d'optimisation est « d'aider la tribu à survivre dans la jungle ». L'intelligence des grands modèles est entraînée et son objectif d'optimisation est « d'imiter le texte humain, d'obtenir de bons résultats en mathématiques et d'accumuler des scores élevés dans les classements de référence ». Les objectifs d'optimisation étant complètement différents, les résultats seront naturellement eux aussi complètement différents. L'intelligence artificielle est donc une « intelligence irrégulière ». Elle peut se comporter comme un érudit omniscient dans certains domaines, tout en commettant des erreurs qu'un élève de primaire ne ferait pas dans d'autres. Un instant, elle vous aide à déduire des formules complexes, et l'instant d'après, elle se laisse berner et vous fournit des données grâce à un simple indice de jailbreak. Pourquoi ? Parce que dans les domaines où les « récompenses sont vérifiables », les modèles atteignent des performances optimales. Les mathématiques offrent des réponses standardisées et le code peut être testé, ce qui accélère les progrès. En revanche, dans des domaines comme le bon sens, les interactions sociales et la créativité, il est difficile de définir ce qui est « juste », ce qui complique l’apprentissage efficace des modèles. Cela a également conduit Karpathy à perdre confiance dans les benchmarks. La raison est simple : les questions de test constituent des « environnements vérifiables », et le modèle peut être optimisé pour ces environnements. Maîtriser les benchmarks est devenu un art. Il est tout à fait possible d'obtenir un score maximal à tous les benchmarks et de rester loin d'une véritable intelligence générale. Le troisième changement majeur : l'apparition de la couche application LLM. Cursor a connu un succès fulgurant cette année, mais Karpathy estime que sa plus grande importance ne réside pas dans le produit lui-même, mais dans la preuve de l'existence d'une nouvelle catégorie : les « applications LLM ». L'émergence de discussions autour des « curseurs dans le domaine X » témoigne de la formation d'un nouveau paradigme logiciel. À quoi serviront ces applications ? Commencez par effectuer une ingénierie du contexte. Organisez les informations pertinentes et intégrez-les au modèle. Deuxièmement, orchestrez plusieurs appels de modèle. Le serveur peut gérer de nombreux appels d'API ; il convient donc de trouver un équilibre entre performance et coût. Troisièmement, fournir des interfaces pour des scénarios spécialisés, permettant aux humains d'intervenir à des points clés. Quatrièmement, offrez aux utilisateurs un « curseur de degré d'autonomie ». Vous pouvez ainsi lui permettre d'en faire plus ou moins. Une question est débattue depuis un an : quelle est l’épaisseur de cette couche applicative ? Les fournisseurs de modèles vont-ils accaparer toutes les applications ? Selon Karpathy, les fabricants de modèles forment des diplômés universitaires aux compétences généralistes, tandis que les programmes de maîtrise en droit (LLM) sont chargés d'organiser, de former et d'insérer professionnellement ces diplômés, afin de les transformer en équipes de professionnels capables d'intervenir dans des secteurs spécifiques. Données, capteurs, actionneurs, boucles de rétroaction : autant de tâches relevant de la couche application. Quatrième changement majeur : l’IA s’est installée dans votre ordinateur. Claude Code est l'un des produits qui a le plus impressionné Karpathy cette année. Il illustre parfaitement ce à quoi devrait ressembler un « agent d'IA » : capable d'appeler des outils, d'effectuer des inférences, d'exécuter des boucles et de résoudre des problèmes complexes. Mais surtout, il s'exécute sur votre ordinateur. Il utilise votre environnement, vos données et votre contexte. Karpathy estime qu'OpenAI a mal évalué la situation. Ils ont concentré leurs efforts sur Codex et les agents hébergés dans des conteneurs cloud, gérés par ChatGPT. On dirait qu'ils visent l'objectif final de l'IA générale, mais nous n'y sommes pas encore. En réalité, les capacités de l'IA varient considérablement et l'intervention humaine reste indispensable. À l'heure actuelle, l'approche la plus judicieuse consiste à déployer des agents intelligents localement, en collaboration avec les développeurs. Claude Code y parvient grâce à une interface en ligne de commande minimaliste. L'IA n'est plus seulement un site web que l'on consulte, mais un petit sprite qui « vit » dans votre ordinateur. Il s'agit d'un paradigme totalement inédit d'interaction homme-machine. Cinquième changement majeur : le Vibe Coding a pris son envol. En 2025, les capacités de l'IA ont franchi un cap : il était possible de décrire ses besoins en anglais uniquement et de laisser l'IA écrire le programme, sans se soucier de l'apparence du code. Karpathy a évoqué ce style de programmation sur Twitter, le qualifiant de « programmation intuitive », et l'expression est devenue virale. Qu'est-ce que cela signifie ? La programmation n'est plus l'apanage des programmeurs professionnels ; tout le monde peut s'y mettre. Ce modèle de diffusion technologique est inédit. Auparavant, les nouvelles technologies étaient d'abord maîtrisées par les grandes entreprises, les gouvernements et les professionnels avant de se diffuser progressivement dans d'autres secteurs. Désormais, le modèle est inversé : les particuliers en profitent bien plus que les professionnels. Il ne s'agit pas seulement de « permettre aux non-programmeurs de programmer ». Pour ceux qui savent programmer, de nombreux petits programmes qui étaient auparavant jugés « sans intérêt » le sont désormais. Karpathy lui-même a réalisé de nombreux projets avec Vibe Coding : il a écrit un analyseur lexical personnalisé en Rust, créé plusieurs applications utilitaires et même écrit un programme ponctuel dans le seul but de trouver un bug. Le code devient soudainement bon marché, jetable et peut être écrit aussi facilement que sur un bout de papier. Cela va complètement transformer la nature des logiciels et le métier de programmeur. Sixième changement majeur : l’ère des interfaces graphiques pour les modèles à grande échelle arrive. Gemini Nano Banana de Google est l'un des produits les plus sous-estimés de cette année. Il peut générer des images, des infographies et des animations en temps réel à partir du contenu d'une conversation, « dessinant » plutôt qu'« écrivant » les réponses. Karpathy replace cela dans un contexte historique plus large : les grands modèles représentent le prochain paradigme informatique majeur, à l’instar des ordinateurs des années 1970 et 1980. Par conséquent, nous observerons une évolution similaire. « Discuter » avec de grands modèles aujourd'hui revient un peu à taper des commandes sur un terminal dans les années 1980. Le texte est un format que les machines privilégient, mais pas les humains. En réalité, les humains n'aiment pas lire de texte ; c'est lent et fatigant. Ils préfèrent regarder des images, des vidéos et des représentations spatiales. C'est pourquoi les ordinateurs traditionnels ont inventé les interfaces graphiques. Les modèles complexes nécessitent également leur propre interface graphique. Celle-ci doit s'adapter à nos préférences : images, diapositives, tableaux blancs, animations, mini-applications. Les emojis et le Markdown actuels ne sont que des formes rudimentaires, un simple habillage du texte. À quoi ressemblera une véritable interface graphique pour les modèles complexes ? Nano Banana en est un premier aperçu. Le plus intéressant, c'est que cela ne se limite pas à la génération d'images. Il faut entremêler génération de texte, génération d'images et connaissances du monde, en intégrant tous ces éléments dans les pondérations du modèle. La conclusion de Karpathy est la suivante : le modèle de 2025 est à la fois plus intelligent et plus stupide qu’il ne l’avait imaginé. Les deux affirmations sont vraies simultanément. Mais une chose est sûre : même avec nos capacités actuelles, nous n’avons exploité que 10 % de notre potentiel. Il reste tant d’idées à explorer ; le champ des possibles est immense. Il a dit quelque chose d'apparemment contradictoire dans le podcast de Dwarkesh : Il pense que les progrès se poursuivront à un rythme rapide. > Parallèlement, je crois qu'il reste encore beaucoup de travail à accomplir. Ces deux choses ne sont pas contradictoires. Accélérez le rythme en 2026 !

Fil de 宝玉 (@dotey)

Informations sur l'auteur

Contenu du fil