X (Twitter)

Andrej Karpathy a partagé ses réflexions pour 2025. Concernant les changements de paradigmes de formation, l'invalidation des benchmarks, Cursor, Claude Code, VibeCoding et LLMGUI 1. RLVR L'apprentissage par renforcement par réalité augmentée avec vérification (RLVR) représente une nouvelle phase d'entraînement faisant suite au pré-entraînement, au réglage fin supervisé et à l'apprentissage par renforcement par résolution de problèmes (RLHF). Grâce à un entraînement dans un environnement vérifiable, tel que les mathématiques ou le code, les modèles linéaires logiques (LLM) apprennent spontanément des stratégies d'inférence, décomposant les problèmes et les résolvant en plusieurs étapes. Contrairement au réglage fin traditionnel, le RLVR permet une optimisation à long terme, offrant un rapport capacité/coût élevé et consommant la puissance de calcul initialement utilisée pour le pré-entraînement. Les gains de capacité d'ici 2025 proviendront principalement de simulations d'apprentissage par renforcement plus longues. 2. Fantômes contre animaux Les objectifs d'optimisation des réseaux de neurones artificiels (RLM) diffèrent radicalement de ceux des réseaux neuronaux humains, ce qui engendre une intelligence en dents de scie : un génie capable de tromper facilement des écoliers. L'apprentissage par renforcement et la réalité virtuelle (RLVR) ont permis d'accroître considérablement les capacités des LLM dans des domaines vérifiables, mais leurs performances globales restent inégales. Les benchmarks, de par leur vérifiabilité, sont des cibles privilégiées pour l'optimisation, faisant de l'« entraînement sur l'ensemble de test » une pratique en plein essor. 3. Curseur Cursor présente une nouvelle forme d'application LLM : l'orchestration de plusieurs appels LLM pour un domaine vertical, l'ingénierie du contexte et la fourniture d'une interface graphique dédiée et de curseurs autonomes. La controverse porte sur la complexité de cette couche applicative. L'auteur soutient que les laboratoires LLM forment des talents généralistes, tandis que les applications LLM les transforment en équipes spécialisées dans un domaine précis grâce à des données privées, des capteurs et des retours d'information. 4. Code Claude Claude Code est la première démonstration réussie d'un agent LLM, illustrant l'utilisation d'outils et l'inférence. Point crucial, il s'exécute sur un ordinateur local, et non dans le cloud. OpenAI a déployé son agent par erreur dans un conteneur cloud, mais durant une période de transition aux capacités variables, l'exécution locale et la collaboration entre développeurs sont plus judicieuses. Claude Code, présenté en interface de ligne de commande (CLI), transforme l'IA d'un site web en un sprite « vivant » sur l'ordinateur, inaugurant un paradigme d'interaction totalement inédit. 5. Le codage vibratoire va révolutionner les logiciels et modifier les descriptions de poste. Vibe Coding rend la programmation accessible à tous, et non plus seulement aux professionnels. Elle permet également aux professionnels de développer des logiciels qu'ils n'écriraient pas habituellement, en rendant le code gratuit, temporaire et réutilisable. 6. Nano banane / Interface graphique LLM Nano Banana préfigure le prototype d'une interface graphique pour la gestion du langage naturel (GLI). De même que les ordinateurs sont passés de la ligne de commande à l'interface graphique, la GLI devrait évoluer du simple chat textuel à l'affichage visuel. La lecture de texte est fastidieuse et peu appréciée. Nano Banana illustre les capacités combinées de la génération de texte, de la génération d'images et de la fusion des connaissances du monde.

Fil de 歸藏(guizang.ai) (@op7418)

Informations sur l'auteur

Contenu du fil