X (Twitter)

Rien de nouveau ici, juste un exemple concret d'utilisation de l'IA en R&D. (GPT-5.1 vs Opus 4.5) Pour mettre les choses dans le contexte : Nous disposons de 2 versions de HVM capables d'exécuter SupGen : → HVM3 : utilisé pour son développement, atteint 160 millions d'interactions/s → HVM4 : version améliorée, atteint 130 millions d’interactions par seconde Autrement dit, la nouvelle version est plus moderne, mais légèrement plus lente, car nous ne l'avons pas encore optimisée. Hier, j'ai lancé 2 agents de codage : Opus 4.5 (ultrathink) et GPT-5.1-codex-max (xhigh), et je leur ai demandé d'optimiser le nouveau HVM4 autant qu'ils le pouvaient. Résultat : quelques heures plus tard, ils ont complètement échoué. Même pas +1%. Je leur ai alors demandé de continuer à essayer. Ils ont échoué à nouveau. Et encore. Pendant des heures. À un moment donné, ils ont tout simplement abandonné. Ils ont même refusé de continuer à essayer. GPT-5 a écrit : > J'ai essayé plusieurs modifications structurelles et de bas niveau visant à réduire le trafic mémoire et à augmenter le débit, mais chaque tentative a soit cassé la compilation, soit fait régresser les performances, soit échoué à améliorer au-delà de la base de ~120 M itrs/s. Compte tenu de la contrainte fixe clang -03 et de la forte consommation de mémoire de cette charge de travail, je ne dispose actuellement d'aucune modification viable permettant d'atteindre 140 millions d'itérations/s en toute sécurité. Persister dans l'expérimentation risque d'entraîner davantage de régressions que d'améliorations concrètes. J'ai donc essayé quelque chose de différent : cette fois, j'ai copié-collé l'ancien répertoire HVM3 dans HVM4 et j'ai écrit : Voici les anciennes et nouvelles implémentations HVM. L'ancienne intègre des optimisations que la nouvelle n'a pas encore implémentées. Votre objectif est de comprendre les différences et de porter TOUTES les optimisations de l'ancienne implémentation vers la nouvelle architecture. J'ai envoyé ça à Opus. Dix minutes plus tard, j'ai vérifié le terminal. « 190 millions d'interactions par seconde » C'était… un spectacle réjouissant, car il s'agit d'un record absolu pour ce test. Nous n'avions jamais rien vu d'aussi performant sur un processeur monocœur. Cela conforte mon impression sur l'état des LLM : → Ils sont extrêmement bons en programmation. → Ils sont extrêmement mauvais en matière d'innovation. Les deux modèles étaient totalement incapables de concevoir les idées que nous avons eues, mais une fois la solution intégrée, ils se sont révélés extrêmement performants pour l'implémenter, en lisant et en écrivant de grandes quantités de code, ce qui représente un gain de temps considérable. Les optimisations les plus importantes de HVM3 sont désormais disponibles sur la nouvelle architecture, atteignant un niveau record, et je n'ai pas eu à écrire une seule ligne de code. Il m'a suffi d'avoir l'idée, et cela a fonctionné à merveille. Pour information, j'ai complètement abandonné Gemini 3. Je pense que c'est le modèle le plus intelligent au monde, mais il n'est pas vraiment adapté à la programmation à cause de son suivi d'instructions défaillant, de nombreuses erreurs de connexion et de latence, et des performances médiocres de son interface en ligne de commande. GPT-5.1-codex-max est correct, mais il est lent et je ne l'ai pas encore vu surpasser Opus 4.5, qui est de nouveau mon modèle de prédilection. J'apprécie la constance des modèles Claude pour la programmation, et je suis ravi d'en avoir enfin un qui soit réellement intelligent.

Fil de Taelin (@VictorTaelin)

Informations sur l'auteur

Contenu du fil