X (Twitter)

J'ai donc essayé les invites d'hier sur Opus 4.5 et Codex 5.2. Voici mes conclusions (avec les reçus) : 1. Mes instructions d'hier étaient imprécises. J'ai manqué d'impatience, de rigueur et j'ai mal traité le modèle, m'attendant en gros à ce qu'Opus lise dans mes pensées. Je n'ai aucune preuve que les performances du modèle aient baissé. 2. Après un nettoyage minutieux de l'invite de commande, les deux modèles ont réussi cette tâche (monstrueuse). Ils ont brillamment réussi les tests initiaux, ont mis le même temps (environ 30 minutes / environ 150 000 jetons) et ont posé des questions de suivi quasi identiques. (!) 3. GPT 5.2 a produit un code de meilleure qualité là où c'était le plus important. Opus 4.5 a commis des erreurs dans les calculs de l'indice de Bruijn, une grave erreur de logique qu'il a dû corriger ultérieurement. Il a également dupliqué une fonction volumineuse sans raison apparente. GPT 5.2 a corrigé ces erreurs et a été plus attentif aux cas particuliers qui échappaient à Opus. Je partagerai les journaux dans les commentaires, notamment : - l'invite initiale - la conversation complète - les résultats finaux Il peut être utile d'étudier comment j'ai conçu cette invite, car c'est une tâche extrêmement complexe que l'IA a (enfin) menée à bien. J'ai dû être très précis sur certains détails qui ont perturbé Opus hier, et je vais maintenant consigner ces éléments dans la documentation. La leçon à retenir : les IA sont un outil formidable, mais elles restent limitées par *vous*. Si vos instructions sont imprécises, elles échoueront. Pour être honnête, si j'avais codé ça manuellement, ça m'aurait pris quelques heures, pas deux jours. L'IA a donc été un échec cette fois-ci. Par ailleurs, vous avez accordé trop d'importance à mes propos, et j'ai l'impression que mes messages ont causé des problèmes inutiles. Je vous en prie, arrêtez.

Journaux de conversationgist.github.com/VictorTaelin/7…://t.co/VvtOkovKTY

Fil de Taelin (@VictorTaelin)

Informations sur l'auteur

Contenu du fil