X (Twitter)

Simon Willison (co-fondateur du framework Django). Tout en décorant des sapins de Noël et en regardant des films en famille, il a utilisé Codex CLI + GPT-5.2 pour porter JustHTML d'Emil Stenström (en Python pur, via html5lib-tests) en une bibliothèque JS pure sans aucune dépendance, exécutant plus de 9200 cas de test html5lib-tests, produisant finalement environ 9000 lignes de code et 43 commits. Tout au long du processus, il n'a envoyé qu'environ 8 messages. Bien sûr, je ne suis pas là pour me vanter des mérites de Coding Agent ou des performances exceptionnelles de GPT-5.2 ; c'est simplement que j'ai constaté que ce cas correspond parfaitement au domaine de prédilection de Coding Agent. Quelle est la zone de confort d'un agent de codage ? 1. Traduire d'une langue à une autre L'un des principaux avantages des grands modèles de langage est leur capacité à « copier » ou à « traduire », que ce soit du langage naturel ou un langage de programmation ; ils peuvent le faire rapidement et efficacement. Par conséquent, la traduction de Python vers JS est relativement facile dans ce cas. 2. Il dispose d'une suite de tests complète. Réfléchissez à la façon dont nous écrivons du code au quotidien. Une fois écrit, il faut le tester. S'il ne fonctionne pas, il faut le modifier. Si ce processus requiert une intervention humaine, comme pour les tests d'interface utilisateur, il sera très inefficace. En revanche, si l'agent peut se tester lui-même, il peut recueillir des retours d'information, l'ajuster et le corriger en continu jusqu'à ce que le problème soit résolu. La norme HTML5 comprend une suite de tests appelée html5lib-tests. Il s'agit d'un ensemble de données de test indépendant du langage (l'entrée est du HTML et la sortie est une structure d'arbre d'analyse syntaxique correcte). C'est comme demander à une IA de résoudre un problème de maths. Vous ne comprenez pas la solution, mais vous avez un corrigé. Vous n'avez pas besoin d'examiner chaque ligne de code écrite par l'IA (le processus) ; il vous suffit de vérifier si le résultat calculé est correct (le résultat). 3. L'architecture a déjà été conçue ; l'agent n'a plus qu'à « compléter les informations manquantes ». En raison de la limitation de la durée de la fenêtre de contexte, chaque tâche de l'agent ne peut pas avoir un contexte très long. Pour les projets plus complexes, il est impossible de simplement réutiliser l'intégralité du code source. Par conséquent, il est généralement nécessaire de décomposer les tâches de l'agent en sous-tâches plus petites, conformément à l'architecture, afin qu'elles puissent être exécutées dans la fenêtre de contexte. Par conséquent, la conception architecturale est très importante tant pour les projets concrets que pour les projets de programmation. Simon n'a pas eu besoin de concevoir ce projet de A à Z ; il a simplement demandé à l'agent de se référer à la conception de l'API de ce projet Python. L'architecture étant déjà disponible, l'IA n'a eu qu'à la « traduire » à partir de cette architecture existante. 4. Utilisé par un expert Dans les romans d'arts martiaux, une même épée peut libérer une puissance bien plus grande entre les mains d'un maître, et Simon est sans aucun doute un maître parmi les maîtres. Consultez le mode opératoire de Simon : 1) Établir les spécifications (Spécifications d'abord) : La première consigne n'est pas de demander du code, mais de donner à l'IA un code Python existant et de lui demander d'écrire une version JavaScript du document de conception (Spécifications). 2) Test de fumée : Laissez l'IA exécuter un test d'analyse HTML très simple de niveau « Hello World » pour vous assurer que le lien fonctionne. 3. Le test en boucle : Simon a configuré GitHub Actions pour que, chaque fois que du code est validé, les plus de 9 000 cas de test s’exécutent automatiquement. - L'IA écrit du code -> exécute des tests -> signale les erreurs -> l'IA lit les journaux d'erreurs -> corrige le code -> exécute à nouveau les tests. - Résultat : L'IA, telle une programmeuse infatigable, a utilisé 1,4 million de jetons et a effectué 43 tentatives jusqu'à ce que tous les voyants soient au vert. Simon appelle ce processus « Conception de la boucle agentique ». C’est pourquoi ce projet a été un franc succès pour l’agent. --- Maintenant que nous savons où se situent la zone de confort, ou les points forts, de l'agent de codage, nous pouvons pleinement exploiter ses atouts pendant le développement, par exemple : 1. Ne vous précipitez pas pour le mettre en œuvre ; commencez par voir s'il existe un modèle que vous pouvez suivre. 2. Laissez l'agent valider lui-même les exigences autant que possible. Fournissez-lui les outils nécessaires à cette validation, tels que Chrome DevTools (MCP), Lint, les tests automatisés, etc. 3. Concevoir d'abord, puis implémenter.

Fil de 宝玉 (@dotey)

Informations sur l'auteur

Contenu du fil