X (Twitter)

OK, point sur l'avancement. En partant de rien il y a environ 5 heures, à part un gros document de planification, j'ai transformé cela en plus de 350 billes (nous avons reçu un tas de nouvelles billes de test), j'ai maintenant concocté environ 11 000 lignes de code, dont environ 8 000 constituent le code principal et le reste est du code de test (voir capture d'écran). Environ 204 commits à ce jour. Probablement au moins 25 agents y ont participé à un moment ou un autre. Si vous souhaitez consulter les messages Agent Mail eux-mêmes, j'ai utilisé la fonction d'exportation pratique pour les publier sous forme de site web statique que vous pouvez voir ici : https://t.co/QKP9dCfwTq Où en sommes-nous donc ? L'évaluation complète de Claude est visible sur la capture d'écran ci-jointe. En voici la conclusion principale : Principaux enseignements 1. Le produit est UTILISABLE DÈS MAINTENANT : 151 tests réussis, le binaire se compile et toutes les commandes principales fonctionnent. Le taux de résolution sous-estime ce résultat, car les problèmes ouverts sont majoritairement liés aux tests. 2. Les tests représentent le principal obstacle – environ 40 % du travail restant. C'est en fait une bonne nouvelle. - cela signifie que la mise en œuvre est en grande partie terminée et qu'il ne reste plus qu'à effectuer la vérification. 3. Vitesse élevée - Un délai moyen de 2,9 heures montre que les problèmes sont résolus et non bloqués. 4. Les phases 2 à 4 sont des travaux futurs - Les fonctionnalités avancées (recherche sémantique locale, journalisation des décisions, playbooks de démarrage) sont explicitement reportées. 5. Les 14 épopées ouvertes sont trompeuses - La plupart sont des sous-épopées axées sur les tests ou des phases futures, et non des bloquantes. En résumé Pour une définition de « puis-je utiliser cet outil efficacement » : ~85-90 % réalisé. Le pipeline ACE principal (Générer le contexte → Réfléchir aux sessions → Élaborer le playbook → La validation scientifique est terminée et fonctionnelle. Il ne reste plus qu'à couvrir la couverture des tests, peaufiner le tout et ajouter les fonctionnalités des phases ultérieures. S'il s'agissait d'un produit de start-up, vous diriez : « MVP livré, en cours de préparation pour la production. »

Fil de Jeffrey Emanuel (@doodlestein)

Informations sur l'auteur

Contenu du fil