X (Twitter)

« App-Bench », le test ultime de la génération en un clic d'applications complètes par l'IA, classe Orchids en première position, Claude Code en deuxième, Cursor en huitième, Lovable en neuvième et Gemini CLI en zéro. App-Bench est un cadre d'évaluation sophistiqué dont l'objectif principal est très clair : évaluer si un agent de programmation IA est capable de générer une application web moderne, complète et utilisable à partir d'une simple instruction en langage naturel, sans aucune intervention humaine. Principes fondamentaux d'évaluation : De « l'écriture de code » à « la fabrication de produits » App-Bench ne se contente plus de tester la capacité d'une IA à écrire des extraits de code ; il examine sa capacité globale à créer des applications complètes. Ces applications doivent contenir les fonctionnalités essentielles d'un véritable logiciel : • Assistant IA intégré • Synchronisation des données en temps réel • Gestion des rôles multi-utilisateurs • Déclencheurs et processus d'authentification automatisés Pour simuler une véritable valeur économique, App-Bench a sélectionné six applications complexes issues de différents domaines pour les tests, en utilisant six scénarios de test exigeants : • Tableau de bord financier : Similaire au terminal Bloomberg, il comprend les cours boursiers en temps réel, des graphiques interactifs, des analyses basées sur l’IA et des forums en direct. • Tableau de bord de gestion hospitalière : Implique plusieurs rôles, notamment les médecins, les infirmières et les administrateurs, et nécessite la gestion de l’état des lits, des alarmes d’urgence et de la communication en temps réel. • Assistant juridique : Une bibliothèque de documents basée sur RAG, prenant en charge la transcription vocale et la citation de documents. • Système de pharmacie : Met en relation les patients et les pharmaciens, gère les stocks, les commandes et les messages privés. • Jeu Pictionary : Un jeu multijoueur en ligne qui nécessite des solutions pour la logique au tour par tour, la synchronisation en temps réel du canevas et la fonctionnalité de relecture. Plateforme de réservation de locations : Similaire à Airbnb, elle comprend le filtrage de la recherche, le processus de paiement et le téléchargement de médias. Méthode de notation rigoureuse : les notes sont attribuées manuellement par des développeurs full-stack seniors, et non par des machines automatisées. • Échelle : Couvre 151 éléments de notation, avec un total de 4 530 évaluations réalisées. • Mécanisme : Chaque outil a trois essais, et le meilleur résultat est enregistré. Principales conclusions et observations : État actuel du secteur : Même les outils les plus performants ne peuvent atteindre la perfection. Actuellement, les outils les plus performants ne couvrent qu’environ 77 % des fonctions essentielles, et la plupart présentent des lacunes importantes dans la gestion des tâches complexes (telles que les interactions à rôles multiples et la logique d’interface utilisateur complexe). • Comparaison des types d'outils : les générateurs Web sont généralement plus performants que les outils en ligne de commande. Les outils Web sont plus stables pour la gestion de l'authentification et des interfaces utilisateur de base, tandis que les outils en ligne de commande présentent des fluctuations de performance plus importantes. • Principales causes d'échec : fonctionnalités manquantes, interruption des processus à rôles multiples, erreurs d'exécution dues à des API expirées et problèmes d'interface utilisateur/d'expérience utilisateur affectant la facilité d'utilisation. Classement des performances (Top 10) 1. Orchidées 76,8% 2. Code Claude 67,5% 3. v0 (Vercel) 64,9% 4. Boulon 53,6% 5. Google AI Studio 50,3 % 6. Codex 38,4% 7. Replit 35,1% 8. Curseur 27,8% 9. Adorable 25,8% 10. Gemini CLI 0,0% Visitez le site web

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil