Quatre fois plus rapide, avec une précision comparable à Claude Code : Analyse approfondie de la « Nouvelle architecture de récupération de code » de @relace_ai 🚀 Présentation générale : Qu'est-ce que la recherche rapide d'agents (FAS) ? FAS est la dernière version de Relace, un petit modèle d'agent intelligent conçu spécifiquement pour les tâches de recherche dans le code source. Optimisé par apprentissage par renforcement, il peut localiser rapidement les fichiers de code pertinents pour les requêtes des utilisateurs en invoquant des outils (tels que grep et view) en parallèle. 💡 Contexte : Le dilemme de la recherche RAG et de la recherche agentique CHIFFON Avantages : Vitesse extrêmement rapide et faible coût. • Inconvénients : Cette méthode est souvent insuffisamment précise pour les logiques de code complexes. Elle repose sur la similarité vectorielle, manque de capacité de raisonnement et omet souvent des éléments de contexte essentiels. Recherche d'agents • Avantages : Extrêmement précis. Le modèle fonctionne comme un programmeur humain, trouvant le code en raisonnant étape par étape, en examinant les fichiers et en accédant aux références. • Inconvénients : Faible vitesse et coût élevé. Le processus implique généralement une opération séquentielle (réflexion : rechercher un fichier, puis réfléchir à nouveau, puis rechercher le fichier suivant), ce qui entraîne une latence élevée. Le point d'entrée de FAS : il tente de combiner les avantages des deux — la profondeur de raisonnement de la recherche agentique et la rapidité de réponse de RAG. 🛠️ Explication technique : Comment FAS y parvient-il ? Le succès de FAS repose principalement sur trois stratégies technologiques clés : 1. Appels d'outils parallèles Contrairement aux agents intelligents classiques qui effectuent une recherche fichier par fichier, FAS est entraîné à exécuter plusieurs commandes simultanément. Par exemple, il peut visualiser de 4 à 12 chemins de fichiers différents ou exécuter plusieurs commandes de recherche en même temps. Cela réduit considérablement la latence réseau causée par les dialogues à plusieurs tours. 2. Apprentissage par renforcement dédié (apprentissage par renforcement sur stratégie) Au lieu d'utiliser uniquement le réglage fin supervisé classique (SFT), l'équipe a construit un environnement d'apprentissage par renforcement : • Fonction de récompense : Une formule de récompense spéciale a été conçue. Elle récompense le « ciblage précis » (rappel et précision élevés) et pénalise la « lenteur d’action » (le score diminuera si trop de cycles de recherche sont effectués). Capacité de raisonnement émergente : lors des dernières phases de l’entraînement, le modèle a « appris » une stratégie consistant à effectuer un raisonnement avant de lancer des recherches parallèles à grande échelle. Cela prouve qu’il ne procède pas par simple supposition, mais qu’il opère de manière logique et simultanée. 3. Séparation des tâches (architecture sous-agent) L'analyse des données de l'article a révélé que, dans les tâches de programmation réelles, environ 60 % des jetons sont consommés lors de l'étape de « recherche de code ». Par conséquent, séparer la « recherche » de l'agent principal et la confier au petit modèle dédié FAS permet d'économiser les jetons coûteux du modèle principal et d'empêcher que le contexte non pertinent n'interfère avec le jugement du modèle principal. 📊 Résultats des tests en conditions réelles : Vitesse et précision : À précision égale, FAS est 4 fois plus rapide que la recherche d'agents en série traditionnelle. • Test SWE-bench : Après l'intégration de FAS dans l'agent codé, la latence médiane a été réduite de 9,3 % et la consommation de jetons a été réduite de 13,6 %. • Remarque : Dans des scénarios de développement complexes et réels (comparativement à des benchmarks bien définis), l'amélioration des performances devrait être plus significative en raison de la proportion plus élevée de recherches. 📝 Résumé et perspectives Cet article ne porte pas seulement sur la sortie d'une nouvelle fonctionnalité ; il nous montre une tendance importante dans le développement des agents d'IA : le passage de « grands modèles polyvalents » à « la collaboration d'experts sur des sous-modèles ». En optimisant l'étape de recherche grâce à un petit modèle entraîné avec un apprentissage par renforcement spécialisé, nous pouvons atteindre, voire surpasser, les performances globales de modèles volumineux et coûteux, à moindre coût et plus rapidement. Ceci ouvre la voie à la création d'assistants de programmation IA plus performants.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
