Cuatro veces más rápido, con una precisión comparable a la de Claude Code: análisis en profundidad de la "Nueva arquitectura de recuperación de código" de @relace_ai 🚀 Descripción general del núcleo: ¿Qué es la búsqueda rápida de agentes (FAS)? FAS es la última versión de Relace, un pequeño modelo de agente inteligente diseñado específicamente para tareas de búsqueda de código. Optimizado mediante aprendizaje por refuerzo, puede localizar rápidamente archivos de código relevantes para las solicitudes del usuario mediante la invocación de herramientas (como grep y view) en paralelo. Antecedentes: El dilema de RAG y la búsqueda agéntica TRAPO Ventajas: Velocidad extremadamente rápida y bajo costo. Desventajas: A menudo no es lo suficientemente preciso para la lógica de código complejo. Se basa en la similitud de vectores, carece de capacidad de razonamiento y suele pasar por alto el contexto clave. Búsqueda agenética Ventajas: Extremadamente preciso. El modelo funciona como un programador humano, encontrando código razonando paso a paso, examinando archivos y accediendo a referencias. Desventajas: Baja velocidad y alto costo. Suele implicar una operación en serie (pensar -> buscar un archivo -> pensar de nuevo -> buscar el siguiente), lo que resulta en una alta latencia. Punto de entrada de FAS: intenta combinar las ventajas de ambos: la profundidad de razonamiento de Agentic Search y la velocidad de respuesta de RAG. 🛠️ Explicación técnica: ¿Cómo logra esto FAS? El éxito de FAS depende principalmente de tres estrategias tecnológicas clave: 1. Llamadas a herramientas paralelas A diferencia de los agentes inteligentes comunes que buscan un archivo a la vez, FAS está entrenado para emitir múltiples comandos simultáneamente. Por ejemplo, puede visualizar de 4 a 12 rutas de archivos diferentes o ejecutar múltiples comandos de búsqueda simultáneamente. Esto reduce considerablemente la latencia de la red causada por diálogos de múltiples turnos. 2. Aprendizaje de refuerzo específico (RL según política) En lugar de utilizar únicamente el ajuste fino supervisado (SFT) regular, el equipo construyó un entorno de aprendizaje de refuerzo: • Función de recompensa: Se ha diseñado una fórmula de recompensa especial. Recompensa la precisión en la puntería (alta memoria y precisión) y penaliza la lentitud (la puntuación disminuye si se realizan demasiadas rondas de búsqueda). Capacidad de razonamiento emergente: En las últimas etapas del entrenamiento, el modelo aprendió una estrategia: realizar un paso de razonamiento antes de realizar búsquedas paralelas a gran escala. Esto demuestra que no se trata de adivinar a ciegas, sino de operar concurrentemente de forma lógica. 3. Separación de tareas (arquitectura de subagente) El análisis de datos del artículo reveló que, en las tareas de programación del mundo real, aproximadamente el 60% de los tokens se consumen en el paso de "encontrar código". Por lo tanto, separar la "búsqueda" del agente principal y confiarla al modelo pequeño dedicado FAS puede ahorrar los costosos tokens del modelo principal y evitar que el contexto irrelevante interfiera con el juicio del modelo principal. 📊Resultados de pruebas en el mundo real: Velocidad y precisión: con la misma precisión, FAS es 4 veces más rápido que la búsqueda de agentes en serie tradicional. • Prueba de banco SWE: después de integrar FAS en el agente codificado, la latencia media se redujo en un 9,3% y el consumo de tokens se redujo en un 13,6%. • Nota: En escenarios de desarrollo complejos del mundo real (en comparación con puntos de referencia bien definidos), se espera que la mejora del rendimiento sea más significativa debido a la mayor proporción de búsqueda. 📝 Resumen y perspectivas Este artículo no solo trata del lanzamiento de una nueva característica; nos muestra una tendencia importante en el desarrollo de agentes de IA: el cambio de "modelos grandes integrales" a "colaboración de submodelos expertos". Al optimizar el paso de búsqueda mediante un modelo pequeño entrenado con aprendizaje automático especializado, podemos alcanzar o incluso superar el rendimiento general de modelos grandes y costosos a un menor coste y mayor velocidad. Esto proporciona un camino claro para desarrollar asistentes de programación de IA más eficientes en el futuro.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
