Quatro vezes mais rápido, com precisão comparável ao Claude Code: Análise detalhada da "Nova Arquitetura de Recuperação de Código" da @relace_ai 🚀 Visão geral principal: O que é a Busca Agenética Rápida (FAS)? FAS é o lançamento mais recente da Relace, um pequeno modelo de agente inteligente projetado especificamente para tarefas de busca em bases de código. Otimizado por meio de aprendizado por reforço, ele pode localizar rapidamente arquivos de código relevantes para as solicitações do usuário, invocando ferramentas (como grep e view) em paralelo. 💡 Contexto: O Dilema da Busca RAG e da Busca Agentica TRAPO Vantagens: Velocidade extremamente alta e baixo custo. • Desvantagens: Muitas vezes não é preciso o suficiente para lógicas de código complexas. Depende da similaridade vetorial, carece de capacidade de raciocínio e frequentemente ignora contextos importantes. Busca Agentic • Vantagens: Extremamente preciso. O modelo funciona como um programador humano, encontrando código por meio de raciocínio passo a passo, examinando arquivos e consultando referências. • Desvantagens: Baixa velocidade e alto custo. Normalmente envolve uma operação "serial" (pensar -> procurar um arquivo -> pensar novamente -> procurar o próximo arquivo), resultando em alta latência. O ponto de partida do FAS: Ele tenta combinar as vantagens de ambos — a profundidade de raciocínio da Busca Agenética e a velocidade de resposta do RAG. 🛠️ Explicação técnica: Como a FAS consegue isso? O sucesso da FAS depende principalmente de três estratégias tecnológicas essenciais: 1. Chamadas de ferramentas paralelas Ao contrário dos agentes inteligentes comuns que "buscam um arquivo por vez", o FAS é treinado para emitir múltiplos comandos simultaneamente. Por exemplo, ele pode visualizar de 4 a 12 caminhos de arquivo diferentes ou executar vários comandos de busca ao mesmo tempo. Isso reduz significativamente a latência da rede causada por diálogos com múltiplas interações. 2. Aprendizado por Reforço Dedicado (Aprendizado por Reforço On-Policy) Em vez de usar apenas o ajuste fino supervisionado (SFT, na sigla em inglês) tradicional, a equipe construiu um ambiente de aprendizado por reforço: • Função de Recompensa: Uma fórmula de recompensa especial foi desenvolvida. Ela recompensa a "alcance preciso" (alta taxa de recall e precisão) e penaliza a "ação lenta" (a pontuação diminui se muitas rodadas de busca forem realizadas). Capacidade de raciocínio emergente: Nos estágios finais do treinamento, o modelo "aprendeu" uma estratégia — realizar uma etapa de raciocínio antes de conduzir buscas paralelas em larga escala. Isso prova que ele não está adivinhando às cegas, mas sim operando simultaneamente de maneira lógica. 3. Separação de Tarefas (Arquitetura de Subagentes) A análise de dados do artigo revelou que, em tarefas de programação do mundo real, aproximadamente 60% dos tokens são consumidos na etapa de "encontrar código". Portanto, separar a "busca" do agente principal e confiá-la ao pequeno modelo FAS dedicado pode economizar os tokens dispendiosos do modelo principal e impedir que o contexto irrelevante interfira no julgamento do modelo principal. 📊 Resultados de testes no mundo real: Velocidade e precisão: Com a mesma precisão, o FAS é 4 vezes mais rápido do que a busca serial tradicional por agentes. • Teste SWE-bench: Após a integração do FAS no agente codificado, a latência mediana foi reduzida em 9,3% e o consumo de tokens foi reduzido em 13,6%. • Observação: Em cenários de desenvolvimento complexos do mundo real (em comparação com benchmarks bem definidos), espera-se que a melhoria de desempenho seja mais significativa devido à maior proporção de buscas. 📝 Resumo e Insights Este artigo não trata apenas do lançamento de um novo recurso; ele nos mostra uma tendência importante no desenvolvimento de Agentes de IA: a mudança de "grandes modelos abrangentes" para "colaboração de submodelos especializados". Ao otimizar a etapa única de "busca" usando um modelo pequeno treinado com aprendizado por reforço especializado, podemos alcançar ou até mesmo superar o desempenho geral de modelos grandes e caros, a um custo menor e com maior velocidade. Isso abre caminho para a construção de assistentes de programação de IA mais eficientes no futuro.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
