Pergunta dos meus experimentos atuais: quão bom podemos tornar um sistema de agentes de codificação escolhendo obsessivamente "ferramentas ligeiramente melhores" em todas as dimensões importantes do sistema? A principal área que impulsiona o desempenho do agente é a inteligência do modelo (veja Opus 4.5). Mas e quanto a cada decisão de ferramenta que tomamos no ambiente? Se cada ferramenta for X% melhor, quanto mais desempenho desbloqueamos na tarefa? Existem alguns elementos básicos que se tornaram padrão em muitos agentes de codificação de recursos completos: - Boa busca local (ex: crescimento recente de buscas "melhores" com warpgrep, mgrep, etc) - Uma boa ferramenta de pesquisa na web geralmente é um agente, onde chamamos um endpoint de pesquisa na web + agente para melhor preparar os dados (ex: @p0) - Boas práticas de gerenciamento de contexto já incorporadas, como a Ferramenta de Busca da Anthropic, Edição de Contexto, melhor compactação e instruções de organização do sistema de arquivos para descarregar e recarregar o contexto conforme necessário. - Subagentes padrão bem ajustados para tarefas comuns, como planejamento ou revisão. - etc Estou bastante animado com um futuro onde: 1. Uma ótima estrutura básica é um mecanismo de entrega para que os desenvolvedores criem novas soluções (como o SDK do Claude Agent e outras estruturas semelhantes). 2. Os construtores injetam um conjunto de funcionalidades que se integram à estrutura. Estou bastante otimista em relação às Habilidades como mecanismo de distribuição no momento; também temos ferramentas/MCPs que podem residir nas Habilidades. 3. Os desenvolvedores otimizam as instruções do arnês para que funcionem bem com o conjunto de habilidades/ferramentas expostas no arnês. 4. Os construtores atualizam iterativamente o chicote de fios a partir das avaliações. Neste mundo, há muito valor para: - modelos que acionam chicotes elétricos - Produtos de agente completos que selecionaram um ótimo par de modelo e arnês - a camada de ferramentas/capacidades que se conecta à estrutura e gera receita sempre que essa capacidade é acionada.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.