X (Twitter)

Da "busca por ferramentas" às "habilidades": uma mudança de paradigma na arquitetura de agentes de IA. Claude lançou as regras de Habilidades, e o Codex também começou a dar suporte a Habilidades, que estão se tornando uma capacidade padrão para agentes de IA. Simplesmente despejar todas as ferramentas em um LLM e deixar que ele escolha por si só (ou seja, "busca de ferramentas") é um beco sem saída; a direção futura é encapsular as capacidades como "Habilidades" independentes e confiáveis e invocá-las por meio de um mecanismo de classificação mais preciso. Argumento principal: Por que a "busca por ferramentas" está morta? No início do desenvolvimento de agentes, os desenvolvedores costumavam inserir dezenas ou até centenas de definições de chamadas de função no contexto de prompt de um modelo grande, na esperança de que o modelo pudesse "buscar" e selecionar a ferramenta correta a ser usada, assim como se consulta um dicionário. O autor acredita que este modelo apresenta três falhas fatais: • Pouco confiável: À medida que o número de ferramentas aumenta, a atenção do modelo fica dispersa, o que frequentemente leva à seleção da ferramenta errada ou à geração de ilusões. • Baixa escalabilidade: As janelas de contexto são limitadas e dispendiosas. Tentar incluir todas as definições de ferramentas em um único prompt não só desperdiça tokens, como também degrada a qualidade da inferência do modelo. • Falta de conhecimento de "uso": Simplesmente fornecer ao modelo uma definição de API para uma ferramenta (por exemplo, get_weather(cidade)) é insuficiente. O modelo frequentemente precisa de conhecimento implícito, como "quando usar", "como usar" e "o que fazer se ocorrer um erro", mas o padrão de "busca de ferramenta" ignora esse contexto. Solução: Habilidades estão se tornando o novo padrão. "Habilidades" não é apenas uma mudança de nome para ferramentas; representa uma abordagem arquitetônica mais modular e orientadora. O que é uma "habilidade"? • Abrange o contexto: Uma "habilidade" inclui não apenas a ferramenta em si, mas também as melhores práticas para usá-la, instruções específicas e até mesmo algumas bases de conhecimento pré-construídas. • Carregamento sob demanda: as habilidades nem sempre estão associadas ao contexto. O sistema só "carrega" habilidades específicas no modelo quando necessário. Como funciona? (Categorização vs. Busca) Os autores defendem o uso de classificadores ou camadas de roteamento em vez de deixar que modelos grandes pesquisem cegamente em listas extensas. • Reconhecimento de intenção: Quando um usuário faz uma solicitação, a intenção é determinada primeiramente por um modelo ou classificador simples. • Carregar habilidades: Com base nos resultados da classificação, o sistema recupera apenas o "pacote de habilidades de busca" ou o "pacote de habilidades de programação" correspondente para o contexto. • Execução precisa: Neste ponto, o modelo principal vê apenas algumas ferramentas e instruções detalhadas que são altamente relevantes para a tarefa em questão, resultando em uma taxa de sucesso extremamente alta. Resumo: Implicações para desenvolvedores de IA O desenvolvimento de agentes está passando da "engenharia de palavras-chave" para a "engenharia de software". • Abordagem antiga: Depositar todas as esperanças nas capacidades de generalização do LLM e rezar para que ele consiga encontrar as ferramentas certas em meio ao caos. • Novo modelo (habilidade): Desacoplar tarefas complexas como escrever código. Não apenas dar à IA um martelo, mas também um "manual do usuário do martelo", e só entregá-lo quando ela precisar martelar pregos. Essa transformação converteu os agentes de IA de "brinquedos ocasionais" em "ferramentas de produtividade estáveis e confiáveis". Para aplicações empresariais, uma biblioteca de "habilidades" bem definida e clara será um recurso mais importante do que simplesmente acumular parâmetros de modelo. Leia o texto original

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread