Construindo um Modelo Mental de Agente por meio de perguntas abertas Resumindo: - Uma visão simplificada de um agente; trata-se de um sistema com uma estrutura específica para tarefas e uma opção de modelo. - Os modelos não são fungíveis dentro dos arneses. Sua inteligência é instável, então uma "atualização" para o novo modelo requer mais trabalho. O que chamamos de agente/estrutura de "uso geral" é, na verdade, um equilíbrio entre "tempo que quero dedicar à personalização" e o desempenho da tarefa. - Uma área empolgante da engenharia de chicotes elétricos é a otimização autônoma (meta-prompt, modelagem, dspy, etc.). Pré-requisito: Vamos considerar uma “unidade útil de trabalho” para um agente e chamá-la de Tarefa. Questões: Pergunta 1: Existe alguma ferramenta de gerenciamento de agentes "de propósito geral"? Algo que possa ajudar a resolver um conjunto suficientemente amplo de tarefas, de forma que eu a considerasse útil sem muito esforço adicional de engenharia. Pense em algo como "vamos simplesmente usar a ferramenta básica do Claude Code". Pergunta 2: O que significa "existir"? Por exemplo, quanta performance estou sacrificando por não otimizar ao máximo meu sistema para minha tarefa? Pergunta 3: Como seria um mundo com geração de "Harness Just-In-Time"? Queremos resolver a questão de "Desejo um desempenho de tarefas realmente excelente" e "Quero gastar uma quantidade razoável de tempo otimizando meu harness". Reflexões: A que isto se assemelha?: Um Harness não é o mesmo que um prompt, mas o espírito é semelhante ao do @DSPyOSS (Miprov2, GEPA, etc). Queremos otimizar os componentes do harness simultaneamente e, idealmente, de forma autônoma para nossa tarefa (prompts, design da ferramenta, definições de subagentes, contexto útil). Os modelos não são fungíveis: Você não deve desacoplar um Modelo de sua Estrutura, eles são interdependentes! O que realmente nos interessa é o desempenho da Tarefa, então precisamos projetar um par modelo+estrutura para essa tarefa. Exemplo: você está trabalhando com Engenharia de Software, você realmente não se importa com os benchmarks de prompts+ferramentas+modelo para OCR. O que fazemos hoje: Em uma empresa real, as tarefas geralmente têm o mesmo "formato". Entradas semelhantes, saídas necessárias semelhantes, etapas intermediárias semelhantes. Portanto, ou transformamos essa tarefa em um fluxo de trabalho ou criamos uma estrutura e um agente específicos para executá-la. O Sonho: Mas o mundo real, com usuários reais, apresenta uma variabilidade incrivelmente alta. Portanto, o ideal seria que, ao receber uma tarefa, um agente fosse gerado imediatamente (JIT) com ferramentas, instruções, critérios de sucesso e inteligência hiperespecíficos para aquela tarefa. A maneira mais eficiente de fazer isso hoje provavelmente exige a intervenção humana, mas, cada vez mais, veremos agentes criando infraestruturas para outros agentes. É nisso que as empresas de "Construção de Agentes" deveriam investir todos os seus recursos; a empresa vencedora simplesmente fará isso da melhor forma. Algumas dessas informações provavelmente caberiam bem em um blog, mas é útil compartilhá-las agora. Os arneses estão em alta e todo mundo está se esforçando para torná-los fáceis de construir e... simplesmente bons para seus domínios.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.