Sou muito fã do design iterativo de sistemas de controle com interação humano-agente, baseado em avaliações. Exemplo de fluxo de trabalho: 1. Crie uma estrutura básica de agentes (digamos, prompts + ferramentas para simplificar) 2. Execute seu agente em um conjunto de avaliações e colete os rastreamentos. Provavelmente, isso representa uma GRANDE quantidade de dados para qualquer pessoa analisar; use agentes para ajudá-lo, mas oriente-os bem. 3. “Mineração de Dados”: Utilize outro agente de avaliação para minerar esses rastros, sendo claro sobre o que você está procurando. Padrões interessantes incluem estratificar rastros para encontrar padrões repetidos, calcular estatísticas sobre falhas em chamadas de ferramentas, etc. 4. Aprimore as ferramentas e os prompts desta rodada de mineração de dados. Agora que você tem os dados, oriente a próxima reescrita. Isso indica claramente o que funciona e o que não funciona. 5. Repita o processo até atingir a saturação ou até ficar satisfeito. Opcionalmente, execute este processo em paralelo em diferentes chicotes elétricos e modelos. Isso potencializa os melhores aspectos de humanos e agentes. Os agentes são excepcionais em reconhecimento de padrões e podem processar grandes quantidades de dados rapidamente. Os humanos possuem intuição e conhecimento especializado para orientar o processo de atualização do sistema. As avaliações nos fornecem uma métrica para otimizar o processo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.