Meu entendimento pessoal sobre a abordagem para avaliar e pontuar agentes de IA: 1. Avaliação interna por especialistas: Primeiro, realize uma busca abrangente em todo o conhecimento, livros ou metodologias nesta área para encontrar abordagens de especialistas. Em seguida, abstraia e quantifique essas abordagens em várias dimensões, formando assim uma estrutura de avaliação. Em seguida, encontramos um grande conjunto de dados de casos e os submetemos a uma avaliação manual por especialistas. É claro que você também pode treinar um agente para avaliar os resultados, alinhando-os com as avaliações dos especialistas. 2. Avaliação do Modelo: Neste cenário específico, diferentes modelos são executados no mesmo conjunto de dados para obter resultados de avaliação, a fim de encontrar o modelo de última geração (SOTA) para este cenário. 3. Compare e avalie seus agentes e os agentes dos concorrentes lado a lado. Avalie as mesmas variáveis e obtenha resultados diferentes. Em seguida, retorne à etapa 1 para avaliação, a fim de compreender as diferenças entre seus agentes e os concorrentes em cenários específicos. 4. Avaliação de Usuários Especialistas: Encontre usuários especialistas e colete suas dimensões de avaliação e NPS (Net Per Score) para otimizar e refinar iterativamente a estrutura de avaliação. ----- Não permita que usuários comuns avaliem o produto, pois essa avaliação será inválida. Você pode perguntar a usuários comuns sobre o NPS, mas nunca deixe um leigo instruir um especialista. A qualidade de um produto pode ser avaliada por usuários experientes. Os especialistas aqui não são apenas especialistas internos do setor, mas também usuários especialistas externos. Usuários experientes costumam ser formadores de opinião, e suas preferências podem amplificar e influenciar o público em geral. Em outras palavras, esses usuários são agregadores dos gostos do público em geral, portanto, suas avaliações são mais valiosas como referência.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.