Resumindo: mais avaliações precisam priorizar o agente em vez do modelo, onde agente = modelo + ferramenta. Na prática, é basicamente impossível e geralmente inútil avaliar um modelo sem seu chicote de fios, e mesmo que fosse possível, o que ele estaria realmente medindo? Algumas observações: 1. Os harnesses atuais oferecem muito valor agregado ao modelo. Empresas como @FactoryAI Droid e @AmpCode se especializam na criação de harnesses excelentes e de alto desempenho, otimizados para programação em diversos modelos. Você pode vender um harness como seu produto, "HaaS = harness como serviço". 2. Os modelos atuais são treinados com componentes de seu "sistema de controle integrado", incluindo as descrições de suas ferramentas e (creio eu) também os comportamentos de quando/como realizar o pensamento intercalado. 3. Corrigir um ambiente de teste para tornar as avaliações entre modelos "justas" não é justo. Os modelos são não fungíveis em seu ambiente de teste; corrigir o ambiente não é padronizar, pois não temos as ferramentas de interpretabilidade para entender como cada ambiente afeta cada modelo. Usamos as avaliações apenas como um indicador disso; corrigir o ambiente implica que sabemos que o desempenho do modelo é fixo em todos os ambientes, o que não é verdade. As avaliações devem medir a capacidade de realizar uma tarefa. Por que você separaria o ambiente ideal necessário para obter um bom comportamento do próprio modelo? É como se pudéssemos medir "o que acontece se eu der a este modelo as piores condições possíveis para realizar esta tarefa e ele tiver dificuldades ou a executar perfeitamente"... mas por quê?! Embora seja interessante e legal, não é prático hoje em dia. O objetivo é projetar sistemas que funcionem bem, e um modelo é apenas um (embora o mais importante) componente desse sistema. Mais engenharia de sistemas em avaliações é algo positivo, mesmo que os modelos se tornem mais inteligentes e precisem de menos direcionamento em seu sistema de suporte. Acredito firmemente que o sistema de suporte nunca desaparecerá completamente; podemos simplesmente renomeá-lo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.