Uma questão interessante em aberto sobre modelos que se adaptam a arreios + ideias sobre algo como um "Banco de Arreios" 1. Os modelos mais inteligentes são melhores ou piores na transição para novos cintos de segurança? Vi resultados recentes que mostram que o Opus com cinto CC teve um salto muito maior do que o Sonnet com cinto CC. 2. Qual é a diferença entre a adaptação contextual a um novo arnês e o ajuste fino? Banco de arreios: Essa ideia já existe, em certa medida, na forma como o Terminal Bench apresenta os resultados, mas, basicamente, precisamos de mais avaliações sobre chicotes elétricos, não apenas sobre modelos. - Não temos boas métricas sobre a generalização do modelo em diferentes ambientes. O HarnessBench é basicamente uma avaliação de diversas tarefas onde medimos o desempenho médio de um conjunto de harnesses em um conjunto de modelos fixos. Também obtemos pontuações individuais para cada modelo no HarnessBench, é claro. Acho que é uma questão valiosa e divertida de explorar, pois nos ajuda a entender o que, em um arnês, beneficia alguns modelos e não outros, e o que, de modo geral, é simplesmente "bom" ter em um arnês. Precisamos de arneses para escalada em colinas e também de alguma interpretabilidade. Além disso, é bem possível que o ajuste fino em RL seja tudo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.