"Uma das coisas mais confusas sobre os modelos atualmente é como conciliar o fato de que eles estão se saindo tão bem nas avaliações." E você olha para as avaliações e pensa: 'Essas avaliações são bem rigorosas.' Mas o impacto econômico parece estar muito aquém do esperado. Existe uma possível explicação. Na época em que as pessoas faziam pré-treinamento, a questão de quais dados usar para treinar já estava respondida, porque a resposta era: tudo. Então você não precisa pensar se serão estes dados ou aqueles dados. Quando as pessoas fazem treinamento de RL (Aprendizagem por Reforço), elas dizem: 'Ok, queremos este tipo de treinamento de RL para isso e aquele tipo de treinamento de RL para aquilo.' Você diz: "Ei, eu adoraria que nosso modelo tivesse um desempenho excelente quando o lançarmos. Quero que as avaliações sejam ótimas. Que tipo de treinamento de RL poderia ajudar nessa tarefa?" Se combinarmos isso com a generalização de que os modelos são, na verdade, inadequados, isso tem o potencial de explicar muito do que estamos vendo, essa desconexão entre o desempenho na avaliação e o desempenho real no mundo real.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.