Basicamente, o conteúdo simplificado maximiza a relação entre recompensa e perplexidade. Mecanicamente, trata-se de uma manipulação da recompensa por meio do colapso da distribuição de saída em um conjunto com alguns padrões Pareto-ótimos, construindo essencialmente uma gramática degenerada específica para essa configuração de treinamento.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.