Algumas hipóteses sobre o que “melhor pré-treinamento” poderia significar. - Integração com outras etapas de treinamento: imagino que finalmente chegaram a um ponto em que o desempenho pós-treinamento (por exemplo, SWE-Bench) pode ser usado como sinal para decisões de engenharia pré-treinamento. - Filtragem: abordagens de escalonamento, como funções de influência, para eliminar pontos de dados que não contribuem para a avaliação de desempenho. - Dados sintéticos: usar reformulações para ampliar a amostra de certos documentos úteis e torná-los mais passíveis de raciocínio. - Mistura: abordagens mais fundamentadas e escaláveis para determinar coeficientes de mistura - Novos dados: compra e digitalização de mais livros, transcrição de vídeos do YouTube, aquisição de coleções privadas de tokens, como artigos de notícias. - Empacotamento inteligente: existem várias maneiras de agrupar documentos em lotes que funcionam melhor, especialmente para documentos de contexto extenso. - Sistemas: mais dados, mais operações FLOPS
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.