Agora que o embargo terminou, tenho o prazer de compartilhar os slides da primeira apresentação do Baguettotron na @EPFL e algumas considerações adicionais além da postagem no blog. Como muitos notaram, nos inspiramos no Modelo de Física da Linguagem, que cunhou a expressão "parque de diversões sintético" e promoveu o uso de dados sintéticos para projetar "experimentos controlados" sistemáticos, aproximando, na prática, a pesquisa em LLM da física em vez da atual abordagem empírica de dados. A conferência inclui algumas avaliações controladas iniciais que favorecem a arquitetura de camadas profundas. Acreditamos que o escalonamento em profundidade se beneficia ao máximo de traços de raciocínio densos, provavelmente permitindo um processo combinatório mais otimizado entre as camadas no momento da inferência. Um dos principais tópicos de discussão tem sido a precocidade do raciocínio de sinais com o SYNTH, o que me levou a avaliar retroativamente os 150 pontos de verificação do Baguettotron. Devo dizer que fiquei surpreso com os resultados gerais, que sugerem que o modelo não é aleatório no MMLU com alguns bilhões de tokens (e @mkurman88 está mostrando agora que isso pode acontecer muito antes). Espero sinceramente que este conjunto de dados impulsione descobertas ainda mais interessantes sobre o treinamento de LLM nos próximos meses, já que agora temos a capacidade de executar treinamentos completos, e não apenas ablações, com poucos tokens e parâmetros.
Apresentação compledocs.google.com/presentation/d…xmey