Ahora que el embargo ha terminado, me complace compartir las diapositivas de la primera presentación de Baguettotron en la @EPFL y algunas reflexiones adicionales más allá de la publicación del blog. Como muchos notaron, nos inspiramos en la Física del Modelo de Lenguaje, que acuñó la expresión "patio de recreo sintético" y promovió el uso de datos sintéticos para diseñar "experimentos controlados" sistemáticos, acercando así la investigación en LLM a la física más que al enfoque empírico actual de los datos. La conferencia incluye algunas evaluaciones controladas preliminares que favorecen la arquitectura de capas profundas. Creemos que el escalado en profundidad se beneficia enormemente de las trazas de razonamiento densas, lo que probablemente permite un proceso combinatorio más óptimo entre capas durante la inferencia. Un tema clave de debate ha sido la precocidad de las señales de razonamiento con SYNTH, lo que me impulsó a realizar una evaluación retrospectiva de los 150 puntos de control de Baguettotron. Debo decir que me sorprendieron los resultados generales, que sugieren que el modelo no es aleatorio en MMLU con unos pocos miles de millones de tokens (y @mkurman88 ahora demuestra que esto podría ocurrir mucho antes). Realmente espero que este conjunto de datos impulse descubrimientos más interesantes sobre el entrenamiento de LLM en los próximos meses, ya que ahora tenemos la capacidad de ejecutar entrenamientos completos y no solo ablaciones con muy pocos tokens y parámetros.
Presentación compledocs.google.com/presentation/d…xmey