L'embargo étant désormais levé, je suis heureux de partager les diapositives de la toute première présentation de Baguettotron à l'@EPFL ainsi que quelques réflexions supplémentaires en complément de l'article de blog. Comme beaucoup l'ont remarqué, nous nous sommes inspirés du modèle physique du langage, qui a forgé l'expression « terrain de jeu synthétique » et a promu l'utilisation de données synthétiques pour concevoir des « expériences contrôlées » systématiques, rapprochant ainsi la recherche LLM de la physique plutôt que de l'approche très empirique actuelle des données. La conférence présente des évaluations préliminaires contrôlées qui privilégient une architecture à couches profondes. Nous pensons que l'augmentation de la profondeur est optimisée par la densité des traces de raisonnement, ce qui permet probablement un processus combinatoire plus efficace entre les couches lors de l'inférence. Un point essentiel de la discussion a porté sur la précocité du raisonnement sur les signaux avec SYNTH, ce qui m'a incité à évaluer rétrospectivement les performances des 150 points de contrôle de Baguettotron. Je dois dire que j'ai été surpris par les résultats globaux, qui suggèrent que le modèle n'est pas aléatoire en MMLU avec seulement quelques milliards de jetons (et @mkurman88 montre maintenant que cela pourrait se produire bien plus tôt). J'espère vraiment que cet ensemble de données permettra de faire des découvertes plus intéressantes sur l'entraînement des LLM au cours des prochains mois, car nous avons maintenant la possibilité d'effectuer un entraînement complet et non plus seulement des ablations avec très peu de jetons et de paramètres.
Présentation complèdocs.google.com/presentation/d…Exmey