禁輸措置が解除されたので、@EPFL での Baguettotron の初めてのプレゼンテーションのスライドと、ブログ投稿以外のいくつかの追加の考えを共有できることを嬉しく思います。 多くの人が気づいているように、私たちは「合成遊び場」という表現を生み出した言語物理学モデルからインスピレーションを得て、合成データを使用して体系的な「制御された実験」を設計することを推進し、LLM 研究を、現在のデータに対する非常に経験的なアプローチよりも物理学に近づけました。 本会議では、深層アーキテクチャを優位とする、ごく初期の制御評価がいくつか発表されました。深度スケーリングは、密な推論トレースから最も恩恵を受けると考えられており、推論時に層をまたがるより最適な組み合わせプロセスを可能にすると考えられます。 SYNTHを用いた推論信号の早期成熟は主要な議論の的となっており、これがBaguettotronの150チェックポイントを遡及的にベンチマークするきっかけとなりました。MMLUにおいて数十億トークンでモデルが非ランダムであることを示唆する全体的な結果には驚きました(そして@mkurman88は現在、それよりもずっと早くそうなる可能性を示しています)。 非常に少ないトークンとパラメータでアブレーションだけでなく完全なトレーニングを実行できるようになったため、今後数か月でこのデータセットが LLM トレーニングに関するより興味深い発見を促進することを期待しています。
完全なプレゼンテーション: https://t.co/3jPDpExmey