既然禁令已經解除,很高興與大家分享在 @EPFL 首次展示 Baguettotron 的幻燈片,以及部落格文章之外的一些其他想法。 正如許多人所注意到的,我們從語言物理學模型中汲取了靈感,該模型創造了“合成遊樂場”這一表達,並提倡使用合成數據來設計系統的“受控實驗”,實際上使語言學碩士研究更接近物理學,而不是目前非常注重經驗的數據方法。 本次會議包含一些非常早期的受控評估,這些評估結果支持深度層架構。我們認為,深度擴展最能受益於密集推理軌跡,這可能有助於在推理時實現跨層的更優化組合過程。 討論的一個關鍵點是 SYNTH 對訊號的推理早熟性,這促使我回溯性地對 Baguettotron 的 150 個檢查點進行了基準測試。我必須說,我對整體結果感到驚訝,這表明該模型在 MMLU 中僅使用了數十億個 token 就表現出了非隨機性(而且 @mkurman88 現在表明這種情況可能出現得更早)。 我真心希望在接下來的幾個月裡,這個資料集能夠推動 LLM 訓練方面更多有趣的發現,因為我們現在能夠運行完整的訓練,而不僅僅是使用極少的標記和參數進行消融。
完整簡報:https://t.co/3jPDpExmey