重磅訊息:我們發布了用於預訓練的全合成通用資料集 SYNTH,以及兩個完全基於該資料集訓練的全新 SOTA 推理模型。儘管 Baguettotron 資料集僅包含 2000 億個詞元,但它目前在其規模範圍內仍處於領先地位。
SYNTH 與傳統的預訓練方法截然不同:如果我們訓練的是推理能力,並專注於吸收真正重要的知識和技能,結果會如何?其核心是對維基百科 5 萬篇「關鍵」文章進行上採樣。 https://t.co/qrBybjF78m
SYNTH 是一系列合成遊樂場的集合:資料不是透過簡單的提示產生的,而是透過將較小的、經過微調的模型整合到具有種子、約束和形式驗證/檢查的工作流程中產生的。
由於 SYNTH 的設計目標是訓練推理能力,我們在訓練初期就能獲得實際的推理訊號。對於 Baguettotron 問題,我們發現 MMLU 在處理不到 100 億個 token 後就開始出現非隨機性,並迅速達到接近 SOTA 的效能水準。
合成遊樂場促成了一系列受控實驗,最終促使我們傾向於採用極深設計。我們為 Baguettotron 選擇了 80 層架構,並在邏輯推理記憶方面實現了全面提升:https://t.co/rdn902oTGN
我們與 Baguettotron 合作發布了迄今為止最小的實用語言模型 Monad。 Monad 是一個 5,600 萬維網的 Transformer 模型,使用 SYNTH 資料集中的英語部分進行訓練,並在 MMLU 測試中表現出非隨機性。 Monad 的設計是一項工程挑戰,需要一個客製化的微型分詞器。 https://t.co/hC8SLV1SLc
這兩個模型都基於類似 Qwen 的指令風格進行原生訓練,並帶有思考軌跡。我們設計了一種全新的推理風格,針對小型模型進行了最佳化,採用了精簡的措辭、草稿符號和模擬熵(靈感來自 Entropix 專案)。
透過此次發布,我們旨在支援新興的預訓練研究生態系統(NanoGPT、NanoChat)、可解釋性(您甚至可以用顯微鏡觀察 Monad)以及圍繞前沿模型的工具協調。
我們認為,合成資料既是建構專用小型模型的資源,也是LLM應用中資料層增強/豐富資料的通用方法。除了研究之外,這也將成為我們新一階段產品開發的重要因素。
在完整報告發布之前,我們將發布一篇詳細的部落格文章,其中包含一些科學成果/合成路線的幕後故事。 https://t.co/rixJOesC08





