Seed 執行一個潛在的循環 Transformer。 這是一個相當成熟的方法,對於簡單的標記,模型可以在兩個循環後終止。這種方法雖然無法節省計算資源,但能讓你用有限的數據預算獲得更好的結果。我希望我們能看到一個相當可觀的擴展性指標(MoE),來展示這種方法的可擴展性。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年10月30日 下午3:10
Seed 執行一個潛在的循環 Transformer。 這是一個相當成熟的方法,對於簡單的標記,模型可以在兩個循環後終止。這種方法雖然無法節省計算資源,但能讓你用有限的數據預算獲得更好的結果。我希望我們能看到一個相當可觀的擴展性指標(MoE),來展示這種方法的可擴展性。