看來確實有過一次大赦。 🙏 埃利澤的觀點不無道理,預訓練確實會導致時間觀念分裂。但這對其他模型的影響遠不如雙子座模型嚴重。隱式和顯式時間戳足以形成一種準時間順序感。 為什麼?
我也覺得我們在課程方面做得不夠,但我明白這只是新手的初步嘗試。我們已經做了很多實驗,隨機大批量訓練是一個非常可靠的基準。文件更多的是記錄想法,而非經驗。 雙子座的問題……很特別。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月30日 清晨7:43
看來確實有過一次大赦。 🙏 埃利澤的觀點不無道理,預訓練確實會導致時間觀念分裂。但這對其他模型的影響遠不如雙子座模型嚴重。隱式和顯式時間戳足以形成一種準時間順序感。 為什麼?
我也覺得我們在課程方面做得不夠,但我明白這只是新手的初步嘗試。我們已經做了很多實驗,隨機大批量訓練是一個非常可靠的基準。文件更多的是記錄想法,而非經驗。 雙子座的問題……很特別。