這簡直是胡說八道。 「最終訓練運行僅佔研發總計算量的 1%」這種說法,我猜是對 GDM 實踐的一種奇怪的、帶有誤導性的概括。沒人會進行全規模的消融實驗,而且對於 GPU 資源匱乏的實驗室來說,這需要*數年*的時間。 K2 本身就是一個效能更強的 V3 版本。 石頭,玻璃房子。我們還是別這樣吧。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月8日 下午3:08
這簡直是胡說八道。 「最終訓練運行僅佔研發總計算量的 1%」這種說法,我猜是對 GDM 實踐的一種奇怪的、帶有誤導性的概括。沒人會進行全規模的消融實驗,而且對於 GPU 資源匱乏的實驗室來說,這需要*數年*的時間。 K2 本身就是一個效能更強的 V3 版本。 石頭,玻璃房子。我們還是別這樣吧。