如果最優專家(即即使我們優化的是訓練 FLOPs 以達到下游效能目標,而不是生命週期成本)的參數少於 100 萬個,那就太瘋狂了。 但同時,這也符合邏輯。微型模型出乎意料地強大。 我們只需要更好的路由。 順便說一句,我其實預料到了這一點。
那時候,100個讚對我來說就是巨大的成就,真是美好的回憶。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月5日 晚上8:42
如果最優專家(即即使我們優化的是訓練 FLOPs 以達到下游效能目標,而不是生命週期成本)的參數少於 100 萬個,那就太瘋狂了。 但同時,這也符合邏輯。微型模型出乎意料地強大。 我們只需要更好的路由。 順便說一句,我其實預料到了這一點。
那時候,100個讚對我來說就是巨大的成就,真是美好的回憶。