韓國(Upstage)已對100B級MoE進行了預訓練,他們聲稱該MoE是「企業級」的,訓練對像是Blackwells。 先前引起轟動的 Solar 模型是 10.7B,這是 Mistral-7B 的深度放大實驗,與 Mixtral 8x7B 相媲美。
我承認,我已經對到處看到DS-MoE感到厭倦了。 鯨魚還得再重新發明一次。看看Google上的論文,從中找出有用的想法,再加上自己的,然後大家又會恍然大悟,覺得“哦,原來如此”,這種感覺會持續兩年。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年12月22日 晚上10:18
韓國(Upstage)已對100B級MoE進行了預訓練,他們聲稱該MoE是「企業級」的,訓練對像是Blackwells。 先前引起轟動的 Solar 模型是 10.7B,這是 Mistral-7B 的深度放大實驗,與 Mixtral 8x7B 相媲美。
我承認,我已經對到處看到DS-MoE感到厭倦了。 鯨魚還得再重新發明一次。看看Google上的論文,從中找出有用的想法,再加上自己的,然後大家又會恍然大悟,覺得“哦,原來如此”,這種感覺會持續兩年。