韩国(Upstage)已对100B级MoE进行了预训练,他们声称该MoE是“企业级”的,训练对象是Blackwells。 此前引起轰动的 Solar 模型是 10.7B,这是 Mistral-7B 的深度放大实验,与 Mixtral 8x7B 相媲美。
我承认,我已经对到处看到DS-MoE感到厌倦了。 鲸鱼还得再重新发明一遍。看看谷歌上的论文,从中找出有用的想法,再加上自己的,然后大家又会恍然大悟,觉得“哦,原来如此”,这种感觉会持续两年。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月22日 22:18
韩国(Upstage)已对100B级MoE进行了预训练,他们声称该MoE是“企业级”的,训练对象是Blackwells。 此前引起轰动的 Solar 模型是 10.7B,这是 Mistral-7B 的深度放大实验,与 Mixtral 8x7B 相媲美。
我承认,我已经对到处看到DS-MoE感到厌倦了。 鲸鱼还得再重新发明一遍。看看谷歌上的论文,从中找出有用的想法,再加上自己的,然后大家又会恍然大悟,觉得“哦,原来如此”,这种感觉会持续两年。