如果最优专家(即即使我们优化的是训练 FLOPs 以达到下游性能目标,而不是生命周期成本)的参数少于 100 万个,那就太疯狂了。 但同时,这也符合逻辑。微型模型出人意料地强大。 我们只需要更好的路由。 顺便说一句,我其实预料到了这一点。
那时候,100个赞对我来说就是巨大的成就,真是美好的回忆。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月5日 20:42
如果最优专家(即即使我们优化的是训练 FLOPs 以达到下游性能目标,而不是生命周期成本)的参数少于 100 万个,那就太疯狂了。 但同时,这也符合逻辑。微型模型出人意料地强大。 我们只需要更好的路由。 顺便说一句,我其实预料到了这一点。
那时候,100个赞对我来说就是巨大的成就,真是美好的回忆。