DeepSeek 的理论基础非常扎实,它凭借 NSA 赢得了 ACL 的最佳论文,但似乎对大规模应用的结果并不满意,于是设计了一种更好的架构,该架构还可以使用完整的注意力模型,并发表了该架构,同时还共享了权重。 我们常常怀疑谷歌的做法恰恰相反。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月25日 16:15
DeepSeek 的理论基础非常扎实,它凭借 NSA 赢得了 ACL 的最佳论文,但似乎对大规模应用的结果并不满意,于是设计了一种更好的架构,该架构还可以使用完整的注意力模型,并发表了该架构,同时还共享了权重。 我们常常怀疑谷歌的做法恰恰相反。