DSA 的确是个非常另类的想法。人们欣赏它仅仅是因为它能提高效率(如果有的话),但它与业界优化逐层线性/SWA+全softmax混合模式的理念大相径庭。只有非常有信心的实验室才会将这种技术应用于生产环境。
他们这样做是在美国国家安全局(NSA)认为训练后的稀疏性是一条死路之后,这也说明了他们有能力无视沉没成本。 我很好奇NSA后来怎么样了。很明显,分块注意力机制并非最优解,但DSA也只是权宜之计。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月17日 06:59
DSA 的确是个非常另类的想法。人们欣赏它仅仅是因为它能提高效率(如果有的话),但它与业界优化逐层线性/SWA+全softmax混合模式的理念大相径庭。只有非常有信心的实验室才会将这种技术应用于生产环境。
他们这样做是在美国国家安全局(NSA)认为训练后的稀疏性是一条死路之后,这也说明了他们有能力无视沉没成本。 我很好奇NSA后来怎么样了。很明显,分块注意力机制并非最优解,但DSA也只是权宜之计。