他们这样做是在美国国家安全局(NSA)认为训练后的稀疏性是一条死路之后,这也说明了他们有能力无视沉没成本。 我很好奇NSA后来怎么样了。很明显,分块注意力机制并非最优解,但DSA也只是权宜之计。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月17日 07:02
他们这样做是在美国国家安全局(NSA)认为训练后的稀疏性是一条死路之后,这也说明了他们有能力无视沉没成本。 我很好奇NSA后来怎么样了。很明显,分块注意力机制并非最优解,但DSA也只是权宜之计。