X (Twitter)

正在加载线程详情

正在从 X 获取原始推文,整理成清爽的阅读视图。

通常只需几秒钟,请稍候。

Yangyi (@Yangyixxxx): 看了一下Deepseek最新分享的DSA稀疏注意力的优化策略 个人理解如下: Deepseek的优化简单来讲做了两大部分,第一部分是对之前… | Thread Easy