正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月15日 12:19
我也很喜欢关于推理风格/兼容性的那部分。我认为对于小型模型来说,这方面还有很多尚未开发的潜力,因为注意力路径的几何结构需要的不仅仅是简单的提炼。
链接:https://t.co/4JTGTyqFlU