我很好奇,如果模型能够为每个样本生成输出,且不超过最大输出标记限制,那么得分会是什么样子。 他们确实需要减少推理的冗长程度,和/或将上下文扩展到 256K+。理论上,DSA 可以经济高效地实现这一点。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月2日 18:27
我很好奇,如果模型能够为每个样本生成输出,且不超过最大输出标记限制,那么得分会是什么样子。 他们确实需要减少推理的冗长程度,和/或将上下文扩展到 256K+。理论上,DSA 可以经济高效地实现这一点。