凭记忆求解 vs 从零开始求解——或者说,将“复杂性视角”应用于法学硕士的徒劳无功 #周日长篇大论 #NeurIPS2025版 我仍然对坚持从底层任务的计算复杂性角度来看待 LLM 任务性能的做法感到困惑(参见 https://t.co/4X1yQFY3KH )。 尽管已有大量轶事证据表明,LLM 的“锯齿状智能”与任务复杂性没有直接联系。LLM 在国际数学奥林匹克竞赛题目上可能很有竞争力,但仍然会落入“亚马逊给我寄了左鞋而不是右鞋,反之亦然”这种幼稚的陷阱(大家可以关注 @conitzer,他列出了 SOTA LLM 们似乎永远也解不完的陷阱!)。 计算复杂度通常指的是从头开始用算法解决任务所需的时间。而低阶学习模型(LLM)中的预训练、后训练和推理过程,则完全是从内存中求解。 当然,这并不意味着学习逻辑模型(LLM)只是直接从庞大的先前解决方案库中检索特定任务提示的解决方案。而是说,它们并非从头开始通过算法求解任务提示,而是通过某种试错过程,将训练前后积累的人类知识融会贯通,从而解决问题。 从这个角度来看,推理模型输出的“中间标记”不应被解释为某种从头开始的算法的痕迹,而可能被解释为模型尝试将记忆中的先验知识组合起来以解决当前任务提示的痕迹。 (正如我在其他地方所论述的,https://t.co/qE0vAwB636,预训练可以看作是吸收人类的陈述性知识,而后训练可以看作是逐步吸收人类的程序性知识——以不断延长的程序展开方式来体现)。 这种组合式试错问题求解的成本/准确率并非取决于当前任务提示从零开始的计算复杂度,而是取决于从当前记忆中构建解决方案的难易程度。这就是为什么低阶学习模型(LLM)在远离训练前后分布的任务上准确率较低的原因。参见 https://t.co/RL9ZEOKbpQ。 基于记忆的问题解决方式的一个显著特征是,当问题超出训练分布范围时,即使问题实际上可以从头开始轻松解决,模型也可能出现准确率低、中间标记(“计算”)时间更长的情况。这正是我们将在#NeurIPS2025高效推理研讨会上发表的论文《表演性思维》(https://t.co/itCXNctKZ1)所要传达的信息。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。