X (Twitter)

我喜欢这篇论文。虽然表面上看这只是使用集成方法进行任务分解和自洽性分析，但我还想强调其他方面。本文选取了我们大多数人对LLM的直觉感受或尝试，但在以简单方式尝试后放弃的内容。

他们构建了一个百万步的系统，这个系统基本上从不出错，不是通过建立一个“更智能”的模型，而是通过将任务分解成一百万个小部分，并对每个部分进行彻底的错误纠正。他们仅使用 gpt4.1-mini 就实现了所有这些功能。

我从这篇论文中汲取了这一见解——“如果你必须在一百万步内不出错，你就必须把任务搞砸一百万次”。如何进行分解以及如何进行普遍适用的错误纠正，将是我们实现工作的关键所在。

这里所采用的方法总体上仍然比较简单。虽然百万步迭代无误差的可靠性保证并非儿戏，在看到论文之前，我不会轻易相信误差率能达到0%。这篇论文执行起来非常棒。

本文探讨的核心思想是我们需要解决的语言任务问题，即那些没有预定义分解细节的任务。结果的质量将取决于模型自身分解任务的能力以及自我纠错的能力。

但如果要在架构方面没有突破的情况下，将希望寄托于某个方向，那就是这个。这只是已经大规模应用并适用于各种任务的一种方法。

我也认为这将使动态规划和树搜索成为训练/推理堆栈的一部分。

来自 tokenbender（@tokenbender）的推文线程