我喜欢这篇论文。 虽然表面上看这只是使用集成方法进行任务分解和自洽性分析,但我还想强调其他方面。 本文选取了我们大多数人对LLM的直觉感受或尝试,但在以简单方式尝试后放弃的内容。
他们构建了一个百万步的系统,这个系统基本上从不出错,不是通过建立一个“更智能”的模型,而是通过将任务分解成一百万个小部分,并对每个部分进行彻底的错误纠正。 他们仅使用 gpt4.1-mini 就实现了所有这些功能。
我从这篇论文中汲取了这一见解——“如果你必须在一百万步内不出错,你就必须把任务搞砸一百万次”。 如何进行分解以及如何进行普遍适用的错误纠正,将是我们实现工作的关键所在。
这里所采用的方法总体上仍然比较简单。虽然百万步迭代无误差的可靠性保证并非儿戏,在看到论文之前,我不会轻易相信误差率能达到0%。 这篇论文执行起来非常棒。
本文探讨的核心思想是我们需要解决的语言任务问题,即那些没有预定义分解细节的任务。结果的质量将取决于模型自身分解任务的能力以及自我纠错的能力。
但如果要在架构方面没有突破的情况下,将希望寄托于某个方向,那就是这个。 这只是已经大规模应用并适用于各种任务的一种方法。
我也认为这将使动态规划和树搜索成为训练/推理堆栈的一部分。