X (Twitter)

我喜歡這篇論文。雖然表面上看這只是使用整合方法進行任務分解和自洽性分析，但我還想強調其他方面。本文選取了我們大多數人對LLM的直覺感受或嘗試，但以簡單方式嘗試後放棄的內容。

他們建構了一個百萬步驟的系統，這個系統基本上從不出錯，不是透過建立一個「更聰明」的模型，而是透過將任務分解成一百萬個小部分，並對每個部分進行徹底的錯誤修正。他們僅使用 gpt4.1-mini 就實現了所有這些功能。

我從這篇論文中汲取了這一見解——「如果你必須在一百萬步內不出錯，你就必須把任務搞砸一百萬次」。如何進行分解以及如何進行普遍適用的錯誤修正，將是我們實現工作的關鍵所在。

這裡所採用的方法總體上仍然比較簡單。雖然百萬步驟迭代無誤差的可靠性保證並非兒戲，在看到論文之前，我不會輕易相信誤差率能達到0%。這篇論文執行起來非常棒。

本文探討的核心思想是我們需要解決的語言任務問題，也就是那些沒有預先定義分解細節的任務。結果的品質將取決於模型本身分解任務的能力以及自我糾錯的能力。

但如果要在架構方面沒有突破的情況下，將希望寄託在某個方向，那就是這個。這只是已經大規模應用並適用於各種任務的一種方法。

我也認為這將使動態規劃和樹搜尋成為訓練/推理堆疊的一部分。

來自 tokenbender（@tokenbender）的推文串