我喜歡這篇論文。 雖然表面上看這只是使用整合方法進行任務分解和自洽性分析,但我還想強調其他方面。 本文選取了我們大多數人對LLM的直覺感受或嘗試,但以簡單方式嘗試後放棄的內容。
他們建構了一個百萬步驟的系統,這個系統基本上從不出錯,不是透過建立一個「更聰明」的模型,而是透過將任務分解成一百萬個小部分,並對每個部分進行徹底的錯誤修正。 他們僅使用 gpt4.1-mini 就實現了所有這些功能。
我從這篇論文中汲取了這一見解——「如果你必須在一百萬步內不出錯,你就必須把任務搞砸一百萬次」。 如何進行分解以及如何進行普遍適用的錯誤修正,將是我們實現工作的關鍵所在。
這裡所採用的方法總體上仍然比較簡單。雖然百萬步驟迭代無誤差的可靠性保證並非兒戲,在看到論文之前,我不會輕易相信誤差率能達到0%。 這篇論文執行起來非常棒。
本文探討的核心思想是我們需要解決的語言任務問題,也就是那些沒有預先定義分解細節的任務。結果的品質將取決於模型本身分解任務的能力以及自我糾錯的能力。
但如果要在架構方面沒有突破的情況下,將希望寄託在某個方向,那就是這個。 這只是已經大規模應用並適用於各種任務的一種方法。
我也認為這將使動態規劃和樹搜尋成為訓練/推理堆疊的一部分。