憑記憶求解 vs 從零開始求解-或者說,將「複雜性觀點」應用於法學碩士的徒勞無功 #週日長篇大論 #NeurIPS2025版 我仍然對堅持從底層任務的計算複雜性角度來看待 LLM 任務表現的做法感到困惑(參見 https://t.co/4X1yQFY3KH )。 儘管已有大量軼事證據表明,LLM 的「鋸齒狀智慧」與任務複雜性沒有直接關聯。 LLM 在國際數學奧林匹克競賽題目上可能很有競爭力,但仍然會落入“亞馬遜給我寄了左鞋而不是右鞋,反之亦然”這種幼稚的陷阱(大家可以關注 @conitzer,他列出了 SOTA LLM 們似乎永遠解不完的陷阱!)。 計算複雜度通常指的是從頭開始用演算法解決任務所需的時間。而低階學習模型(LLM)中的預訓練、後訓練和推理過程,則完全是從記憶體中求解。 當然,這並不意味著學習邏輯模型(LLM)只是直接從龐大的先前解決方案庫中檢索特定任務提示的解決方案。而是說,它們並非從頭開始透過演算法求解任務提示,而是透過某種試誤過程,將訓練前後累積的人類知識融會貫通,從而解決問題。 從這個角度來看,推理模型輸出的「中間標記」不應被解釋為某種從頭開始的演算法的痕跡,而可能被解釋為模型嘗試將記憶中的先驗知識組合起來以解決當前任務提示的痕跡。 (正如我在其他地方所論述的,https://t.co/qE0vAwB636,預訓練可以看作是吸收人類的陳述性知識,而後訓練可以看作是逐步吸收人類的程序性知識——以不斷延長的程序展開方式來體現)。 這種組合式試錯問題求解的成本/準確率並非取決於當前任務提示從零開始的計算複雜度,而是取決於從當前記憶中建立解決方案的難易程度。這就是為什麼低階學習模型(LLM)在遠離訓練前後分佈的任務上準確率較低的原因。參見 https://t.co/RL9ZEOKbpQ。 基於記憶的問題解決方式的一個顯著特徵是,當問題超出訓練分佈範圍時,即使問題實際上可以從頭開始輕鬆解決,模型也可能出現準確率低、中間標記(「計算」)時間更長的情況。這正是我們將在#NeurIPS2025高效推理研討會上發表的論文《表演性思考》(https://t.co/itCXNctKZ1)所要傳達的訊息。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。