LLM已死?強化學習教父認為大語言模式是條死路。 說這個暴論的人叫理查‧薩頓(Richard Sutton),強化學習創始人之一。 他的觀點很直接:LLM不是基礎人工智慧,它只是AI領域的一陣潮流。 真正的基礎AI應該是強化學習。 觀點很激進,但他給的理由值得認真想。 第一個致命問題:沒有目標的"智能" 薩頓拋出了一個質問:沒有目標,還能叫智能嗎? 他引用約翰·麥卡錫定義,智能的本質是"實現目標能力的計算部分"。 以這個標準,LLM有什麼問題呢? LLM的所謂"目標"只是預測下一個字。 你給它一段文字,它告訴你接下來最可能出現什麼字。 但這算目標嗎? 薩頓說得很直白:Token 自己跑到你面前,你預測Token,但你根本影響不了它們。 這不是關於外在世界的目標,這只是文字接龍遊戲。 沒有目標,就沒有"正確"的定義。 什麼叫做對的事情? 在強化學習裡,答案很清楚:能帶給你獎勵的事。 但LLM呢?它連對錯的標準都是模糊的。 第二個硬傷:沒有真實的世界模型 LLM擅長什麼?模仿人類。 它能模仿人怎麼說話,怎麼寫作,甚至怎麼思考。 但薩頓說:模仿語言,不等於理解世界。 LLM能預測一個人會說什麼,但它預測不了會發生什麼。 這個差別太重要了。 真正的世界模型應該讓你能夠預測行為的後果。 例如,我把杯子推下桌子,它會掉到地上摔碎。 這是對物理世界的理解。 但LLM呢?它只知道"人們通常會說杯子會摔碎",這是兩碼事。 更關鍵的是,LLM不會從意外中學習。 假設你預測某件事會發生A,結果發生了B。 一個真正理解世界的系統會說:「咦,我錯了,我需要調整我的模型。」但LLM不會。 它沒有這種"意外"的概念,因為模型從來不是在預測真實世界,它只是在預測訓練資料裡人們會怎麼說。 薩頓的總結很犀利:LLM從訓練資料中學習,不是從經驗中學習。 經驗是什麼?是你做了某件事,然後看到實際發生了什麼。 這種第一手的互動,才是真正學習的來源。 第三個悖論:可擴展性的陷阱 薩頓寫過一篇著名的文章叫《苦澀的教訓》(The Bitter Lesson)。 核心思想:歷史一再證明,依賴人類知識的方法最終都會輸給純粹依靠計算和學習的方法。 很多人覺得LLM正是這個教訓的最新例證。 你看,用海量資料和算力訓練出來的模型,不就超越了傳統的規則系統嗎? 但薩頓說:等著瞧,LLM最終會成為這個教訓的反面教材。 為什麼?因為LLM本質上還是在依賴人類知識。 它學的是人類寫的文字,說的話,做的事。 這些都是人類知識的結晶。 薩頓認為,真正具有可擴展性的方法是什麼? 是系統自己去嘗試,自己去觀察什麼有效,什麼無效。 不需要任何人告訴它對錯,它透過與世界的互動自己學會。 這就是強化學習的核心:主體有目標,主體採取行動,主體觀察結果,主體調整策略。 這個循環可以無限持續,不斷進化。 而LLM呢?它的學習在訓練結束那一刻就停止了。 它無法在真實世界持續學習,因為它根本不知道怎麼與世界互動。 LLM就像一個語言模仿大師。 它能完美地背誦人類所有的劇本和對話,你問它什麼,它都能給你一個聽起來很像樣的回答。 但它缺少什麼?缺少行動者的能力。 它不知道自己想要什麼(沒有目標)。 也不知道說這些話在真實世界會產生什麼後果(沒有世界模型)。 它只是一個超級複雜的文字接龍機器。 真正的智能應該是什麼樣子? 應該是一個主體,它有自己的目標,它能與世界互動,它從每次互動中學習,它不斷調整自己的策略去更好地實現目標。 這才是薩頓眼中的"基礎AI"。 薩頓的觀點不一定全對,但他提的問題值得思考。 也許LLM不會"死",它們在許多應用場景下依然有價值。 但如果我們的目標是實現真正的通用人工智慧AGI。 薩頓的警告值得認真對待: 光會說話,不等於會思考。光會模仿,不等於會學習。 真正的智能,可能需要目標、需要行動、需要與世界真實的互動。 這條路,我們才剛開始走。 --- 以上由AI生成,人工編輯排版。 影片見評論區
常讀AI論文解讀的話,常常會聽到《苦澀的教訓》這篇文章。 穿花衣服的大爺,說話真的很犀利 https://t.co/QfaCNFRCVO