為了方便觀看視頻,整理視頻中出現的AI名詞。 強化學習(Reinforcement Learning, RL) 想像你在教小孩騎腳踏車。 你不會給他一本《騎車標準動作手冊》,而是讓他自己試,摔了疼(懲罰),騎穩了開心(獎勵)。 多試幾次,他自然學會了。 這就是強化學習的核心:從經驗中學習,目標驅動。 薩頓(就是拿圖靈獎那位)認為這才是真正的AI 基礎。 智能體做動作,感受結果,然後調整策略去拿更多獎勵。 就像你打遊戲,死了重來,慢慢摸清套路。 大型語言模型(LLMs) 像是Gemini 、ChatGPT、Claude是另一套邏輯。 它們的任務很簡單:猜下一個字。 餵給它海量文本,讓它學會"人類通常會這麼說話"。 但薩頓覺得這是一條死路,為什麼? 因為它只是在模仿,沒有真正的目標,也不是從真實經驗裡學的。 就像背了一堆食譜的人,不一定真會做菜。 世界模型(World Model) 你丟一個球,不用真扔,腦子裡就能預判它會落哪裡。 這就是世界模型,你對物理規律的理解。 薩頓說,LLMs 沒有這個。 它們只能預測"人類會說什麼",但預測不了"真實世界會發生什麼"。 目標(Goal) 有目標,才叫智能。 沒目標的系統,就像只會重複你話的鸚鵡。 RL 裡的目標會轉換成獎勵訊號,告訴系統"這樣做是對的"。 對松鼠來說,目標是找到堅果。 對AlphaGo 來說,目標就是贏棋。 那LLMs 的目標是什麼? 薩頓覺得"預測下一個字"不算實質目標。 經驗vs 訓練數據 經驗是你真實做了某件事,看到後果。 摸了熱水壺,燙到了,下次就知道別碰。 訓練資料是別人告訴你"熱水壺會燙"。 你記住了,但沒真切體會過。 薩頓強調,真正的學習必須來自經驗。 時序差分學習(TD Learning) 薩頓的得意之作。 解決的問題是:怎麼從長期目標倒推短期行動? 下棋時,你走一步不知道好壞,要等到最後才知道輸贏。 TD Learning 讓系統能預測"這步棋會讓局面變好還是變壞",然後立刻調整策略。 就像你邊走邊修正導航路線,不用等到終點才知道走錯了。 價值函數(Value Function) 給每個狀態打分數:"現在這情況,有多大機率達成目標?" 分數升了,表示剛才那步走對了,繼續加強。 分數降了,表示搞砸了,下次別這麼乾。 狀態表徵(State Representation) 對"我現在在哪裡?" 的感知。 你走進一個房間,瞬間就知道這是廚房還是臥室。 AI 也需要把感測器資料轉換成"狀態",才能決策。 轉換模型(Transition Model) "如果我這麼做,會怎樣?" 的因果模型。 你知道推門會開,按開關會亮燈。 這是你對世界物理規律的理解。 薩頓說,這才是他唯一想稱為"模型"的東西。 《苦澀的教訓》(The Bitter Lesson) 薩頓2019 年寫的文章,核心觀點:別把人類知識硬塞給AI,讓它自己學。 歷史一再證明,那些依賴人類專家知識的"聰明方法"。 最後都輸給了"用大算力暴力學習"的笨方法。 LLMs 看起來印證了這一點(用海量資料訓練)。 但薩頓覺得它們最終會成為反例,因為缺了"從經驗學習"這一環。 摩拉維克悖論(Moravec's Paradox) 人類覺得容易的,AI 覺得難。 人類覺得難的,AI 覺得容易。 讓AI 解奧數題,小菜一碟。 但讓它像嬰兒一樣學走路、抓東西?看看現在機器人的進度。 AI 演替(AI Succession) 薩頓的大膽預測:數位智慧終將取代人類成為主導力量。 不是科幻片裡的機器人起義,而是進化的必然。 就像當年單細胞生物進化出多細胞生物。 現在輪到"設計出來的智慧"接棒"自然演化的智慧"了。 他管這叫設計時代(Age of Design)。 我們不再依賴基因複製,而是直接設計智能體,並且完全理解它們如何運作。 TD-Gammon 1990 年代,傑瑞·塔薩羅用TD Learning 訓練了一個玩西洋雙陸棋的AI,打敗了世界冠軍。 這是強化學習第一次證明自己。 AlphaGo / AlphaZero 你一定聽過AlphaGo 戰勝李世石。 但更厲害的是AlphaZero,它完全靠自我對弈學習,不需要人類棋譜,最後下出了人類從未見過的招法。 薩頓特別提到,AlphaZero 會犧牲棋子換取位置優勢,這種"不貪眼前利益"的風格,連人類高手都覺得驚艷。 MuZero DeepMind 的另一部作品。 有趣的是,它不是一個"通用智能體",而是一個訓練框架,每次還是要針對具體遊戲訓練專門的智能體。 這也反映了現在AI 的限制:還做不到真正的通用智能。 幾個關鍵人物 Richard Sutton強化學習之父,圖靈獎得主,發明了TD Learning 和Policy Gradient John McCarthy,定義智能為"實現目標能力的計算部分" Alan Turing,說過"我們想要一台能從經驗中學習的機器" Joseph Henrich,研究文化演化,解釋人類如何透過模仿傳承複雜技能。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。