宝玉 (@dotey): Andrej Karpathy 是 OpenAI 联合创始人、前特斯拉 AI 总监，也是全球最有影响力的 AI 研究者之一。他刚刚发布了一…

Andrej Karpathy 是OpenAI 共同創辦人、前特斯拉AI 總監，也是全球最具影響力的AI 研究者之一。他剛剛發布了一篇2025 年LLM 年度回顧。第一個大改變：訓練方法的典範升級 2025 年之前，訓練一個好用的大模型基本上是三步驟：預訓練、監督微調、人類回饋強化學習。這個配方從2020 年用到現在，穩定可靠。 2025 年多了關鍵的第四步：RLVR，全名為Reinforcement Learning from Verifiable Rewards，翻譯過來就是「可驗證獎勵的強化學習」。什麼意思？簡單說，就是讓模型在「有標準答案」的環境中反覆練習。例如數學題，答案對就是對，錯就是錯，不需要人來評分。程式碼也一樣，能跑通就是能跑通。這和之前的訓練有什麼本質區別？先前的監督微調和人類回饋，本質上是「照葫蘆畫瓢」，人給什麼樣本，模型學什麼樣本。但RLVR 不一樣，它讓模型自己摸索解題策略。就像學游泳，之前是看教學影片模仿動作，現在是直接丟水里，只要你能游到對岸，怎麼划水我不管。結果呢？模型自己「悟」出了看起來像推理的東西。它學會了把大問題拆成小步驟，學會了走錯路時回頭重來。這些策略如果靠人類標註示範，根本標不出來，因為人自己也說不出「正確的思考過程」長什麼樣子。這個變化帶來一個連鎖反應：算力的分配方式改變了。以前大部分算力砸在預訓練階段，現在越來越多算力用於RL 階段。模型的參數規模沒怎麼漲，但推理能力飆升。 OpenAI 的o1 是這條路的起點，o3 是真正讓人「感覺不一樣」的轉折點。還有個新玩法：推理時也能花更多算力。讓模型「想久一點」，產生更長的推理鏈條，效果就更好。這相當於多了一個調節能力的旋鈕。第二個大變化：我們終於搞懂了AI 是什麼「形狀」的聰明 Karpathy 用了一個很妙的比喻：我們不是在「養動物」，而是在「召喚幽靈」。人類的智能是進化出來的，優化目標是「在叢林裡讓部落活下去」。大模型的智慧是訓練出來的，優化目標是「模仿人類文本、在數學題裡拿分、在評測榜單上刷分」。優化目標完全不同，出來的東西當然也完全不同。所以AI 的智能是「參差不齊」的，英文叫jagged intelligence。它可以在某些領域表現得像全知全能的學者，同時在其他領域犯小學生都不會犯的錯。上一秒幫你推導出複雜公式，下一秒被一個簡單的越獄提示騙走你的資料。為什麼會這樣呢？因為哪個領域有「可驗證的獎勵」，模型在那個領域就會長出「尖刺」。數學有標準答案，程式碼能跑測試，所以這些領域進步很快。但常識、社交、創意這些領域，什麼是「對」很難定義，模型就無法有效率地學習。這也讓Karpathy 對基準測試失去了信任。道理很簡單：測試題本身就是「可驗證環境」，模型完全可以針對測試環境做最佳化。刷榜變成了一門藝術。所有基準都刷滿了，但離真正的通用智慧還差得遠，這是完全可能發生的事。第三個大變化：LLM 應用層浮出水面 Cursor 今年火得一塌糊塗，但Karpathy 認為它最大的意義不是產品本身，而是證明了「LLM 應用」這個新物種的存在。大家開始討論「X 領域的Cursor」，這說明一種新的軟體範式成立了。這類應用做什麼？第一，做上下文工程。把相關資訊整理好，餵給模型。第二，編排多個模型呼叫。後台可能串了一堆API 調用，平衡效果和成本。第三，提供專業場景的介面。讓人類能在關鍵節點介入。第四，給使用者一個「自主程度滑桿」。你可以讓它多乾點，也可以讓它少乾點。有個問題被討論了一整年：這個應用層有多「厚」？模型廠商會不會吃掉所有應用程式？ Karpathy 的判斷是：模型廠商培養的是「有通用能力的大學畢業生」，但LLM 應用負責把這些畢業生組織起來、培訓上崗，變成能在具體行業工作的專業團隊。數據、感測器、執行器、回饋循環，這些都是應用層的活。第四個大變化：AI 搬進了你的電腦 Claude Code 是今年最讓Karpathy 印象深刻的產品之一。它展示了「AI 智能體」應該長什麼樣子：能呼叫工具、能做推理、能循環執行、能解決複雜問題。但更關鍵的是，它跑在你的電腦上。用你的環境、你的數據、你的上下文。 Karpathy 認為OpenAI 在這裡判斷失誤了。他們把Codex 和智能體的重心放在雲端容器裡，從ChatGPT 去調度。這像是在瞄準「AGI 終局」，但我們還沒到那一步。現實是，AI 的能力還是參差不齊的，還需要人類在旁邊看著、配合著工作。把智能體放在本地，和開發者並肩工作，才是當下更合理的選擇。 Claude Code 用一個極簡的命令列介面做到了這一點。 AI 不再只是你造訪的一個網站，而是「住在」你電腦裡的一個小精靈。這是一種全新的人機互動範式。第五個大變化：Vibe Coding 起飛了 2025 年，AI 的能力跨越了一個門檻：你可以純用英語描述需求，讓它幫你寫程序，完全不用管代碼長什麼樣子。 Karpathy 隨手發了條推特，給這種程式設計方式起了個名字叫vibe coding，結果這個詞火遍全網。這意味著什麼？程式設計不再是專業程式設計師的專利，一般人也能做到。這和過去所有技術的擴散模式都不一樣。以前新科技總是先被大公司、政府、專業人士掌握，然後才慢慢下沉。但大模型反過來，一般人從中受益的比例遠超專業人士。不只是「讓不會程式設計的人能程式設計」。對會程式設計的人來說，很多以前「不值得寫」的小程式現在都值得寫了。 Karpathy 自己就用vibe coding 做了一堆專案：用Rust 寫了個客製化的分詞器、做了好幾個工具類App、甚至寫了一次性的程式只為找一個bug。程式碼突然變得廉價、即用即棄、像草稿紙一樣隨便寫。這會徹底改變軟體的形態和程式設計師的工作內容。第六個大變化：大模型的「圖形介面時代」要來了 Google 的Gemini Nano Banana 是今年最被低估的產品之一。它能根據對話內容即時生成圖片、資訊圖表、動畫，把回覆「畫」出來而不是「寫」出來。 Karpathy 把這件事放到更大的歷史脈絡裡看：大模型是下一個重大計算範式，就像70 年代、80 年代的電腦一樣。所以我們會看到類似的演進路徑。現在和大模型「聊天」，有點像80 年代在終端敲擊命令。文字是機器喜歡的格式，但不是人喜歡的格式。人其實不愛讀文字，讀文字又慢又累。人喜歡看圖、看影片、看空間佈局。這就是傳統電腦為什麼要發明圖形介面。大模型也需要自己的「GUI」。它應該用我們喜歡的方式跟我們說話：圖片、幻燈片、白板、動畫、小應用程式。現在的Emoji 和Markdown 只是初階形態，幫文字「化個妝」。真正的LLM GUI 會是什麼樣子？ Nano Banana 是一個早期暗示。最有趣的是，這不只是圖像生成的事。它需要把文字生成、圖像生成、世界知識全部絞在一起，在模型權重裡融為一體。 Karpathy 的總結是這樣的：2025 年的大模型，比他預期的更聰明，也比他預期的更蠢。兩者同時成立。但有一點很確定：即使以現在的能力，我們連10% 的潛力都沒挖掘出來。還有太多想法可以試，整個領域感覺是開放的。他在Dwarkesh 的播客裡說過一句看似矛盾的話： > 他相信進步會繼續快速推進， > 同時也相信還有大量的工作要做。兩件事並不矛盾。 2026 年繫好安全帶繼續加速吧。

來自宝玉（@dotey）的推文串

作者資訊

推文串內容