X (Twitter)

相信很多人都翻譯或總結AK的2025總結了。為自己學習，再重寫排版一遍，推薦看原文。 --- Andrej Karpathy 寫了一篇2025 年LLM 回顧，列了六個他覺得"改變格局"的事。 1. 強化學習找到了新玩法以前訓練大模型，就三步： ① 預訓練（2020 年的GPT-2/3 那套） ② 監督微調（2022 年的InstructGPT） ④ 人類回饋強化學習（RLHF，也是2022 年）。這個配方穩定了好幾年。 2025 年多了第四步，RLVR（可驗證獎勵強化學習）。讓模型去解數學題、寫程式這類有標準答案的問題，它會自己摸索出"推理"的策略。會把問題拆成小步驟，會來回試錯，會自己找到適合自己的方法。這些策略在之前的訓練方式裡很難教，因為你不知道什麼樣的推理路徑對模型來說是最優的，只能讓它自己透過獎勵優化去發現。關鍵的變化是計算資源的分配。之前的監督微調和RLHF 都是"薄一層"，計算量不大。但RLVR 可以訓練很久，因為獎勵函數是客觀的，不會被鑽空子。結果就是，原本用來預訓練的算力，被RLVR 吃掉了。所以2025 年，模型大小沒怎麼變，但強化學習的時間大幅延長。而且多了一個新的控制旋鈕：測試時計算量。你可以讓模型產生更長的推理過程，增加"思考時間"，來提升能力。 OpenAI 的o1（2024 年底）是第一個RLVR 模型。但o3（2025 年初）才是真正的轉捩點，你能直覺感受到差異。 2. 我們在召喚幽靈，不是養動物 2025 年，Karpathy 說他開始更直觀地理解大模型智能的"形狀"了。他用了一個很有趣的比喻：我們不是在進化動物，是在召喚幽靈。大模型的一切都不一樣，神經網路架構、訓練資料、訓練演算法，尤其是優化壓力。人類的智慧是為了在叢林裡生存優化的。但大模型的智能，是為了模仿人類文本、在數學題裡拿獎勵、在LLM 競技場上獲得人類點讚優化的。所以它們表現出來的能力，特別不均勻，像鋸齒。在可驗證的領域（如數學、程式碼），因為可以用RLVR 訓練，模型的能力會"爆發"。但同時，它也可能是個困惑的小學生，隨時被一個越獄攻擊騙走你的資料。 Karpathy 說，人類的智慧其實也是鋸齒狀的，只是形狀不一樣。他對評測基準失去了信任。核心問題是，基準測試幾乎都是可驗證的環境，所以立刻就會被RLVR 和合成數據產生盯上。實驗室的團隊會在基準測試佔據的嵌入空間附近，建造訓練環境，長出鋸齒來覆蓋它們。在測試集上訓練，已經成了一門新的藝術形式。（諷刺？）他也問了一個很札心的問題：如果在所有基準測試上都拿了高分，但還是沒實現AGI，那會是什麼樣子？ 3. Cursor 讓大家看到了應用層 Cursor 今年火得很快，但Karpathy 覺得更重要的是，它讓人看到了"LLM 應用"這個新層次。人們開始說"Cursor for X"。 Cursor 這類應用做的事情，不只調一次大模型： ① 做上下文工程② 在後台把多個大模型調用串成越來越複雜的DAG（有向無環圖），平衡性能和成本③ 給用戶提供一個針對特定應用的界面④ 提供一個"自主滑動條"，讓你控制它的自由度 2025 年有很多討論，這個應用層到底有多"厚"。大模型實驗室會不會吃掉所有應用程式？還是LLM 應用有自己的生存空間？ Karpathy 的看法是：大模型實驗室會培養出"能力不錯的大學生"。但LLM 應用會把這些大學生組織起來，透過提供私有資料、感測器、執行器和回饋循環，把它們變成特定領域的專業團隊。 4. Claude Code 讓AI 住進了你的電腦 Claude Code 是2025 年第一個讓人信服的"智能體"。它會循環地使用工具和推理，解決複雜問題。但更重要的是，它跑在你的電腦上，用你的私有環境、資料和上下文。 Karpathy 覺得OpenAI 搞錯了方向。他們把Codex 和智能體的精力，都放在從ChatGPT 編排的雲端容器上，而不是localhost。雖然雲端智能體群聽起來像"AGI 的終極形態"，但我們現在生活在一個能力發展不均勻、進展緩慢的中間世界。在這個階段，讓智能體直接在電腦上和開發者並肩工作，更合理。 Claude Code 把這個做成了一個簡潔、優雅的命令列工具，改變了AI 的樣子。它不再只是一個你要去訪問的網站（像Google 那樣），而是一個"住"在你電腦上的小精靈、小幽靈。這是一種和AI 互動的新典範。 5. Vibe Coding 讓程式設計變成了所有人的事 2025 年，AI 跨越了一個能力門檻。你可以用英文描述，就能做出各種複雜的程序，甚至不用管程式碼長什麼樣子。 Karpathy 在一條推文裡隨口說了"Vibe Coding"這個詞，沒想到它傳得這麼遠。 Vibe Coding 讓程式設計不再是專業人士的專利，任何人都可以做。但更重要的是，它讓專業人士也能寫出更多原本不會寫的軟體。 Karpathy 舉了自己的例子。他在nanochat 專案裡，用Rust 寫了一個高效的BPE 分詞器，但他根本不懂那個等級的Rust，全靠Vibe Coding。他也做了許多快速示範專案（menugen、llm-council、reader3、HN time capsule），甚至做了一些一次性的程序，就為了找一個bug。程式碼突然變得免費、短暫、可塑性、用完就丟。 Vibe Coding 會改變軟體的樣子，也會改變工作的定義。 Karpathy 也提到了他之前寫的文章《賦權於民：LLMs 如何顛覆科技擴散》。和之前所有技術不同，一般人從大模型中獲得的利益，遠超專業人士、企業和政府。 6. Nano Banana 是大模型的GUI Google 的Gemini Nano Banana 是2025 年最令人驚訝的模型之一。 Karpathy 覺得，大模型是下一個主要的運算範式，就像1970、80 年代的電腦一樣。所以我們會看到類似的創新，原因也類似。會有個人運算的等價物，會有微控制器（認知核心）的等價物，會有網路（智能體網路）的等價物。在互動介面上，和大模型"聊天"，就像1980 年代在控制台輸命令。文字是電腦和大模型喜歡的原始格式，但不是人喜歡的。人其實不愛讀文字，太慢太累。人喜歡視覺化、空間化的訊息，所以傳統電腦發明了GUI。大模型也應該用我們喜歡的格式說話：圖像、資訊圖表、幻燈片、白板、動畫、影片、網頁應用程式。早期版本是emoji 和Markdown，它們是"裝飾"文字的方式，用標題、粗體、斜體、列表、表格讓資訊更容易消化。但誰會真正建構大模型的GUI？ Nano Banana 是一個早期的提示。重要的是，它不只是生成圖像，而是把文字生成、圖像生成和世界知識，都纏在模型權重裡，形成聯合能力。最後的話 Karpathy 說，2025 年的大模型，既比他預期的聰明很多，又比他預期的笨很多。但它們非常有用，產業連它們10% 的潛力都還沒挖出來。有太多想法可以試，這個領域在概念上還很開放。他在今年的Dwarkesh 播客裡說過一句話，我覺得很有意思：他同時相信兩件看起來矛盾的事，我們會看到快速且持續的進步，但同時還有大量工作要做。坐穩了。

來自向阳乔木（@vista8）的推文串

作者資訊

推文串內容