相信很多人都翻譯或總結AK的2025總結了。 為自己學習,再重寫排版一遍,推薦看原文。 --- Andrej Karpathy 寫了一篇2025 年LLM 回顧,列了六個他覺得"改變格局"的事。 1. 強化學習找到了新玩法 以前訓練大模型,就三步: ① 預訓練(2020 年的GPT-2/3 那套) ② 監督微調(2022 年的InstructGPT) ④ 人類回饋強化學習(RLHF,也是2022 年)。 這個配方穩定了好幾年。 2025 年多了第四步,RLVR(可驗證獎勵強化學習)。 讓模型去解數學題、寫程式這類有標準答案的問題,它會自己摸索出"推理"的策略。 會把問題拆成小步驟,會來回試錯,會自己找到適合自己的方法。 這些策略在之前的訓練方式裡很難教,因為你不知道什麼樣的推理路徑對模型來說是最優的,只能讓它自己透過獎勵優化去發現。 關鍵的變化是計算資源的分配。 之前的監督微調和RLHF 都是"薄一層",計算量不大。 但RLVR 可以訓練很久,因為獎勵函數是客觀的,不會被鑽空子。 結果就是,原本用來預訓練的算力,被RLVR 吃掉了。 所以2025 年,模型大小沒怎麼變,但強化學習的時間大幅延長。 而且多了一個新的控制旋鈕:測試時計算量。 你可以讓模型產生更長的推理過程,增加"思考時間",來提升能力。 OpenAI 的o1(2024 年底)是第一個RLVR 模型。 但o3(2025 年初)才是真正的轉捩點,你能直覺感受到差異。 2. 我們在召喚幽靈,不是養動物 2025 年,Karpathy 說他開始更直觀地理解大模型智能的"形狀"了。 他用了一個很有趣的比喻:我們不是在進化動物,是在召喚幽靈。 大模型的一切都不一樣,神經網路架構、訓練資料、訓練演算法,尤其是優化壓力。 人類的智慧是為了在叢林裡生存優化的。 但大模型的智能,是為了模仿人類文本、在數學題裡拿獎勵、在LLM 競技場上獲得人類點讚優化的。 所以它們表現出來的能力,特別不均勻,像鋸齒。 在可驗證的領域(如數學、程式碼),因為可以用RLVR 訓練,模型的能力會"爆發"。 但同時,它也可能是個困惑的小學生,隨時被一個越獄攻擊騙走你的資料。 Karpathy 說,人類的智慧其實也是鋸齒狀的,只是形狀不一樣。 他對評測基準失去了信任。 核心問題是,基準測試幾乎都是可驗證的環境,所以立刻就會被RLVR 和合成數據產生盯上。 實驗室的團隊會在基準測試佔據的嵌入空間附近,建造訓練環境,長出鋸齒來覆蓋它們。 在測試集上訓練,已經成了一門新的藝術形式。 (諷刺?) 他也問了一個很札心的問題:如果在所有基準測試上都拿了高分,但還是沒實現AGI,那會是什麼樣子? 3. Cursor 讓大家看到了應用層 Cursor 今年火得很快,但Karpathy 覺得更重要的是,它讓人看到了"LLM 應用"這個新層次。 人們開始說"Cursor for X"。 Cursor 這類應用做的事情,不只調一次大模型: ① 做上下文工程② 在後台把多個大模型調用串成越來越複雜的DAG(有向無環圖),平衡性能和成本③ 給用戶提供一個針對特定應用的界面④ 提供一個"自主滑動條",讓你控制它的自由度 2025 年有很多討論,這個應用層到底有多"厚"。 大模型實驗室會不會吃掉所有應用程式?還是LLM 應用有自己的生存空間? Karpathy 的看法是: 大模型實驗室會培養出"能力不錯的大學生"。 但LLM 應用會把這些大學生組織起來,透過提供私有資料、感測器、執行器和回饋循環,把它們變成特定領域的專業團隊。 4. Claude Code 讓AI 住進了你的電腦 Claude Code 是2025 年第一個讓人信服的"智能體"。 它會循環地使用工具和推理,解決複雜問題。 但更重要的是,它跑在你的電腦上,用你的私有環境、資料和上下文。 Karpathy 覺得OpenAI 搞錯了方向。 他們把Codex 和智能體的精力,都放在從ChatGPT 編排的雲端容器上,而不是localhost。 雖然雲端智能體群聽起來像"AGI 的終極形態",但我們現在生活在一個能力發展不均勻、進展緩慢的中間世界。 在這個階段,讓智能體直接在電腦上和開發者並肩工作,更合理。 Claude Code 把這個做成了一個簡潔、優雅的命令列工具,改變了AI 的樣子。 它不再只是一個你要去訪問的網站(像Google 那樣),而是一個"住"在你電腦上的小精靈、小幽靈。 這是一種和AI 互動的新典範。 5. Vibe Coding 讓程式設計變成了所有人的事 2025 年,AI 跨越了一個能力門檻。 你可以用英文描述,就能做出各種複雜的程序,甚至不用管程式碼長什麼樣子。 Karpathy 在一條推文裡隨口說了"Vibe Coding"這個詞,沒想到它傳得這麼遠。 Vibe Coding 讓程式設計不再是專業人士的專利,任何人都可以做。 但更重要的是,它讓專業人士也能寫出更多原本不會寫的軟體。 Karpathy 舉了自己的例子。 他在nanochat 專案裡,用Rust 寫了一個高效的BPE 分詞器,但他根本不懂那個等級的Rust,全靠Vibe Coding。 他也做了許多快速示範專案(menugen、llm-council、reader3、HN time capsule),甚至做了一些一次性的程序,就為了找一個bug。 程式碼突然變得免費、短暫、可塑性、用完就丟。 Vibe Coding 會改變軟體的樣子,也會改變工作的定義。 Karpathy 也提到了他之前寫的文章《賦權於民:LLMs 如何顛覆科技擴散》。 和之前所有技術不同,一般人從大模型中獲得的利益,遠超專業人士、企業和政府。 6. Nano Banana 是大模型的GUI Google 的Gemini Nano Banana 是2025 年最令人驚訝的模型之一。 Karpathy 覺得,大模型是下一個主要的運算範式,就像1970、80 年代的電腦一樣。 所以我們會看到類似的創新,原因也類似。 會有個人運算的等價物,會有微控制器(認知核心)的等價物,會有網路(智能體網路)的等價物。 在互動介面上,和大模型"聊天",就像1980 年代在控制台輸命令。 文字是電腦和大模型喜歡的原始格式,但不是人喜歡的。 人其實不愛讀文字,太慢太累。 人喜歡視覺化、空間化的訊息,所以傳統電腦發明了GUI。 大模型也應該用我們喜歡的格式說話:圖像、資訊圖表、幻燈片、白板、動畫、影片、網頁應用程式。 早期版本是emoji 和Markdown,它們是"裝飾"文字的方式,用標題、粗體、斜體、列表、表格讓資訊更容易消化。 但誰會真正建構大模型的GUI? Nano Banana 是一個早期的提示。 重要的是,它不只是生成圖像,而是把文字生成、圖像生成和世界知識,都纏在模型權重裡,形成聯合能力。 最後的話 Karpathy 說,2025 年的大模型,既比他預期的聰明很多,又比他預期的笨很多。 但它們非常有用,產業連它們10% 的潛力都還沒挖出來。 有太多想法可以試,這個領域在概念上還很開放。 他在今年的Dwarkesh 播客裡說過一句話,我覺得很有意思:他同時相信兩件看起來矛盾的事,我們會看到快速且持續的進步,但同時還有大量工作要做。 坐穩了。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。