X (Twitter)

Andrej Karpathy 分享了他2025 年的總結關於訓練範式的變化、benchmark 的失效、Cursor、Claude Code、VibeCoding、LLMGUI 1. RLVR RLVR成為繼Pretraining、Supervised Finetuning、RLHF之後的新訓練階段。透過在數學/程式碼等可驗證環境中訓練，LLM自發性習得推理策略，學會分解問題和多步驟求解。與傳統微調不同，RLVR允許長時間優化，提供高能力/成本比，吞噬了原本用於預訓練的算力。 2025年能力進步主要來自更長的RL運行。 2. Ghosts vs. Animals LLM的最佳化目標與人類神經網路截然不同，造就了鋸齒狀智能，既是天才博學者又是易受騙的小學生。 RLVR導致LLM在可驗證領域能力飆升但整體參差不齊。 Benchmark因可驗證性易被針對優化，"在測試集上訓練"成新藝術。 3. Cursor Cursor揭示LLM應用的新形態：為垂直領域編排多個LLM調用，進行context engineering，提供專用GUI和自主性滑桿。爭議在於這個應用層有多"厚"。他認為LLM實驗室培養通用人才，而LLM應用透過私有數據、感測器和回饋將其激活為特定領域的專業團隊。 4. Claude Code Claude Code是LLM Agent的首個成功展示，循環串聯工具使用和推理。關鍵是它運行在本地電腦而非雲端。 OpenAI錯將agent部署在雲端容器中，但在能力參差的過渡期，本地運作與開發者合作更合理。 CC以CLI形式呈現，讓AI從網站變成"生活"在電腦上的精靈，這是全新互動範式。 5. Vibe coding將改造軟體並改變職位描述 Vibe coding讓程式設計不再是專業人士專屬，一般人也能使用。它也讓專業人士編寫更多原本不會寫的軟體，程式碼變得免費、暫時、可丟棄。 6. Nano banana / LLM GUI Nano banana預示LLM GUI雛形。正如電腦從命令行演進到GUI，LLM也應從純文字聊天進化到視覺輸出。人們不喜歡讀文本，它緩慢費力。 Nano banana展示了文字生成、圖像生成和世界知識融合的聯合能力。

來自歸藏(guizang.ai)（@op7418）的推文串

作者資訊

推文串內容