Andrej Karpathy 分享了他2025 年的總結 關於訓練範式的變化、benchmark 的失效、Cursor、Claude Code、VibeCoding、LLMGUI 1. RLVR RLVR成為繼Pretraining、Supervised Finetuning、RLHF之後的新訓練階段。透過在數學/程式碼等可驗證環境中訓練,LLM自發性習得推理策略,學會分解問題和多步驟求解。與傳統微調不同,RLVR允許長時間優化,提供高能力/成本比,吞噬了原本用於預訓練的算力。 2025年能力進步主要來自更長的RL運行。 2. Ghosts vs. Animals LLM的最佳化目標與人類神經網路截然不同,造就了鋸齒狀智能,既是天才博學者又是易受騙的小學生。 RLVR導致LLM在可驗證領域能力飆升但整體參差不齊。 Benchmark因可驗證性易被針對優化,"在測試集上訓練"成新藝術。 3. Cursor Cursor揭示LLM應用的新形態:為垂直領域編排多個LLM調用,進行context engineering,提供專用GUI和自主性滑桿。爭議在於這個應用層有多"厚"。他認為LLM實驗室培養通用人才,而LLM應用透過私有數據、感測器和回饋將其激活為特定領域的專業團隊。 4. Claude Code Claude Code是LLM Agent的首個成功展示,循環串聯工具使用和推理。關鍵是它運行在本地電腦而非雲端。 OpenAI錯將agent部署在雲端容器中,但在能力參差的過渡期,本地運作與開發者合作更合理。 CC以CLI形式呈現,讓AI從網站變成"生活"在電腦上的精靈,這是全新互動範式。 5. Vibe coding將改造軟體並改變職位描述 Vibe coding讓程式設計不再是專業人士專屬,一般人也能使用。它也讓專業人士編寫更多原本不會寫的軟體,程式碼變得免費、暫時、可丟棄。 6. Nano banana / LLM GUI Nano banana預示LLM GUI雛形。正如電腦從命令行演進到GUI,LLM也應從純文字聊天進化到視覺輸出。人們不喜歡讀文本,它緩慢費力。 Nano banana展示了文字生成、圖像生成和世界知識融合的聯合能力。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
