X (Twitter)

Devin 2025 年度績效評估 @cognition 團隊對自家AI Software Engineer“Devin”發布18個月後的正式“年終總結”。沒有打A、B、C 等級，而是用更務實的態度，把它在真實企業環境中的真實表現、優勢、短板和數據全部攤開來說，相當於給一個「非人類工程師」做了最坦誠的績效面談。 Devin 目前的真實定位 Devin 並不是一個均衡的全能工程師，而是一個能力極度不均衡的混合體： · 在理解程式碼庫、做規劃、寫文件、回答複雜問題等「腦力」層面，已經達到資深工程師水準； · 在實際動手、獨立決策、處理模糊需求等「執行力」層面，目前仍相當於一個初級工程師； · 但它擁有人類永遠無法企及的超級能力：無限並行、無限耐心、永不疲倦、可以同時開幾百個任務。 2025 年最成熟、最具商業價值的用法 Devin 最擅長的是「需求明確、可自動驗證、人類覺得枯燥」的4-8 小時等級任務。這類任務它可以無限量吃掉，真正實現了「把人從重複勞動中解放」。真實客戶案例與效率提升包括： · 修正靜態分析工具所提出的安全漏洞：平均1.5 分鐘修復一個（人類通常需要30 分鐘），效率提升20 倍。某大型金融機構因此節省了整個開發團隊5-10% 的人力。 · 大型遺留系統語言/框架遷移：每個倉庫的遷移時間只有人類的1/10 到1/14。大型銀行用Devin 遷移了數十萬份遺留ETL 腳本、完成Java 版本批量升級。 · 自動產生單元測試：把測試覆蓋率從50-60% 提升到80-90%，大量覆蓋數百個倉庫。 · 棕地專案中的中小功能開發：Devin 已經為Cognition 自己的Web 應用貢獻了大約1/3 的程式碼提交。 · 數據分析與QA：睡眠科技公司EightSleep 的數據相關功能交付速度提升3 倍；法律科技公司Litera 的回歸測試週期縮短93%。 2025 年關鍵資料進步： · Pull Request 合併率從去年的34% 提升到67%； · 解決問題速度提升4 倍，同時資源消耗降低50%； · 已經成功合併了數十萬個PR。另一個被低估的超能力：隨時待命的“資深智腦” Devin 在程式碼庫理解上的進步遠遠超過大多數人的想像： · 可以幾分鐘內讀完500 萬行COBOL 程式碼或500GB 的龐大倉庫，然後DeepWiki 自動產生並持續更新完整的技術文件和系統架構圖。 · 某銀行直接把好幾個整建制的文檔團隊解放出來，去開發新功能。 · 工程師只需15 分鐘就能讓Devin 輸出一個複雜專案的初步架構方案供團隊討論。目前三大真實短板（官方毫不掩飾） 1. 模糊需求下的端到端獨立執行能力仍弱必須給予它非常明確的規格說明，尤其在UI、視覺設計等主觀領域。如果需求模糊或無法自動驗證，它還是會頻繁出錯。 2. 任務中途需求頻繁變更時表現會變差和人類初級工程師不一樣，Devin 不擅長「邊做邊聊邊改」。一旦任務啟動，中間不斷追加需求反而容易把事情搞得一團糟。這要求人類使用者學會「一次性把需求說全說清」。 3. 軟技能完全為零它不會帶團隊、不會處理情緒、不會做一對一導師、不會組織團建……但它永遠友好、永遠耐心、永遠秒回訊息。 2026 年的重點改進方向· 持續提升對真實世界超級複雜程式碼庫的理解能力； · 顯著提升端對端複雜任務與人類的協作能力； · 改進人機互動體驗，讓工程師指揮Devin 更順手。總結與核心結論 Devin 2025 年的真實定位不是“取代高級工程師”，而是：把所有最枯燥、最重複、最高並行度的初級工作全部吃光，把人類工程師的時間從“20% 寫代碼+ 80% 雜事”重新拉回到“70-80% 寫代碼+ 高價值設計”。部落格地址

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容