X (Twitter)

AI “一鍵生成”全端應用的終極考場“App-Bench”，Orchids 排名榜首，Claude Code 第二，Cursor 第八，Lovable 第九，Gemini CLI 零分？ App-Bench 是一個高難度基準測試框架，它的核心目標非常明確：評估AI 程式設計智能體是否具備僅憑一句自然語言提示詞，在零人工幹預的情況下，產生完整、可用的現代Web 應用程式的能力。評測核心：從“寫程式”到“做產品” App-Bench 不再滿足於測試AI 寫入函數片段的能力，而是檢視其建構全端應用的綜合實力。這些應用必須包含真實軟體的核心特徵： · 整合AI 助理· 即時資料同步· 多用戶角色邏輯· 自動化觸發器與鑑權流程六大高難度測試場景為了模擬真實的經濟價值，App-Bench 選取了6 個不同領域的複雜應用程式進行測試： · 金融儀錶板：類似彭博終端，含即時股價、互動圖表、AI 諮詢及即時論壇。 · 醫院管理看板：涉及醫生/護士/管理員多角色，需處理床位狀態、急救警報及即時通訊。 · 法律助理：基於RAG 的文件庫，支援語音聽寫和文件引用。 · 藥局系統：連結病患與藥師，處理庫存、訂單及私密消息。 · 你畫我猜遊戲：多人線上遊戲，需解決回合製邏輯、畫布即時同步和回放功能。 · 租賃預訂平台：類似Airbnb，包含搜尋過濾、付款流程及媒體上傳。嚴謹的評分方法· 評分者：資深全端開發人員人工評分，非機器自動評分。 · 規模：涵蓋151 個評分細項，累計進行了4,530 次評估。 · 機制：每個工具給三次機會，取最好的一次成績。關鍵發現與洞察· 產業現況：即使是頂尖工具也無法完美通關。目前表現最好的工具也僅涵蓋了約77% 的必要功能，大多數工具在複雜任務（如多角色互動、複雜UI邏輯）上有顯著缺口。 · 工具形態比較： Web 端產生器的平均表現略優於命令列工具。 Web 工具在處理身分驗證和基礎UI 框架時更穩定，而CLI 工具的表現波動較大。 · 主要敗因：功能缺失、多角色流程中斷、API 過期導致的執行階段錯誤，以及影響可用性的UI/UX 問題。性能排行榜（Top 10） 1. Orchids 76.8% 2. Claude Code 67.5% 3. v0 (Vercel) 64.9% 4. Bolt 53.6% 5. Google AI Studio 50.3% 6. Codex 38.4% 7. Replit 35.1% 8. Cursor 27.8% 9. Lovable 25.8% 10. Gemini CLI 0.0% 造訪網站

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文