X (Twitter)

使用 @cline 的 Gemini 3 Pro 初步體驗一開始效果很好，但超過 10 萬個 token 後準確率迅速下降。就我所處理的程式碼庫規模而言，這幾乎就是讀取完成任務所需資訊後加載的 token 數量，因此可以明顯看出，該模型在幾乎所有任務中都難以關注細節。在處理超過 20 萬個令牌後，程式似乎會出錯，然後提前退出並執行「完成」操作，導致未完成的任務幾乎必須回滾或由新的代理接管並重試（費用很高）。它適合一次性完成小型任務，或許也能為小型專案提供一些幫助，但如果需要更經濟高效的企業級解決方案，我仍然會推薦 Claude Code 或 Codex 的 AYCE 套餐。我今天試用了 @antigravity，但它存在一些與配額追蹤和 VSCode 遷移相關的問題，所以需要等幾天，等這些問題都解決後再試用。他們可能有一個能更好地利用上下文的代碼代理，類似於 Codex 如何更有效地利用 GPT-5.1。總體而言：它仍然是一個低階模型（LLM），在小型專案和演示中你會看到一些改進，但在大規模程式碼上，其限制仍然存在。與 GPT-5.1 和 Claude Sonnet 4.5 在大型程式碼庫上的表現相比，它大致相同，或者根據功能實現和重構任務的不同，其性能可能略遜一籌。

來自 Damian Tran（@damianvtran）的推文串

作者資訊

推文串內容