X (Twitter)

使用 @cline 的 Gemini 3 Pro 初体验一开始效果很好，但超过 10 万个 token 后准确率迅速下降。就我所处理的代码库规模而言，这几乎就是读取完成任务所需信息后加载的 token 数量，因此可以明显看出，该模型在几乎所有任务中都难以关注细节。在处理超过 20 万个令牌后，程序似乎会出错，然后提前退出并执行“完成”操作，导致未完成的任务几乎必须回滚或由新的代理接管并重试（费用很高）。它适合一次性完成小型任务，或许也能为小型项目提供一些帮助，但如果需要更经济高效的企业级解决方案，我仍然会推荐 Claude Code 或 Codex 的 AYCE 套餐。我今天试用了 @antigravity，但它存在一些与配额跟踪和 VSCode 迁移相关的问题，所以需要等几天，等这些问题都解决后再试用。他们可能有一个能更好地利用上下文的代码代理，类似于 Codex 如何更有效地利用 GPT-5.1。总体而言：它仍然是一个低级模型（LLM），在小型项目和演示中你会看到一些改进，但在大规模代码上，其局限性依然存在。与 GPT-5.1 和 Claude Sonnet 4.5 在大型代码库上的表现相比，它大致相同，或者根据功能实现和重构任务的不同，其性能可能略逊一筹。

来自 Damian Tran（@damianvtran）的推文线程

作者信息

线程正文