X (Twitter)

“我早就告诉过你了” > 我们惊讶地发现，即使没有修复错误的测试用例，使用 Opus 4.5 的 Claude Code 的性能也明显优于 CORE-Agent 支架（78% 对 42%）。我们尚不确定造成这种差异的原因。一种假设是，Claude 4.5 系列模型针对 Claude Code 进行了更佳的适配。我们认为，研究模型与支架之间的耦合关系是未来重要的研究方向。

当时有很多高见，人们在帖子中询问原因，在群聊中讨论原因。但将近9个月后，只有一个答案胜出。

来自 tokenbender（@tokenbender）的推文线程

作者信息

线程正文