“我早就告诉过你了” > 我们惊讶地发现,即使没有修复错误的测试用例,使用 Opus 4.5 的 Claude Code 的性能也明显优于 CORE-Agent 支架(78% 对 42%)。 我们尚不确定造成这种差异的原因。一种假设是,Claude 4.5 系列模型针对 Claude Code 进行了更佳的适配。 我们认为,研究模型与支架之间的耦合关系是未来重要的研究方向。
当时有很多高见,人们在帖子中询问原因,在群聊中讨论原因。 但将近9个月后,只有一个答案胜出。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月5日 04:42
“我早就告诉过你了” > 我们惊讶地发现,即使没有修复错误的测试用例,使用 Opus 4.5 的 Claude Code 的性能也明显优于 CORE-Agent 支架(78% 对 42%)。 我们尚不确定造成这种差异的原因。一种假设是,Claude 4.5 系列模型针对 Claude Code 进行了更佳的适配。 我们认为,研究模型与支架之间的耦合关系是未来重要的研究方向。
当时有很多高见,人们在帖子中询问原因,在群聊中讨论原因。 但将近9个月后,只有一个答案胜出。