“我早就告訴過你了” > 我們驚訝地發現,即使沒有修復錯誤的測試案例,使用 Opus 4.5 的 Claude Code 的性能也明顯優於 CORE-Agent 支架(78% 對 42%)。 我們尚不確定造成這種差異的原因。一種假設是,Claude 4.5 系列車型針對 Claude Code 進行了更佳的適配。 我們認為,研究模型與支架之間的耦合關係是未來重要的研究方向。
當時有很多高見,人們在貼文中詢問原因,在群組聊天中討論原因。 但將近9個月後,只有一個答案勝出。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年12月5日 凌晨4:42
“我早就告訴過你了” > 我們驚訝地發現,即使沒有修復錯誤的測試案例,使用 Opus 4.5 的 Claude Code 的性能也明顯優於 CORE-Agent 支架(78% 對 42%)。 我們尚不確定造成這種差異的原因。一種假設是,Claude 4.5 系列車型針對 Claude Code 進行了更佳的適配。 我們認為,研究模型與支架之間的耦合關係是未來重要的研究方向。
當時有很多高見,人們在貼文中詢問原因,在群組聊天中討論原因。 但將近9個月後,只有一個答案勝出。