「そう言ったでしょ」 > 誤ったテストケースを修正しなくても、Claude Code と Opus 4.5 のパフォーマンスが CORE-Agent スキャフォールドを大幅に上回ったことに驚きました (78% 対 42%)。 > この違いの原因は不明です。一つの仮説としては、Claude 4.5シリーズのモデルがClaude Codeでの動作に最適化されているのではないかと考えられます。 > モデルと足場の結合を研究することは、今後の重要な研究方向であると考えています。
当時は非常に多くのギガブレインな見解があり、人々は投稿で質問し、GCでその理由について議論していました。 しかし、約 9 か月後、勝利を収めたのは 1 つの回答だけです。
