X (Twitter)

"내가 그랬잖아" > 우리는 Opus 4.5를 사용한 Claude Code가 잘못된 테스트 케이스를 수정하지 않고도 CORE-Agent 스캐폴드보다 훨씬 더 나은 성능을 보였다는 사실에 놀랐습니다(78% 대 42%). > 이러한 차이가 발생한 원인은 확실하지 않습니다. 한 가지 가설은 Claude 4.5 시리즈 모델이 Claude Code에 훨씬 더 잘 맞춰져 있다는 것입니다. > 우리는 모델과 스캐폴드 간의 결합을 연구하는 것이 앞으로의 중요한 연구 방향이라고 생각합니다.

그 당시에는 엄청난 양의 기가브레인 테이크가 있었고, 사람들은 게시물로 묻고 GC에서 이유가 무엇인지 논의했습니다. 하지만 거의 9개월이 지난 지금, 승리한 답은 단 하나뿐이다.

tokenbender(@tokenbender)의 스레드

작성자 정보

스레드 내용