tokenbender (@tokenbender): “i told you so” > We were surprised to find that Claude Code with Opu…

"Te lo dije" Nos sorprendió descubrir que Claude Code con Opus 4.5 superó considerablemente al andamio CORE-Agent, incluso sin corregir casos de prueba incorrectos (78 % frente a 42 %). No sabemos con certeza qué causó esta diferencia. Una hipótesis es que la serie de modelos Claude 4.5 está mucho mejor optimizada para funcionar con el Código Claude. Creemos que estudiar el acoplamiento entre modelos y andamios es una dirección de investigación importante para el futuro.

tantas tomas de gigacerebros en ese momento, gente preguntando en publicaciones y discutiendo en GC sobre cuál era la razón. Pero casi 9 meses después, sólo una respuesta gana.

Hilo de tokenbender (@tokenbender)

Información del autor

Contenido del hilo