“Eu te avisei” > Ficamos surpresos ao descobrir que o Claude Code com Opus 4.5 superou drasticamente o framework CORE-Agent, mesmo sem corrigir casos de teste incorretos (78% contra 42%). Não temos certeza do que levou a essa diferença. Uma hipótese é que a série de modelos Claude 4.5 esteja muito mais bem ajustada para funcionar com o código Claude. Acreditamos que estudar a interação entre modelos e estruturas de suporte seja uma importante direção de pesquisa para o futuro.
Naquela época, havia muitas opiniões absurdas, pessoas perguntando em posts e discutindo em grupos de conversa sobre o motivo. Mas quase 9 meses depois, apenas uma resposta prevalece.
