O desempenho é excelente em todos os quesitos: 55,6% no SWE-Bench Pro, 52,9% no ARC-AGI-2 e 40,3% no Frontier Math.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.