Você pode reaproveitar benchmarks quase saturados usando uma taxa de erro inversa limitada. Ou usar uma fórmula mais fundamentada. Na verdade, acho que isso é ainda mais valioso do que benchmarks mais rigorosos. Imagine uma expansão do AIME-Pro com 1000 itens que permita visualizar a confiabilidade do modelo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

