E isso provavelmente marca o fim da era do PutnamBench nos LLMs de matemática. Agora, para desenvolver avaliações melhores e mais diversificadas, não vejo uma alternativa aos benchmarks sintéticos, e isso será difícil.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.