O que me incomoda nos "Benchmarks de vanguarda" é que muitos deles testam a amplitude do conhecimento (GPQA e HLE) e o viés centrado no ser humano (ARC AGI). Para um modelo pré-treinado, você basicamente testa se os conjuntos de dados relevantes exatos estão incluídos. Diz muito sobre como os humanos enxergam a inteligência.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.