Nos casos em que eu estava ligeiramente certo em comparação com Chris: “GPQA diamante 90,8% - com Python” – não, 92% sem ferramentas, mais ou menos como eu esperava. Na maioria das vezes, eles relatam não ter ferramentas, então é difícil avaliar o teto. É uma pequena mudança para o setor. Prevejo que ficaremos surpresos com sua visão.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.