Não quero desmerecer o trabalho de ninguém, mas alguém pode me explicar como um modelo consegue uma pontuação acima de 50% na última prova de humanidade e ainda assim errar TODAS as minhas questões de cálculo lambda, incluindo as mais fáceis que até o gpt-oss acerta?
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.