“PROOFGRID, uma nova bateria de tarefas de inferência lógica desafiadoras, porém tratáveis, que constituem um teste independente de domínio para raciocínio baseado em restrições”. Grok 4 é o estado da arte no subconjunto difícil, com uma diferença considerável. @doomslide e @VictorTaelin podem gostar, caso ainda não tenham visto.
Prevejo 0,23 para o Pensamento Kimi se alguém tentar testá-laclanthology.org/2025.findings-…sZ1Z Há muito o que aprender aqui.


