PROOFGRID est une nouvelle série de tâches d'inférence logique complexes mais réalisables, constituant un test indépendant du domaine pour le raisonnement par contraintes. Grok 4 est la référence sur le sous-ensemble difficile, avec une avance significative. @doomslide et @VictorTaelin pourraient bien aimer, s'ils ne l'ont pas déjà vu.
Je prévois un score de 0,23 pour Kimi-Thinking si quelqu'un aclanthology.org/2025.findings-…tps://t.co/nyEDiQsZ1Z Il y a beaucoup de choses à apprendre ici.


