PROOFGRID es una nueva batería de tareas de inferencia lógica desafiantes pero abordables que constituyen una prueba independiente del dominio para el razonamiento basado en restricciones. Grok 4 es el estado del arte en el subconjunto difícil, con una brecha considerable. A @doomslide y a @VictorTaelin puede que les guste si aún no lo han visto.
Predigo un resultado de 0.23 para Kimi-Thinking si alguien iaclanthology.org/2025.findings-…://t.co/nyEDiQsZ1Z Hay muchas cosas que aprender aquí.


