"PROOFGRID는 제약 조건 기반 추론에 대한 영역 독립적인 테스트를 구성하는, 까다롭지만 다루기 쉬운 논리적 추론 과제들로 구성된 새로운 배터리입니다." Grok 4는 어려운 하위 집합에서 SOTA 수준이며, 적절한 격차를 보입니다. @doomslide와 @VictorTaelin은 아직 보지 않았다면 좋아할지도 모릅니다.
누군가 Kimi-Thinking을 테스트하려고 하면 0.23이 나올 것으로 예상합니다. https://t.aclanthology.org/2025.findings-…이 많아요


