Les performances sont solides dans tous les domaines : 55,6 % sur SWE-Bench Pro, 52,9 % sur ARC-AGI-2, 40,3 % sur Frontier Math.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.