Là où j'ai eu légèrement raison par rapport à Chris : « GPQA diamant 90,8 % - avec Python » – non, 92 % sans outils, comme prévu. La plupart du temps, ils signalent l'absence d'outils, il est donc difficile de se prononcer sur le plafond. C'est un petit pas en avant pour le secteur. Je m'attends à ce que sa vision nous surprenne.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.