C'est un profil de compétences… intéressant. En dessous de DSV3.2 sur HLE, MMLU-Pro, et quelques autres, nettement plus performant sur les éléments d'agent, domine tout le monde sur SimpleQA… Et puis il y a toute cette multimodalité, même parité avec Veo3. J'ai l'impression qu'il est très grand et sous-entraîné.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.