J'ai récemment mené une petite expérience en utilisant un lot de données médicales réelles. Le résultat fut quelque peu inattendu. Gemini 3 Pro en premier, Qwen en deuxième, ChatGPT 5.1 en troisième. Je ne m'étendrai pas sur le reste. Ces données proviennent de scénarios de consultation médicale réels : Le patient décrit lui-même sa plainte, et la conclusion du médecin constitue le diagnostic et le traitement effectifs à ce moment-là. Nous avons laissé le modèle effectuer le diagnostic, puis nous l'avons comparé à la pratique d'un vrai médecin. Ce que j'essaie de dire, c'est que certaines aptitudes ne peuvent pas être déterminées simplement par la vitesse d'exécution d'un test de performance. De nombreuses personnes ont désormais l'impression que tous les grands modèles se ressemblent plus ou moins. Mais pourvu que l'on obtienne un monde à la fois réaliste et suffisamment ambigu... Les différences sont en réalité amplifiées. Le monde réel est toujours le terrain d'expérimentation le plus impitoyable.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.