Tout le monde s'est plaint de l'absence de benchmarks dans la version GPT 5.1 d'hier. Les voici désormais. Notez les régressions mineures dans AIME et Taubench, ce qui renforce l'hypothèse que cette version n'est pas utilisée pour optimiser les performances. Je pense que, de manière plus générale, la communication autour des modèles pour un laboratoire de modélisation d'IA grand public doit être divisée en deux : une pour les personnes ouvertes à l'expérience, une pour les experts techniques. Une pour les débutants, une pour les experts techniques. La grande question est de savoir si l'intelligence artificielle générale (IAG) doit reposer sur un modèle unique. Jusqu'à GPT-5, la réponse était affirmative. Désormais, il semble que nous aurons toujours une distinction entre les utilisateurs lambda et les utilisateurs experts. L'article de blog de @fidjissimo va dans le même sens, bien qu'au niveau du produit.
openai.com/index/gpt-5-1-… cookbook.openai.com/examples/gpt-5… cookbook.openai.com/examples/build… Voici tous les liens vers les plaplatform.openai.com/docs/guides/la…/platform.openai.com/docs/pricing/platform.openai.com/docs/models/Gp…/platform.openai.com/docs/models/Gp…/platform.openai.com/docs/models/Gp…/platform.openai.com/docs/models/Gp…/cookbook.openai.com/examples/gpt-5…/WvTxHIgsQa https://t.co/pnsRaFR5oA https://t.co/RtimCXf3AC https://t.co/0gWnxVtryk https://t.co/uPkxFwfgr9
