Todos se quejaron de que la versión GPT 5.1 de ayer no incluía pruebas de rendimiento. Ahora ya las tienen. Se observan pequeñas regresiones en AIME y Taubench, lo que refuerza la confianza en que no se trata de una optimización excesiva de las pruebas de rendimiento. Creo que, en general, la comunicación de modelos para un laboratorio de modelos de IA de consumo debe dividirse en dos: una para gente con buena onda y otra para expertos. Una para gente divertida y otra para gente con mucha energía. La gran pregunta es si la Inteligencia Artificial General (IAG) debería basarse en un modelo único para todos los casos. Hasta la llegada de GPT-5, la respuesta era afirmativa. Ahora, parece que siempre tendremos cinco modelos estándar y cinco modelos de códice. La entrada del blog de @fidjissimo sugiere lo mismo, aunque a nivel de producto.
openai.com/index/gpt-5-1-… cookbook.openai.com/examples/gpt-5… cookbook.openai.com/examples/build… Estos son todos los enlaces de laplatform.openai.com/docs/guides/la…cplatform.openai.com/docs/pricingcplatform.openai.com/docs/models/Gp…cplatform.openai.com/docs/models/Gp…cplatform.openai.com/docs/models/Gp…cplatform.openai.com/docs/models/Gp…ccookbook.openai.com/examples/gpt-5…co/WvTxHIgsQa https://t.co/pnsRaFR5oA https://t.co/RtimCXf3AC https://t.co/0gWnxVtryk https://t.co/uPkxFwfgr9
