X (Twitter)

Sam está extasiado porque el informe de fin de año de OpenAI, GPT 5.2, se publicó oficialmente. No te dejes engañar por su número de versión; esta es la gran sorpresa de OpenAI para fin de año. El posicionamiento oficial es: el modelo más poderoso hasta la fecha para el trabajo profesional del conocimiento. El rendimiento del modelo ha mejorado mucho, pero el precio también ha aumentado significativamente en un 40%. En el contexto de la tendencia general de reducción de costes, un aumento de precio de un modelo generalmente requiere una base sólida. ¿Qué le da confianza a este modelo? Hace un tiempo, OpenAI diseñó GDPval, que está inspirado en el indicador económico clave del Producto Interno Bruto (PIB). Las 1.320 tareas profesionales cubren 44 profesiones cuidadosamente seleccionadas de las 9 principales industrias que contribuyen al PIB de EE. UU. La tarea requiere la presentación de resultados auténticos, como presentaciones de ventas, hojas de cálculo contables, cronogramas de salas de emergencia, diagramas de flujo de fabricación o videos cortos. Cuando se publicó por primera vez GDPval, Claude Opus 4.1 estaba muy por delante, con una puntuación de 47,6. Pero hoy, GPT-5.2 aumentó directamente mi puntuación a más del 70%.

Capacidades de codificación SWE-Bench Pro es una evaluación rigurosa para la ingeniería de software del mundo real. A diferencia de SWE-bench Verified, que solo prueba Python, SWE-Bench Pro prueba cuatro lenguajes y está diseñado para ser más resistente a la contaminación, más desafiante, más diverso y más relevante industrialmente. GPT-5.2 Thinking logró un nuevo rendimiento de última generación del 55,6% en el SWE-Bench Pro, superando el 52% de Claude Opus 4.5 y el 43,3% de Gemini 3 Pro.

GPT-5.2 ha establecido un nuevo punto de referencia en la industria en el campo del razonamiento de contexto largo. La métrica MRCR v2 (resolución de correferencia de múltiples turnos) mide cómo se insertan múltiples solicitudes de usuario "aguja" idénticas en un documento "pajar" largo que consiste en una gran cantidad de solicitudes y respuestas similares, y luego se requiere que el modelo reproduzca la respuesta correspondiente a la nésima "aguja". GPT-5.2 es el primer modelo que logra una precisión cercana al 100 % en variantes MRCR de 4 pines (hasta 256 000 tokens).

Alucinaciones reducidas Otra mejora importante de GPT-5.2 es la reducción significativa de las ilusiones. La tasa de error es un 30 % menor que la de su predecesor. Comprensión visual GPT-5.2 Thinking redujo la tasa de error casi a la mitad en tareas que implican razonamiento diagramático y comprensión de interfaces de software.

Versión estándar: entrada $1,75, salida $14. Versión profesional: entrada $21, salida $168. En general, el precio ha aumentado un 40% en comparación con GPT 5.1. Eso es increíble. Demasiado caro. Las tendencias de IA de este año incluyen aumentos de precios para los modelos de texto (GPT 5.2) y modelos de imagen (Banana Pro). ¿La tendencia de la IA el próximo año será un aumento de precios para los modelos de vídeo?

Hilo de Orange AI (@oran_ge)

Información del autor

Contenido del hilo