X (Twitter)

¿El "Código Rojo" de OpenAI? GPT-5.2 se lanzó oficialmente, desafiando directamente a Gemini 3 Pro y Claude Opus 4.5. Si GPT-5.1 fue un intento de avanzar hacia una nueva arquitectura, GPT-5.2 es la versión madura y completa que OpenAI ha perfeccionado para recuperar su liderazgo. Ya no se centra únicamente en capacidades de chat generales, sino que se centra en la fiabilidad del trabajo de conocimiento de nivel profesional y de los agentes inteligentes de largo alcance. Posicionamiento central: De "chatbot" a "colega experto" El cambio más significativo en GPT-5.2 es la introducción de tres versiones muy específicas, que intentan cubrir todos los escenarios de trabajo: • GPT-5.2 Instant: extremadamente receptivo, maneja recuperación de información diaria y tareas livianas, heredando el estilo conversacional de alto EQ de 5.1. • Pensamiento GPT-5.2: Este es el núcleo de esta actualización. Introduce cadenas de razonamiento lógico más profundas, diseñadas específicamente para resolver problemas complejos de procesamiento de hojas de cálculo, modelado financiero y toma de decisiones de varios pasos. • GPT-5.2 Pro: La versión más potente y costosa, utilizada para manejar problemas de investigación científica o toma de decisiones altamente difíciles que "valen la pena esperar". Avance clave en la capacidad: Alcanzando el límite del razonamiento lógico: En la prueba AIME 2025, GPT-5.2 obtuvo una puntuación perfecta del 100 % (en comparación con el 94 % de GPT-5.1) sin necesidad de herramientas externas. Esto significa que los modelos grandes ahora pueden resolver problemas competitivos de nivel humano en lógica matemática sin errores. Contexto ultralargo casi perfecto: En pruebas con textos ultralargos que contenían 256 000 tokens, logró una precisión cercana al 100 % en la búsqueda de detalles, similar a encontrar una aguja en un pajar. Esto significa que puede comprender realmente cientos de páginas de informes financieros o documentos técnicos, no solo resumir la esencia. • La tasa de reemplazo de empleo se dispara: OpenAI introdujo una nueva métrica, GDPval. GPT-5.2 superó o igualó a los expertos humanos en el 70,9 % de las tareas, en comparación con solo el 38,8 % del GPT-5 anterior. Una comparación horizontal de los tres gigantes: la batalla invernal de 2025. El campo actual de la IA presenta una clara situación de "tres patas", donde cada uno de los tres modelos tiene sus propias fortalezas. Ya no es una era en la que un solo modelo pueda aplastar por completo a la competencia. Comparación con Gemini 3 Pro • Multimodal: El Gemini 3 Pro sigue siendo el rey. Google, aprovechando la amplia experiencia de DeepMind, ha creado una barrera formidable en la comprensión visual. El Gemini 3 Pro obtiene una puntuación del 81,0 % en MMMU-Pro. En particular, en la comprensión de vídeo (como en la prueba YouCook2), el Gemini 3 Pro supera con creces la serie GPT con una alta puntuación de 222,7. Si necesita procesar transmisiones de vídeo o realizar razonamiento espacial complejo, el Gemini 3 Pro sigue siendo la mejor opción. • Experiencia general: La ventaja de Gemini 3 Pro radica en la suavidad que brinda la tecnología "multimodal nativa", mientras que GPT-5.2 compensa la brecha en la percepción mediante un "razonamiento lógico de texto" extremo, intentando procesar la información con un cerebro más inteligente. Contra Claude Opus 4.5 • Código y agentes: La batalla está en un punto muerto. Claude Opus 4.5 era conocido anteriormente por la fiabilidad de sus agentes, especialmente en la prueba de banco SWE, donde fue aclamado como el mejor compañero de programación en pareja por los programadores. Contraataque de GPT-5.2: GPT-5.2 se centra en optimizar la invocación de herramientas y la ejecución multipaso, aprovechando explícitamente las fortalezas de Claude. GPT-5.2 afirma una reducción del 30 % en las tasas de error al gestionar proyectos complejos con múltiples pasos y en múltiples documentos. Para los desarrolladores, la facilidad de uso de Claude y la lógica rigurosa de GPT-5.2 se convertirán en dos estilos de elección diferentes. Presentación oficial de OpenAI

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo