X (Twitter)

Análisis completo del modelo GPT-5.2: optimizado para profesionales Habilidades de oficina mejoradas El modo para adultos se lanzará el próximo año En su introducción oficial, OpenAI se refiere a GPT-5.2 de la siguiente manera: "Construido para el trabajo del conocimiento." En la prueba GDPval (que cubre 44 tareas ocupacionales profesionales), GPT-5.2 Thinking obtuvo una puntuación tan alta como 70,9%, lo que significa que puede rivalizar con los expertos de la industria en la mayoría de los trabajos basados en el conocimiento. ¿Qué puede hacer? ✅ Crear un modelo financiero completo ✅ Diseña una presentación PPT empresarial bien estructurada ✅ Redacción de informes de análisis y recomendaciones de inversión ✅ Analizar documentos de datos complejos que abarcan docenas de páginas En términos de velocidad: completa tareas 11 veces más rápido que los expertos humanos, pero a sólo el 1% del coste. 💡 Los datos oficiales muestran que los usuarios empresariales de ChatGPT ahorran un promedio de 40 a 60 minutos por día. Los usuarios intensivos pueden ahorrar más de 10 horas por semana.

1️⃣ Razonamiento: Lógica de múltiples pasos y habilidades matemáticas más fuertes GPT-5.2 Thinking logró resultados récord en múltiples evaluaciones desafiantes de razonamiento científico y matemático: Prueba de ciencias de GPQA Diamond: 92,4 % (versión Pro: 93,2 %) Razonamiento abstracto ARC-AGI-1: 86,2% (el primer modelo en superar el umbral del 90%) Razonamiento de orden superior ARC-AGI-2: 52,9 %, lo que establece un nuevo récord para el modelo de cadena mental. Evaluación de matemáticas avanzadas de FrontierMath: 40,3%, superando ampliamente a la generación anterior; Problemas de la competencia de matemáticas HMMT: 99,4% Evaluación de matemáticas AIME: Solución 100% completa

GPT-5.2 Pro (High) es la última generación en ARC-AGI-2, con una puntuación del 54,2 % a un coste de 15,72 $ por tarea. Superando a todos los demás modelos.

2️⃣ Comprensión de textos largos y razonamiento entre documentos: Acercándose al 100% de precisión por primera vez. GPT-5.2 puede manejar longitudes de contexto de hasta 256.000 tokens (aproximadamente más de 200 páginas de documentos). Además, en la prueba de comprensión de texto largo "OpenAI MRCRv2", GPT-5.2 Thinking logró una tasa de precisión de casi el 100%. Puede gestionar proyectos grandes en múltiples archivos;

3️⃣ Comprensión visual: Capacidad de ver imágenes, reconocer interfaces e interpretar gráficos. Las capacidades visuales de GPT-5.2 se han mejorado significativamente: su tasa de error en el razonamiento de imágenes ha disminuido casi un 50% y es capaz de comprender: Estructuras de gráficos (como gráficos de líneas financieras, gráficos de datos experimentales); Diseño de la interfaz del software; Relaciones espaciales en placas de circuitos y dibujos de diseño de productos.

4️⃣ Uso de herramientas y ejecución de tareas: Capaz de planificar y completar tareas de varios pasos de forma independiente. GPT-5.2 obtuvo una puntuación del 98,7 % en el benchmark Tau2-Bench Telecom, lo que demuestra sus maduras capacidades de uso de herramientas en tareas complejas de múltiples turnos. Puede completar el trabajo de principio a fin.

5️⃣ Las habilidades de programación evolucionan aún más: las pruebas de ingeniería de software rompen récords en todos los ámbitos En la prueba SWE-Bench Pro (tarea de ingeniería de software industrial del mundo real), la puntuación de GPT-5.2 Thinking mejoró al 55,6%, mientras que también alcanzó un nuevo máximo del 80% en la prueba SWE-Bench Verified. Los primeros desarrolladores señalaron que GPT-5.2 funciona mejor en escenarios como el desarrollo front-end y el diseño de interfaz 3D, y puede generar código e interfaces completos y ejecutables.

Menos errores, mayor estabilidad y una mejor comprensión del comportamiento humano. GPT-5.2 redujo la tasa de respuestas falsas en un 38 %. Responde preguntas de investigación, redacción y análisis con mayor fiabilidad y reduce los casos de falsificación de datos. Mientras tanto, la seguridad de la respuesta del modelo mejoró significativamente en las tareas relacionadas con la salud mental. Son más robustos en situaciones delicadas como la salud mental, la autolesión, el suicidio y la dependencia emocional.

El "Modo Adulto" de ChatGPT llegará pronto. OpenAI planea lanzar el "Modo Adulto" de ChatGPT en el primer trimestre de 2026.mp.weixin.qq.com/s/I8pxgiRUPWbl…n mecanismo de reconocimiento de edad para proteger automáticamente a los menores del acceso a contenido sensible. Detalles: https://t.co/WsoEbc1Ke5

Hilo de 小互 (@imxiaohu)

Información del autor

Contenido del hilo