X (Twitter)

Se ha lanzado GPT-5.2, que eleva de manera integral el techo de la industria en trabajo de conocimiento, programación, investigación científica, documentos largos y tareas de visión. Incluye tres niveles: Instantáneo, Pensamiento y Profesional. Al alcanzar el "nivel de experto humano" en GDPval (una evaluación que mide 44 tareas de conocimiento ocupacional), GPT-5.2 Thinking igualó o superó a los expertos de la industria en el 70,9% de los casos, siendo 11 veces más rápido y costando menos que el 1% de los expertos. Son particularmente hábiles en la creación de hojas de cálculo y presentaciones, y su puntaje promedio en tareas de modelado de hojas de cálculo de banca de inversión es 9.3% más alto que GPT-5.1. En otras palabras, en el pasado, cuando se le pedía a una IA que escribiera código, creara presentaciones PPT o construyera modelos financieros, solo proporcionaba un borrador, y el formato, las fórmulas, las referencias y la estética debían revisarse manualmente. Ahora, dados los requisitos, puede enviar un archivo Excel/Slide con fórmulas, formato, esquemas de color y comentarios, todo a la vez. Capacidades de codificación: 55,6 % en SWE-Bench Pro, 80 % en SWE-bench Verified, con capacidad mejorada para generar interfaces de usuario complejas y 3D front-end de una sola vez. Investigación matemática y física: 100% de precisión en el Concurso de Matemáticas AIME 2025 FrontierMath T1-3 40,3% (+9,3 %) ha ayudado a los investigadores a completar una nueva prueba de la teoría del aprendizaje estadístico. Preguntas y respuestas de nivel graduado de Diamante de GPQA: 92,4 %; Nivel Pro: 93,2 %. Texto largo y elementos visuales: Dentro de 256k tokens, la tasa de recuperación de tokens de "4 agujas" es casi del 100%, y los segmentos MRCRv2 lideran por un promedio de 30 gráficos. La tasa de error al reconocer gráficos, paneles e imágenes de placa base se ha reducido a la mitad y admite la integración con herramientas Python. Invocación de herramientas y agente inteligente: Tau2-bench cuenta con una tasa de éxito del 98,7 % en escenarios de China Telecom, lo que permite a los usuarios completar más de 10 pasos, incluidos cambios de vuelo, seguimiento de equipaje y solicitudes de asientos especiales, en múltiples sistemas en un solo proceso. Alucinaciones reducidas: De hecho, la tasa de error en las respuestas de ChatGPT disminuyó en un 30% y, después de habilitar la búsqueda, la tasa de error alcanzó el 93,9%. Entrada 1,75 / 1M token (0,175 en caché), salida 14; Versión Pro 21 / 168$ Los usuarios de ChatGPT Plus y superiores comenzarán una implementación gradual a partir de hoy; API completamente lanzada. #GPT52 #OpenAIGPT

Bloopenai.com/zh-Hans-CN/ind…pIL

Hilo de AIGCLINK (@aigclink)

Información del autor

Contenido del hilo