DeepSeek acaba de lanzar un nuevo modelo: ¡DeepSeek-V3.2-Speciale! A juzgar por las puntuaciones, se trata de una versión optimizada de DeepSeek-V3.2-Exp. La puntuación AIME25 en la prueba de matemáticas alcanzó el 99,2 %, lo cual ya supera las expectativas. La puntuación de SWE-Bench Verified también alcanzó 73,1, que aún está lejos del 77,2 de claude-sonnet-4.5. A continuación, se presenta un resumen de los puntos clave de esta versión. Lo más importante es que DeepSeek ha implementado su propio mecanismo optimizado de atención dispersa (la atención dispersa se utiliza para optimizar contextos largos, con un buen rendimiento en contextos extremadamente largos y ahorrando recursos). La longitud del contexto nativo se ha reducido a 163 K. En segundo lugar, creo que lo más importante es la síntesis de datos de tareas de agentes a gran escala. La mayor limitación para la velocidad de evolución de los modelos grandes reside en los materiales de entrenamiento. Los materiales generados manualmente ya no son suficientes para entrenar modelos grandes. DeepSeek ha explorado un método para sintetizar automáticamente los datos de entrenamiento de tareas de agentes, lo cual desempeña un papel crucial en la rápida mejora del rendimiento de modelos grandes en poco tiempo. También mencionaron un marco de aprendizaje de refuerzo escalable. Sin embargo, los detalles específicos no están visibles en la descripción de la tarjeta del modelo. Su informe técnico aún no se ha subido, pero proporcionaré una interpretación detallada una vez que lo esté. ¡Y lo estoy probando ahora! Más adelante les mostraré una prueba práctica de las capacidades de programación de DeepSeek-V3.2-Speciale.
Parámetros de rendimiento / 2
Parámetros de rendimiento / 3











