[Interpretación del documento] Informe técnico de DeepSeek-V3.2: a través de innovación arquitectónica y estrategias de entrenamiento eficientes, iguala o incluso supera a los modelos de código cerrado de primer nivel del mismo período en términos de capacidades de inferencia y rendimiento del agente, al tiempo que reduce significativamente los costos computacionales. Avance arquitectónico: Mecanismo de atención dispersa (DSA) de DeepSeek Esta es la innovación fundamental del modelo. Los modelos tradicionales de gran tamaño experimentan un aumento explosivo del coste computacional al procesar textos largos, lo que resulta en baja velocidad y un coste elevado. Principio técnico: DeepSeek propone un mecanismo de "atención dispersa". A diferencia de los modelos anteriores que necesitaban analizar la información completa, DSA permite al modelo identificar y centrarse inteligentemente en fragmentos clave de información, ignorando el ruido irrelevante. • Valor práctico: Este mecanismo reduce la complejidad computacional de una progresión geométrica a un nivel lineal, manteniendo al mismo tiempo la capacidad de comprensión del modelo. En resumen, permite que el modelo procese grandes cantidades de información con rapidez y precisión, y reduce significativamente la barrera computacional. Estrategia de entrenamiento: aprendizaje de refuerzo a gran escala y destilación de expertos Para mejorar la "inteligencia" del modelo, especialmente su razonamiento lógico y sus capacidades de resolución de problemas matemáticos, el artículo presenta un proceso de entrenamiento completamente nuevo. • Diferenciación e integración de expertos: en lugar de entrenar directamente un modelo integral, el equipo primero entrenó múltiples "modelos expertos" que alcanzaron la cima en campos específicos (como matemáticas, programación y razonamiento lógico). • Destilación de conocimiento: Posteriormente, utilizando los datos de alta calidad generados por estos modelos expertos, junto con algoritmos de aprendizaje por refuerzo a gran escala, estas capacidades se transfieren al modelo principal DeepSeek-V3.2. Esta estrategia de combinar las fortalezas de muchos permite que los modelos de propósito general también posean capacidades de razonamiento profundo en dominios específicos. Capacidades de los Agentes Inteligentes: Campo de Entrenamiento para la Construcción de Datos Sintéticos. Para abordar la necesidad de que los modelos grandes no solo "hablen", sino que también "actúen" (es decir, utilicen herramientas y software de control), este artículo propone un método innovador de generación de datos. • Ejercicios de simulación: el equipo construyó más de 1.800 escenarios de tareas virtuales complejos utilizando algoritmos, que van desde la programación simple hasta la depuración de código complejo. Entrenamiento mejorado: El modelo se somete a un entrenamiento repetido de "ensayo y error-retroalimentación-optimización" en estos desafiantes entornos simulados. Esto mejora considerablemente la robustez del modelo al llamar a herramientas y seguir instrucciones complejas en el mundo real. Evaluación del desempeño y de la industria: Nivel de competencia superior: El modelo alcanzó el nivel de medalla de oro tanto en la Olimpiada Internacional de Matemáticas (OMI) como en la Olimpiada Internacional de Informática (IOI) en 2025, lo que demuestra su profunda fortaleza en los campos científicos fundamentales. • Comparable a gigantes de código cerrado: en múltiples pruebas comparativas autorizadas, sus capacidades de inferencia generales están a la par con Gemini-3.0-Pro de Google, y supera a GPT-5 en algunas tareas complejas. Lea el artículo original
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
![[Interpretación del documento] Informe técnico de DeepSeek-V3.2: a través de innovación arquitectónica y estrategias de](https://pbs.twimg.com/media/G7svQv3boAA5phe.jpg)