X (Twitter)

Sina Weibo ha liberado recientemente el código fuente de un "modelo pequeño" de 1.500 millones de parámetros llamado "VibeThinker-1.5B", con un coste de entrenamiento de tan solo 7.800 dólares. ¡Ha alcanzado o incluso superado el nivel de los modelos grandes en tareas de razonamiento complejo como las matemáticas y la programación! Antecedentes y motivación: ¿Por qué pueden "resurgir" los modelos pequeños? El modelo o1 de OpenAI inauguró la era de los "Modelos de Razonamiento a Gran Escala" (LRM), alcanzando niveles de habilidad casi humana en campos como la demostración de teoremas matemáticos, el diagnóstico clínico y las competiciones de programación mediante el aprendizaje por refuerzo y la Cadena Larga de Razonamiento (LCOT). Proyectos posteriores de código abierto como DeepSeek R1 (671 B) y Kimi K2 (>1 T) reforzaron aún más la "ley de escala": a mayor número de parámetros, mayor capacidad de razonamiento. Se considera que los modelos pequeños son inherentemente débiles e incapaces de abordar problemas de alta complejidad. Los autores del artículo cuestionaron esta perspectiva: ¿Podría desbloquearse el potencial de razonamiento oculto partiendo de modelos pequeños y empleando estrategias de entrenamiento ingeniosas? La respuesta es sí. VibeThinker-1.5B, basado en el modelo Qwen2.5-Math-1.5B, se sometió a una optimización posterior al entrenamiento, lo que resultó en mejoras significativas en las pruebas de referencia: pasó de 6,7 puntos en la prueba matemática AIME24 a 80,3 puntos, y de 0 puntos en la prueba de programación LiveCodeBench V6 a 51,1 puntos. Aún más notable es que superó ligeramente a DeepSeek R1 en varios desafíos matemáticos, a pesar de que DeepSeek tiene más de 400 veces más parámetros. Esto demuestra que el cuello de botella para la capacidad de razonamiento no reside en el "tamaño", sino en la innovación de los paradigmas de entrenamiento. Innovación fundamental: Principio de conversión de espectro en señal Este artículo propone el «Principio de Señal Espectral» (SSP), un marco que redefine la colaboración entre el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL). Los métodos tradicionales consideran que el SFT es la etapa para «localizar con precisión la respuesta óptima», mientras que el RL la refina aún más. Sin embargo, los autores argumentan que esto puede atrapar al modelo en un «óptimo local» en una única ruta, limitando el espacio de exploración posterior. El SSP desacopla las dos etapas, asignándoles roles complementarios. • Etapa Espectral (SFT): Explorando la Diversidad SFT ya no busca la precisión en una sola generación (Pass@1), sino que optimiza la tasa de éxito de múltiples muestreos (Pass@K), generando un «espectro amplio», es decir, múltiples soluciones potencialmente correctas. Esto evita que el modelo se adhiera a un patrón limitado y mejora la robustez y la creatividad en la resolución de problemas. La implementación adopta un enfoque de "destilación exploratoria de la diversidad en dos etapas": 1. Detección de diversidad consciente del dominio: El dominio matemático se divide en subdominios (como álgebra y geometría), y se genera un conjunto de sondas para cada subdominio utilizando un potente LLM para seleccionar el mejor "modelo experto" en Pass@K. 2. Fusión de modelos expertos: Los modelos expertos se fusionan mediante promedios ponderados (pesos uniformes) para formar un modelo SFT unificado. Esto equilibra la precisión y la diversidad, allanando el camino para el aprendizaje por refuerzo. • Fase de señalización (RL): Amplificación de la ruta correcta El aprendizaje por refuerzo (RL) selecciona y fortalece la mejor trayectoria de inferencia del espectro de SFT. Los autores presentan la Optimización de Políticas Guiada por Máxima Entropía (MGPO), una extensión de la Optimización de Políticas Relativas de Grupo (GRPO). GRPO calcula la ventaja relativa mediante el muestreo de múltiples conjuntos de respuestas, evitando la complejidad de la función de valor externa. MGPO incorpora además el principio de máxima entropía: prioriza las muestras de entrenamiento con alta incertidumbre (precisión cercana al 50%, es decir, el punto de máxima entropía de la distribución binaria) y utiliza la regularización del sesgo de entropía para ponderar la función de ventaja. Esto permite que el modelo se centre eficientemente en problemas de alto valor, evitando el desperdicio de cómputo en tareas simples ya dominadas. El RL consta de dos subetapas: primero, razonamiento matemático (el contexto se amplía de 16K a 32K), y luego generación de codificación, siendo la función de recompensa la corrección binaria. Además, el artículo hace hincapié en la depuración de datos: se utiliza la comparación semántica de 10-gramas para eliminar la superposición entre los conjuntos de entrenamiento y prueba, lo que garantiza la autenticidad de los resultados. Los datos de entrenamiento combinan conjuntos de datos de código abierto y datos sintéticos, abarcando los campos de las matemáticas y la programación. Experimentos y resultados: La "gran lógica" detrás de un modelo pequeño VibeThinker-1.5B se evaluó en múltiples pruebas de rendimiento, incluyendo matemáticas (MATH-500, AIME24/25, HMMT25), programación (LiveCodeBench V5/V6) y conocimiento (GPQA-Diamond). Las evaluaciones se realizaron utilizando un backend vLLM, con muestreo múltiple Pass@1 y una temperatura de 0.6 (1.0 para matemáticas). • Comparado con modelos más pequeños: VibeThinker sobresale en la categoría sub-3B, logrando una puntuación AIME25 de 74,4 (Qwen3-1.7B solo 36,8), una puntuación HMMT25 de 50,4 (SmolLM-3B solo 26,0) y una puntuación de codificación V6 de 51,1 (modelo base 0,0). • En comparación con modelos de inferencia de gran tamaño: Matemáticamente, supera ligeramente a DeepSeek R1 (AIME24: 80,3 frente a 79,8; AIME25: 74,4 frente a 70,0; HMMT25: 50,4 frente a 41,7) y está a la par con MiniMax-M1-456B. Su rendimiento de codificación es ligeramente inferior al de Magistral Medium (55,9 frente a 59,4). En comparación con los mejores modelos no razonables, es matemáticamente superior a GPT-4.1 (AIME24: 80,3 frente a 46,5) y Kimi K2 (49,5), y presenta un mejor rendimiento en codificación que Claude Opus 4 (51,1 frente a 47,4). Sin embargo, aún se encuentra por detrás en la prueba de conocimiento GPQA (46,7 frente a 70-82), lo que sugiere que este modelo pequeño requiere una mayor optimización en conocimientos de dominio amplio. Estos resultados confirman la eficacia de SSP: los enfoques basados en la diversidad permiten que los modelos pequeños "logren grandes resultados con pocos recursos" en tareas que requieren un uso intensivo de la inferencia. Debate e impacto: Reconfigurando el panorama de la IA El éxito de VibeThinker radica en el diseño de algoritmos, más que en la acumulación de parámetros, lo que reduce los costes de inferencia a entre 1/30 y 1/60 de los modelos grandes y facilita su despliegue en el borde (costes de inferencia entre 20 y 70 veces menores). Esto pone de manifiesto las limitaciones de la ley de escala: el potencial de los modelos pequeños se subestima, especialmente en el ámbito matemático y de la programación. Sin embargo, la brecha en los estándares de conocimiento indica la necesidad de que en el futuro se fortalezca la integración del conocimiento generalizado. Modelo de código abierto e informe técnico:

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo