Simplemente wow - "ganancias de eficiencia salvajes" con el enfoque de Thinking Machine 🚀🚀🚀 Después del entrenamiento con MOPD: adoptamos On-Policy-Distillation de Thinking Machine para fusionar múltiples modelos RL, y las ganancias de eficiencia fueron increíbles. Igualamos el rendimiento del modelo del profesor utilizando menos de 1/50 del cómputo de una canalización SFT+RL estándar. “Aquí hay un camino claro para un ciclo de auto-reforzamiento donde el estudiante evoluciona hasta convertirse en un maestro más fuerte”.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.