X (Twitter)

Simplemente wow - "ganancias de eficiencia salvajes" con el enfoque de Thinking Machine 🚀🚀🚀 Después del entrenamiento con MOPD: adoptamos On-Policy-Distillation de Thinking Machine para fusionar múltiples modelos RL, y las ganancias de eficiencia fueron increíbles. Igualamos el rendimiento del modelo del profesor utilizando menos de 1/50 del cómputo de una canalización SFT+RL estándar. “Aquí hay un camino claro para un ciclo de auto-reforzamiento donde el estudiante evoluciona hasta convertirse en un maestro más fuerte”.

Hilo de GDP (@bookwormengr)

Información del autor

Contenido del hilo