¿Las tarjetas de juego ahora también pueden utilizar FP8 GRPO? ¡Unsloth acaba de publicar un nuevo tutorial que muestra cómo ajustar el FP8 GRPO del DeepSeek-R1 con una VRAM mínima! Colaboraron con PyTorch para mejorar la velocidad de inferencia de FP8 RL en 1,4 veces. Posteriormente, perfeccionaron el proceso reduciendo la memoria de la GPU en un 60 % y aumentando la longitud del contexto en 12 veces. Ahora está disponible en el framework Unsloth. Este enfoque de aprendizaje por refuerzo, que facilita directamente la adopción generalizada de la precisión FP8, permite implementar FP8 GRPO en GPU de consumo (como RTX 40, 50, etc.). Los datos de prueba muestran que FP8 GRPO en Qwen3-1.7B ahora solo requiere 5 GB de VRAM para ejecutarse. Dirección del tutorial:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
