Unsloth está en ello nuevamente, entrenando a Qwen3-4b con 3 GB de VRAM. La última actualización de unsloth supone una gran mejora. En resumen, han fusionado los dos núcleos Triton necesarios originalmente para Q y K en uno solo, y ahora admiten RoPE de longitud variable. Esto permite ahorrar mucha memoria de la GPU y mejorar la velocidad de cálculo (originalmente, Q y K requerían dos núcleos Triton, pero ahora se han fusionado en uno), logrando una aceleración de 2,3 veces en el entrenamiento de contexto largo. Además, admite índices int64, ya que los índices int32 originales causarían errores de CUDA fuera de límites durante el entrenamiento con un contexto muy grande de 500 K. Por lo tanto, se utilizó una mayor precisión para evitar errores fuera de límites, lo que permite la compatibilidad con contextos más grandes.
Detalles de implementación / 1
Detalles de implementación / 2
Cómo utilizar










