RT @yukangchen_: ¡Hemos liberado el código fuente de QeRL — Aprendizaje por refuerzo mejorado por cuantización! 🧠 Entrenamiento de RL cuantizado de 4 bits 💪 Entrena a un LLM 32B en…
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.