SAIL-RL Orientación de los modelos de aprendizaje automático multinivel (MLLM) sobre cuándo y cómo pensar mediante el ajuste del aprendizaje por refuerzo con doble recompensa.
Discute con el autor:huggingface.co/papers/2511.02…t
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
2 tweets · 7 nov 2025, 16:47
SAIL-RL Orientación de los modelos de aprendizaje automático multinivel (MLLM) sobre cuándo y cómo pensar mediante el ajuste del aprendizaje por refuerzo con doble recompensa.
Discute con el autor:huggingface.co/papers/2511.02…t