SAIL-RL Guider les modèles linéaires multilingues (MLLM) sur le moment et la manière de penser via un réglage RL à double récompense
Discutez avec l'auteuhuggingface.co/papers/2511.02…z29t
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
2 tweets · 7 nov. 2025, 16:47
SAIL-RL Guider les modèles linéaires multilingues (MLLM) sur le moment et la manière de penser via un réglage RL à double récompense
Discutez avec l'auteuhuggingface.co/papers/2511.02…z29t