VELA-RL Orientando os Modelos de Aprendizado Multinível (MLLMs) sobre Quando e Como Pensar por meio do Ajuste de Aprendizado por Reforço com Recompensa Dupla
Discuta com o autor: huggingface.co/papers/2511.02…
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
2 tweets · 7 de nov. de 2025, 16:47
VELA-RL Orientando os Modelos de Aprendizado Multinível (MLLMs) sobre Quando e Como Pensar por meio do Ajuste de Aprendizado por Reforço com Recompensa Dupla
Discuta com o autor: huggingface.co/papers/2511.02…