π_RL Ajuste fino online de aprendizado por reforço para modelos de visão-linguagem-ação baseados em fluxo
Discuta com o autor: huggingface.co/papers/2510.25…
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
2 tweets · 3 de nov. de 2025, 15:40
π_RL Ajuste fino online de aprendizado por reforço para modelos de visão-linguagem-ação baseados em fluxo
Discuta com o autor: huggingface.co/papers/2510.25…