Ouvi muitas opiniões equivocadas (na minha humilde opinião) sobre o "RL" do DeepSeek R1 versus SFT no #NeurIPS2025 ontem! 🤦♂️ Com o MDP degenerado que o R1 usa, onde divide a recompensa do verificador pela solução igualmente entre todos os tokens intermediários e da solução, o RL do R1 é, na verdade, uma forma filtrada/iterativa de SFT! Venha conversar conosco nos workshops de LAW e ForLM no domingo... 👇
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
