Esta postagem do blog discute as limitações da manipulação de recompensas em SFT e RL. Comparação de três métodos de treinamento: SFT (Ajuste fino supervisionado) Amostragem: ❌ Estratégia de distanciamento (trajetória do professor) Recompensa: ✅ Denso (por ficha) Pergunta: Erros compostos no modo aluno RL (Aprendizagem por Reforço) Amostragem: ✅ Na estratégia (resultados obtidos pelos alunos) Recompensa: ❌ Escasso (apenas resultado final) Problema: Um sinal por episódio, baixa eficiência. Se utilizada na destilação de políticas, a amostragem será melhor resolvida: ✅ Na política (trajetória do aluno) Recompensa: ✅ Denso (Os professores pontuam cada ficha) Para uma compreensão mais aprofundada deste assunto, recomendo este artigo de Bojie: https://t.co/r9r14GGZ3u
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.