Sim, este Neurips é o Neurips do aprendizado por reforço e dos modelos do mundo real. Há muitas sessões e workshops sobre o assunto, e com razão. Rich Sutton também lembrou que a forma como fazemos o aprendizado por reforço para mestrados em direito (RLVR/GROO) não é uma lição amarga repetida, e que pode apenas estimular habilidades existentes de forma mais confiável, mas nada além disso... Dito isso, o aprendizado por reforço ainda tem muitas oportunidades fáceis de aproveitar. Ontem me encontrei com os autores do ToolRL, DAPO. Ainda há muitas oportunidades fáceis de aproveitar…
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.