X (Twitter)

Sim, este Neurips é o Neurips do aprendizado por reforço e dos modelos do mundo real. Há muitas sessões e workshops sobre o assunto, e com razão. Rich Sutton também lembrou que a forma como fazemos o aprendizado por reforço para mestrados em direito (RLVR/GROO) não é uma lição amarga repetida, e que pode apenas estimular habilidades existentes de forma mais confiável, mas nada além disso... Dito isso, o aprendizado por reforço ainda tem muitas oportunidades fáceis de aproveitar. Ontem me encontrei com os autores do ToolRL, DAPO. Ainda há muitas oportunidades fáceis de aproveitar…

Thread de GDP at NeurIPS 2025 (@bookwormengr)

Informações do autor

Conteúdo da thread