X (Twitter)

A ideia de que "se algo é verificável, é otimizável com RL" é apenas um corolário do fato de que RL é um método universal fraco para otimização. *no mundo real (mas você pode morrer) *com simuladores (mas alguém precisa escrevê-los) *com verificadores (talvez mais fáceis de escrever do que simuladores)

A lição mais importante (e talvez amarga) seja esta: os LLMs/LRMs são bons em aproveitar o conhecimento declarativo (factual) e procedimental da humanidade (na forma de verificadores). As coisas ficam complicadas quando x.com/rao2z/status/1…nenhum dos dois.

Thread de Subbarao Kambhampati (కంభంపాటి సుబ్బారావు) (@rao2z)

Informações do autor

Conteúdo da thread