A ideia de que "se algo é verificável, é otimizável com RL" é apenas um corolário do fato de que RL é um método universal fraco para otimização. *no mundo real (mas você pode morrer) *com simuladores (mas alguém precisa escrevê-los) *com verificadores (talvez mais fáceis de escrever do que simuladores)
A lição mais importante (e talvez amarga) seja esta: os LLMs/LRMs são bons em aproveitar o conhecimento declarativo (factual) e procedimental da humanidade (na forma de verificadores). As coisas ficam complicadas quando x.com/rao2z/status/1…nenhum dos dois.

