La afirmación de que "si es verificable, es optimizable con RL" es simplemente un corolario del hecho de que RL es un método universal débil para optimizar. *con el mundo real (pero puedes morir) *con simuladores (pero alguien tiene que escribirlos) *con verificadores (quizás más fáciles de escribir que los simuladores)
La lección más importante (¿amarga?) podría ser esta: los LLM/LRM son eficaces para aprovechar el conocimiento declarativo (fáctico) y procedimental (en forma de verificadores) de la humanidad. La situación se complica cx.com/rao2z/status/1…inguno de los dos.

