X (Twitter)

La afirmación de que "si es verificable, es optimizable con RL" es simplemente un corolario del hecho de que RL es un método universal débil para optimizar. *con el mundo real (pero puedes morir) *con simuladores (pero alguien tiene que escribirlos) *con verificadores (quizás más fáciles de escribir que los simuladores)

La lección más importante (¿amarga?) podría ser esta: los LLM/LRM son eficaces para aprovechar el conocimiento declarativo (fáctico) y procedimental (en forma de verificadores) de la humanidad. La situación se complica cx.com/rao2z/status/1…inguno de los dos.

Hilo de Subbarao Kambhampati (కంభంపాటి సుబ్బారావు) (@rao2z)

Información del autor

Contenido del hilo