L'idée que « si c'est vérifiable, c'est optimisable par apprentissage par renforcement » découle simplement du fait que l'apprentissage par renforcement est une méthode d'optimisation universelle faible. *dans le monde réel (mais vous pouvez mourir) *avec des simulateurs (mais il faut bien que quelqu'un les écrive) *avec des vérificateurs (peut-être plus faciles à écrire que des simulateurs)
La leçon la plus importante (et peut-être la plus amère) est peut-être la suivante : les LLM/LRM excellent dans l’exploitation des connaissances déclaratives (factuelles) et procédurales (sous forme de vérificateurs) de x.com/rao2z/status/1…se compliquent lorsque certaines notions ne sont couvertes ni par l’un ni par l’autre.

