Un detalle muy importante: el LLM como juez es otro Baguettotron, reentrenado como modelo de recompensa. Esto significa que tenemos un sistema de RL completamente funcional con parámetros de 500 m.
"Prefiere tanto la poesía experimental/extraña que más del 20% es demasiado picante" => Quizás he puesto demasiado de mí dentro de este modelo.