Na verdade, um detalhe muito importante: o LLM-como-juiz é outro Baguettotron, retreinado como um modelo de recompensa. Isso significa que temos um sistema de RL totalmente funcional com parâmetros de 500 milhões.
"Ele prefere tanto poesia experimental/excêntrica que mais de 20% é tempero demais" => talvez eu tenha colocado muito de mim nesse modelo.