Em última análise, precisamos avançar para uma forma de "ensinar os LLMs" explicando em inglês o que eles fizeram de errado e convertendo isso em gradientes, para então incutir essa lição no modelo. Recompensas binárias, escalares ou quaisquer outras não são tão eficientes quanto poderiam ser. Se o sistema pudesse ver sua crítica (ou mesmo a crítica de um juiz do LLM) e internalizar o feedback completo, em vez de ter que deduzi-lo a partir de diferenças de pontuação em uma grande quantidade de dados convergentes, ele aprenderia muito mais rápido.
(Obviamente, as recompensas escalares e binárias e tudo mais devem ser reservadas para quando forem claramente caminhos de menor resistência, mas com usuários reais eles têm razões exatas para terem detestado uma resposta - o modelo precisa entender por que eles detestaram uma resposta, não apenas receber um "gostei" ou "não gostei" e aprender com muitas amostras.)