Teknium (e/λ) (@Teknium): Ultimately we need to progress to a way to "teach LLMs" by explaining…

Em última análise, precisamos avançar para uma forma de "ensinar os LLMs" explicando em inglês o que eles fizeram de errado e convertendo isso em gradientes, para então incutir essa lição no modelo. Recompensas binárias, escalares ou quaisquer outras não são tão eficientes quanto poderiam ser. Se o sistema pudesse ver sua crítica (ou mesmo a crítica de um juiz do LLM) e internalizar o feedback completo, em vez de ter que deduzi-lo a partir de diferenças de pontuação em uma grande quantidade de dados convergentes, ele aprenderia muito mais rápido.

(Obviamente, as recompensas escalares e binárias e tudo mais devem ser reservadas para quando forem claramente caminhos de menor resistência, mas com usuários reais eles têm razões exatas para terem detestado uma resposta - o modelo precisa entender por que eles detestaram uma resposta, não apenas receber um "gostei" ou "não gostei" e aprender com muitas amostras.)

Thread de Teknium (e/λ) (@Teknium)

Informações do autor

Conteúdo da thread