(Obviamente, as recompensas escalares e binárias e tudo mais devem ser reservadas para quando forem claramente caminhos de menor resistência, mas com usuários reais eles têm razões exatas para terem detestado uma resposta - o modelo precisa entender por que eles detestaram uma resposta, não apenas receber um "gostei" ou "não gostei" e aprender com muitas amostras.)
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.