O aprendizado por reforço (RL) só funciona se o modelo pré-treinado já for capaz de resolver o problema (caso contrário, não há sinal de recompensa). Portanto, o RL não consegue resolver problemas complexos e, quando parece conseguir, trata-se apenas de força bruta disfarçada.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.