A chave para um aprendizado eficiente não é a verificabilidade do resultado final, mas sim receber feedback a cada passo. Por exemplo, ao dirigir um carro, a cada instante você observa a diferença entre suas previsões e o que realmente aconteceu. Em áreas como jogos, programação e matemática, suas ações têm resultados determinísticos e esse tipo de aprendizado não ocorre (nem é necessário). O aprendizado por reforço (RL) sofre de sobreajuste nesses casos.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.