Ignoramos completamente o formalismo MDP com o Puffer. Ele não tem a menor utilidade. Aprendizado por Reforço é uma ciência puramente empírica, e a maior parte do progresso depende da engenharia de desempenho.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.