"Aprender uma política de rastejamento divertida" é um resultado bastante normal em RL, não é?
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
1 tweet · 30 de out. de 2025, 22:47
"Aprender uma política de rastejamento divertida" é um resultado bastante normal em RL, não é?