Nós nos esforçamos um pouco. Modificar a função de recompensa da demonstração de velocidade do mjlab para executar comportamentos personalizados é muito gratificante, porque a função base parece aprender muito rápido. Leva apenas alguns minutos para começar a ver resultados. É muito divertido iterar. Isso representou apenas 700 iterações.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.