Versão RL: Encontrei muitos pesquisadores trabalhando em ambientes "difíceis" enquanto realizavam simulações de 10 milhões de passos com hiperparâmetros padrão devido ao MFU de 0,01.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.