Gostaria de obter mais informações sobre o sinal de 1 bit ao realizar recompensas escalares ou atribuição de créditos com o grpo (meu palpite é que seja diferente). E algum trabalho em novas alegações de RL em modelos que não são qwen, já que aumenta com punições de resultados positivos mesmo (Devaneios um tanto quanto desconexos do tweet citado, agora que penso nisso)
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.