Estamos tão acostumados a esperar que essas partidas sejam aleatórias que, se algo não funcionar, tentar o modo FP16 não é uma opção. embora os bons entendam a supremacia do fp32 e já a usem ao aplicar layernorm, reduções de atenção, logits => softmax mesmo quando os pesos são bf16.
Link para o artigo sobre papel de navalha da RL com as arxiv.org/abs/2509.04259das em ss - https://t.co/uq9f816ng5 destacado por @ChinmayKak há algum tempo atrás para mim