Nous sommes tellement habitués à considérer ces runs comme aléatoires que si quelque chose ne fonctionne pas, passer en FP16 n'est pas une idée que nous essayons. bien que les bons comprennent la suprématie de fp32 et l'utilisent déjà lors du lancement de layernorm, des réductions d'attention, logits => softmax même lorsque les poids sont bf16.
Lien vers le papier de verre RL contenant les informatiarxiv.org/abs/2509.04259apture d'écran : https://t.co/uq9f816ng5 mis en évidence par @ChinmayKak il y a quelque temps