Estamos tan acostumbrados a esperar que estas partidas sean aleatorias que, si algo no funciona, ir a FP16 no es una idea que intentemos. aunque los buenos entienden la supremacía de fp32 y ya la utilizan al aplicar layernorm, reducciones de atención, logits => softmax incluso cuando los pesos son bf16.
Enlace al papel de lija RL para la información compartiarxiv.org/abs/2509.04259uq9f816ng5 @ChinmayKak lo destacó hace un tiempo.