O Halloween do BF16 já acabou? Pode ter sido apenas mais um bug de atenção repentina.
Ultimamente tenho me dedicado exclusivamente ao pré-treinamento de sintetizadores, mas da próxima vez que voltar ao RL, estou ansioso por implementações que não utilizem VLLM.
Quão difícil seria recomeçar tudo do zero a partir disso?github.com/GeeeekExplorer…k
Talvez não seja escalável, mas o código parece super limpo. Ninguém nunca fez um notebook devidamente documentado ou algo do tipo?