O interessante é que houve uma divergência. Em 2022, laboratórios fechados trabalhavam com PPO, e modelos abertos… não existiam. Em 2023, trabalhamos principalmente com SFT (LoRA ou não) e depois obtivemos o copium de espécies DPO. O GRPO em 2024 foi… inesperado. E não sabemos o que os laboratórios fechados usam atualmente.
Aliás, eles também ficaram surpresos com o desempenho do GRPO.
