Ce qui est intéressant, c'est la divergence observée. En 2022, seuls les laboratoires fermés travaillaient sur la PPO, et les modèles ouverts… n'existaient pas. En 2023, nous avons principalement utilisé la SFT (avec ou sans LoRA), puis nous avons obtenu le copium des espèces DPO. La GRPO en 2024 était… inattendue. Et nous ignorons ce qu'utilisent actuellement les laboratoires fermés.
D'ailleurs, ils ont également été surpris par les rx.com/teortaxesTex/s… GRPO.
