Lo interesante es que hubo una divergencia. En 2022, los laboratorios cerrados realizaban PPO, y los modelos abiertos… no existían. En 2023, nos dedicamos principalmente a SFT (LoRA o no) y luego obtuvimos la especie DPO copium. El GRPO en 2024 fue… inesperado. Y no sabemos qué utilizan ahora los laboratorios cerrados.
Por cierto, también se sorprendieron por cómo le fue a GRPO.
