有趣的是,當時出現了分歧。 2022年,封閉式實驗室在做PPO,而開放式模型…根本不存在。 2023年,我們主要做SFT(無論是否使用LoRA),然後得到了DPO物種copium。 2024年的GRPO……出乎意料。 我們也不知道封閉式實驗室現在使用什麼設備。
順便一提,他們也對GRPO的表現感到驚訝。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年12月23日 清晨7:15
有趣的是,當時出現了分歧。 2022年,封閉式實驗室在做PPO,而開放式模型…根本不存在。 2023年,我們主要做SFT(無論是否使用LoRA),然後得到了DPO物種copium。 2024年的GRPO……出乎意料。 我們也不知道封閉式實驗室現在使用什麼設備。
順便一提,他們也對GRPO的表現感到驚訝。