RT @rasbt:法学硕士(LLM)培训时代: 202x 预备训练(基础) 2022 RLHF + PPO 2023 LoRa SFT 2024年中期训练 2025 RLVR + GRPO
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月24日 02:23
RT @rasbt:法学硕士(LLM)培训时代: 202x 预备训练(基础) 2022 RLHF + PPO 2023 LoRa SFT 2024年中期训练 2025 RLVR + GRPO