正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月9日 08:49
RT @cwolferesearch:很容易错过,因为它在论文的最后一页,但 Olmo 3 RL-Zero 有一个关于使用 RA 进行强化学习的非常棒的小节……