正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月14日 16:38
我不是故意找茬,但是如果你在推理指令样本上进行中期训练……你怎么能把它叫做RL-Zero呢?Zero不应该意味着……从无到有吗?