正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月1日 04:57
另一个主要原因是,几乎所有的强化学习论文都使用 veRL。 veRL 居然不支持 fp16 哈哈