正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月3日 15:40
π_RL 面向流程的视觉-语言-动作模型的在线强化学习微调
与作者讨论:https://t.co/T3Sp3q594g