正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月14日 04:15
想象一下,你只看最终得分就学会玩电子游戏。这就是强化学习。现在想象一下,用同样的方式训练一个大型推理模型——简直是浪费资源。但这正是那些“前沿实验室”投入数十亿美元的地方。