正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月14日 下午4:38
我不是故意找茬,但是如果你在推理指令樣本上進行中期訓練……你怎麼能把它叫做RL-Zero呢? Zero不應該意味著…從無到有嗎?