正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月14日 凌晨4:15
想像一下,你只看最終得分就學會玩電子遊戲。這就是強化學習。現在想像一下,用同樣的方式訓練一個大型推理模型──簡直是浪費資源。但這正是那些「前沿實驗室」投入數十億美元的地方。