開箱即用,無需任何遊戲專屬的強化學習或調校?不可能。我會非常震驚。作為互動問題,這比駕駛或人形機器人控制要困難得多。而且目前大多數遊戲的LLM測試結果都是胡扯。 Voyager for Minecraft 可以呼叫諸如「去挖煤」之類的動作,並提供大量公開的範例腳本。這將是一個獨立的、從零開始的強化學習任務。 西洋棋恰好以法學碩士(LLM)所需的文字格式記錄棋局。而且這類棋局很多。 當你沒有合適的硬件,但可以使用模擬環境時呢?小型模型強化學習就能輕鬆搞定。我們在 https://t.co/wPfmdJfe1d 上展示了幾個僅用單一 GPU 幾秒鐘就訓練出超人等級的範例。而且這不僅限於遊戲。我們為客戶建構的大多數複雜模擬環境,最終都比相對簡單的遊戲更容易進行強化學習。 在我看來,我們這個領域迄今為止最棒的成果無疑是 OpenAI Five。它用大約 1000 個 GPU 就擊敗了 Dota 的頂尖職業選手。現在用 64 到 256 個 H100 應該也能做到。 CPU 的確是個強勁的對手,但正因如此,我們才需要為我們真正關心的問題建立快速的客製化模擬器。我們不斷看到強化學習(RL)提出一些解決方案,而我實在想不明白邏輯學習模型(LLM)怎麼可能做到零樣本攻擊。交互是智能的根本。 如果透過玩遊戲來微調 LLM 模型呢?當然可以,而且比從頭開始訓練更能節省樣本。但計算效率會非常低。我們有相當充分的證據表明,強化學習中的縮放規律傾向於較小的模型規模和更多的數據。這是我在自己的研究中所做的假設,目前看來效果不錯。 那麼,如果你真的想用 Grok 取得令人矚目的強化學習成果呢?我認為關鍵在於彌合大型模型和小型模型之間的差距。在訓練過程中,幾乎所有(>>99.9%)的動作都用小型模型完成。多玩一些遊戲。用大型模型來指導探索等等。遊戲和機器人領域已經有一些這方面的成果,但還沒有真正令人滿意的結果。我沒有在這方面投入精力,因為我認為小型模型強化學習目前更有潛力,即使在小規模上也有非常清晰的發展路徑。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。