乙狀結腸階梯 讀完德瓦爾凱什的文章後,我仔細查閱了一個讓我相當擔憂的參考資料。他在文章中提到: “Toby Ord 寫了一篇很棒的文章,他巧妙地將不同的 o 系列基準測試圖表聯繫起來,這表明‘我們需要將 RL 總計算量擴大 100 萬倍,才能獲得與 GPT 水平類似的提升’。” 這聽起來好像事情要停滯不前了。 托比甚至說了兩件讓我擔心的事: 1. “我們已經取得了令人矚目的進展,但這只有在基數很低的情況下才可行。現在我們已經到了成本過高,無法再繼續擴大規模的地步。” 2.“現在強化學習訓練已經接近其有效極限,我們可能已經失去了將更多計算能力轉化為更多智能的能力。” 我四處打聽這種說法是否合理,以及擴大強化學習規模的相反的利好因素是什麼。 一位好友說:“沒錯,如果繼續天真地擴展強化學習計算,它的擴展性會很差。但我們不應該這樣做!這就是為什麼會有這麼多強化學習環境公司。更好的方法是擴展到更新、更複雜的環境。” 仔細思考了一番之後,我找到了一種進一步簡化它的方法:“把它想像成通往新任務、新世界、新目標的階梯,是思考它如何能夠持續一段時間的最有幫助的方法。”
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。