「目前這些模型最令人困惑的一點是:如何解釋它們在評估中表現如此出色。 你看了評價後會想:“這些評價相當嚴格。” 但經濟影響似乎遠遠落後了。 或許有這樣的解釋。以前人們做預訓練的時候,訓練資料的選擇問題就已經有了答案,因為答案就是所有資料。所以你不用考慮是用這個資料集還是那個資料集。 當人們進行強化學習訓練時,他們會說:“好的,我們希望對這個事物進行這種強化學習訓練,對那個事物進行那種強化學習訓練。” 你說:“嘿,我希望我們的模型發佈時能表現出色。我希望評估結果看起來很棒。哪些強化學習訓練方法可以幫助我們完成這項任務?” 如果再加上模型泛化能力不足的問題,就有可能解釋我們所看到的許多現象,即評估表現與實際現實世界表現之間的脫節。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。