這個問題屬於理解學習曲線形狀這個更廣泛的範疇。這類曲線最基本的屬性是…它們應該會下降!具體來說,從統計學的角度來看,假設你添加更多數據,你能證明你的測試損失會降低嗎? 令人驚訝的是,這一點並不顯而易見,而且有許多反例。經典著作[Devroye、Gyorfi、Lugosi,1996]對此進行了詳盡的討論(我記得20年前曾如飢似渴地閱讀過這本書,但這又是另一個故事了!)。最近,在2019年的COLT開放問題中,有人指出,一些極其基礎的問題版本仍然懸而未決,例如:如果你估計一個未知高斯分佈的(協)方差,風險是否單調(即,增加更多數據是否有助於更好地估計該協方差)? @MarkSellke 向 GPT-5.2 提出了這個問題…它居然解決了!之後,Mark 與模型進行了反覆的互動,不斷推廣結果(Mark 除了提出好問題之外,沒有提供任何數學輸入),而模型也一直在進步……最終,這發展成了一篇優秀的論文,其中包含了正向 KL 分佈中高斯分佈和伽馬分佈的結果,以及反向 KL 分佈中更一般的指數族的結果。您可以在這裡閱讀更多內容:https://t.co/XLETMtURcd
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。