X (Twitter)

這個問題屬於理解學習曲線形狀這個更廣泛的範疇。這類曲線最基本的屬性是…它們應該會下降！具體來說，從統計學的角度來看，假設你添加更多數據，你能證明你的測試損失會降低嗎？令人驚訝的是，這一點並不顯而易見，而且有許多反例。經典著作[Devroye、Gyorfi、Lugosi，1996]對此進行了詳盡的討論（我記得20年前曾如飢似渴地閱讀過這本書，但這又是另一個故事了！）。最近，在2019年的COLT開放問題中，有人指出，一些極其基礎的問題版本仍然懸而未決，例如：如果你估計一個未知高斯分佈的（協）方差，風險是否單調（即，增加更多數據是否有助於更好地估計該協方差）？ @MarkSellke 向 GPT-5.2 提出了這個問題…它居然解決了！之後，Mark 與模型進行了反覆的互動，不斷推廣結果（Mark 除了提出好問題之外，沒有提供任何數學輸入），而模型也一直在進步……最終，這發展成了一篇優秀的論文，其中包含了正向 KL 分佈中高斯分佈和伽馬分佈的結果，以及反向 KL 分佈中更一般的指數族的結果。您可以在這裡閱讀更多內容：https://t.co/XLETMtURcd

來自 Sebastien Bubeck（@SebastienBubeck）的推文串

作者資訊

推文串內容