这个问题属于理解学习曲线形状这一更广泛的范畴。这类曲线最基本的属性是……它们应该会下降!具体来说,从统计学的角度来看,假设你添加更多数据,你能证明你的测试损失会降低吗? 令人惊讶的是,这一点并不显而易见,而且有很多反例。经典著作[Devroye、Gyorfi、Lugosi,1996]对此进行了详尽的讨论(我记得20年前曾如饥似渴地阅读过这本书,但这又是另一个故事了!)。最近,在2019年的COLT开放问题中,有人指出,一些极其基础的问题版本仍然悬而未决,例如:如果你估计一个未知高斯分布的(协)方差,风险是否单调(即,增加更多数据是否有助于更好地估计该协方差)? @MarkSellke 向 GPT-5.2 提出了这个问题……它居然解决了!之后,Mark 与模型进行了反复的互动,不断推广结果(Mark 除了提出好问题之外,没有提供任何数学输入),而模型也一直在进步……最终,这发展成了一篇优秀的论文,其中包含了正向 KL 分布中高斯分布和伽马分布的结果,以及反向 KL 分布中更一般的指数族的结果。您可以在这里阅读更多内容:https://t.co/XLETMtURcd
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。