이 문제는 학습 곡선의 형태를 이해하는 더 넓은 맥락에 속합니다. 이러한 형태의 가장 기본적인 속성은 바라건대 감소한다는 것입니다! 특히 통계적 관점에서, 데이터를 추가한다고 가정했을 때 테스트 손실이 더 낮아진다는 것을 증명할 수 있습니까? 놀랍게도 이는 상당히 직관적이지 않으며 반례도 많습니다. 이 주제는 고전 서적 [Devroye, Gyorfi, Lugosi, 1996]에서 자세히 논의되었습니다(제가 20년 전에 탐독했던 기억이 나지만, 그건 다른 이야기입니다!). 최근 2019년 COLT 공개 문제에서 이 질문의 매우 기본적인 버전들이 여전히 미해결 상태라는 점이 지적되었습니다. 예를 들어, 알려지지 않은 가우시안 분포의 (공)분산을 추정할 때, 위험도가 단조적인가(즉, 데이터를 추가할수록 공분산을 더 잘 추정할 수 있는가)와 같은 질문입니다. @MarkSellke가 GPT-5.2에 이 질문을 던졌고... GPT-5.2가 답을 찾았습니다! 그리고 Mark는 (수학적 지식은 전혀 투입하지 않고 좋은 질문만 던지면서) 모델과 끊임없이 상호작용하며 결과를 일반화해 나갔고, 결국 이 연구는 훌륭한 논문으로 발전했습니다. 이 논문에는 순방향 KL 분류에 대한 가우시안 분포와 감마 분포, 그리고 역방향 KL 분류에 대한 보다 일반적인 지수족 분포에 대한 결과가 담겨 있습니다. 자세한 내용은 다음 링크에서 확인하실 수 있습니다: https://t.co/XLETMtURcd
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.