X (Twitter)

Ce problème s'inscrit dans un contexte plus large de compréhension de la forme des courbes d'apprentissage. La propriété fondamentale de ces courbes est qu'en principe, elles sont décroissantes ! Plus précisément, d'un point de vue statistique, si l'on ajoute des données, peut-on démontrer que le taux d'échec aux tests sera inférieur ? Étonnamment, la question est loin d'être évidente et il existe de nombreux contre-exemples. Ce sujet a été longuement abordé dans l'ouvrage de référence [Devroye, Gyorfi, Lugosi, 1996] (que j'ai dévoré il y a 20 ans, mais c'est une autre histoire !). Plus récemment, dans un problème ouvert COLT de 2019, il a été souligné que certaines versions extrêmement simples de cette question restent sans réponse, comme par exemple : si l'on estime la (co)variance d'une gaussienne inconnue, le risque est-il monotone (autrement dit, l'ajout de données supplémentaires permet-il d'améliorer l'estimation de cette covariance) ? @MarkSellke a posé cette question à GPT-5.2 et… le modèle l’a résolue ! Mark a ensuite collaboré avec le modèle pour généraliser le résultat (sans autre intervention mathématique que la formulation de questions pertinentes), et ce travail s’est poursuivi… jusqu’à la publication d’un article intéressant, présentant des résultats pour les distributions gaussienne et gamma dans le cadre de la classification de Kullback-Leibler (KL) directe, ainsi que pour des familles exponentielles plus générales dans le cadre de la classification inverse. Pour en savoir plus, consultez : https://t.co/XLETMtURcd.

Fil de Sebastien Bubeck (@SebastienBubeck)

Informations sur l'auteur

Contenu du fil