Este problema se enmarca en un contexto más amplio: la comprensión de la forma de las curvas de aprendizaje. La propiedad más básica de estas formas es que, con suerte, ¡son decrecientes! Desde una perspectiva estadística específica, suponiendo que se añaden más datos, ¿se puede demostrar que la pérdida de la prueba será menor? Sorprendentemente, esto no es tan obvio y existen numerosos contraejemplos. Esto se analizó extensamente en el libro clásico [Devroye, Gyorfi, Lugosi, 1996] (que recuerdo haber leído con voracidad hace 20 años, ¡pero esa es otra historia!). Más recientemente, en un problema abierto de COLT de 2019, se señaló que algunas versiones extremadamente básicas de esta pregunta aún están abiertas, como: si se estima la (co)varianza de una gaussiana desconocida, ¿es el riesgo monótono (es decir, añadir más datos ayuda a estimar mejor esta covarianza)? @MarkSellke le planteó esta pregunta a GPT-5.2 y... ¡la resolvió! Mark intercambió ideas con el modelo para seguir generalizando el resultado (sin aportación matemática por su parte, salvo por buenas preguntas) y siguió avanzando... finalmente se convirtió en un buen artículo, con resultados para distribuciones gaussianas y gamma para KL directa, y familias exponenciales más generales para KL inversa. Puedes leer más sobre esto aquí: https://t.co/XLETMtURcd.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.