Este problema se encaixa em um contexto mais amplo de compreensão do formato das curvas de aprendizado. A propriedade mais básica dessas curvas é que, idealmente, elas são decrescentes! Especificamente da perspectiva estatística, suponha que você adicione mais dados: você consegue provar que a perda no teste será menor? Surpreendentemente, isso não é nada óbvio e existem muitos contraexemplos. Isso foi discutido extensivamente no livro clássico [Devroye, Gyorfi, Lugosi, 1996] (que me lembro de ter lido vorazmente há 20 anos, mas essa é outra história!). Mais recentemente, em um Problema em Aberto do COLT de 2019, foi apontado que algumas versões extremamente básicas dessa questão ainda estão em aberto, como: se você estima a (co)variância de uma gaussiana desconhecida, o risco é monotônico (ou seja, adicionar mais dados ajuda a estimar melhor essa covariância)? @MarkSellke fez essa pergunta ao GPT-5.2 e... ele a resolveu! Então, Mark interagiu com o modelo para continuar generalizando o resultado (sem nenhuma intervenção matemática da parte dele, exceto por fazer boas perguntas) e o processo continuou... eventualmente, isso se tornou um ótimo artigo, com resultados para distribuições Gaussianas e Gama para o algoritmo de Kullback-Leibler direto, e famílias exponenciais mais gerais para o algoritmo de Kullback-Leibler reverso. Você pode ler mais sobre isso aqui: https://t.co/XLETMtURcd.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.