X (Twitter)

Acabei de ler o novo artigo do LeJEPA de Yann LeCun e Randall Balestriero. Estava curioso para saber em que Yann tem trabalhado ultimamente, especialmente considerando todas as suas críticas aos LLMs (com as quais discordo, pois acredito que os LLMs continuarão a melhorar e nos levarão ao ASI em breve). De qualquer forma, já existem vários tópicos no fórum X sobre o artigo e o que ele introduz. Resumindo, trata-se de uma abordagem de aprendizado autossupervisionado baseada em princípios, teoricamente justificada e parcimoniosa, que substitui uma complexa mistura de heurísticas improvisadas e improvisadas para evitar o colapso de modo, que é a ruína do aprendizado autossupervisionado. É aí que o modelo falha e começa a mapear todas as entradas para embeddings quase idênticos ou para um subespaço estreito de embeddings, reduzindo toda a riqueza do problema a uma correspondência patologicamente simples e errada. O primeiro pilar da nova abordagem é a comprovação de que as distribuições gaussianas isotrópicas minimizam de forma única o risco de previsão no pior cenário possível. Assim que li isso, pensei imediatamente no CMA-ES, o melhor algoritmo de otimização de caixa preta disponível para quando você não tem acesso ao gradiente da função que está tentando minimizar, mas só pode fazer avaliações de função (custosas/lentas). Nikolaus Hansen trabalha com CMA-ES desde que o apresentou, lá em 1996. Sempre fui fascinado por essa abordagem e a utilizei com muito sucesso para explorar de forma eficiente os hiperparâmetros de redes neurais profundas em 2011, em vez de realizar buscas em grade ineficientes. Enfim, o motivo pelo qual menciono isso é porque existe um paralelo impressionante e uma profunda conexão entre essa abordagem e a essência do LeJEPA. O CMA-ES afirma: Comece com uma gaussiana isotrópica, pois ela é a distribuição de máxima entropia (menos enviesada) dadas apenas restrições de variância. Em seguida, adapte a covariância para aprender a geometria do problema. LeJEPA afirma: Mantenha uma distribuição gaussiana isotrópica, pois ela representa a distribuição de máxima entropia (menos enviesada) para tarefas futuras desconhecidas. Ambos reconhecem que a isotropia é ótima em situações de incerteza por três razões: O princípio da máxima entropia; dentre todas as distribuições com variância fixa, a gaussiana isotrópica possui a máxima entropia; ou seja, ela faz o menor número de suposições. Não há viés direcional; variância igual em todas as direções significa que você não está se comprometendo antecipadamente com nenhuma estrutura de problema específica. Você obtém a otimização no pior caso; Minimiza o arrependimento máximo em todas as geometrias possíveis do problema. Então, qual é a diferença? Tudo se resume ao momento da adaptação. O CMA-ES consegue se adaptar durante a otimização; ele começa isotrópico, mas depois se torna anisotrópico à medida que aprende o cenário de otimização específico. Em contrapartida, o LeJEPA precisa permanecer isotrópico porque está se preparando para tarefas futuras desconhecidas que ainda não foram observadas. Esse paralelo sugere que o LeJEPA está aplicando um princípio fundamental da teoria da otimização à aprendizagem de representações. Essencialmente, está dizendo: “A distribuição de busca ideal para otimização de caixa preta também é a distribuição de incorporação ideal para aprendizado por transferência.” Isso faz sentido porque ambos os problemas envolvem navegar por paisagens desconhecidas; para o CMA-ES, trata-se da paisagem de otimização desconhecida; para o LeJEPA, trata-se do espaço desconhecido de tarefas subsequentes. Essa diferença me leva a questionar: será que poderíamos ter um "LeJEPA adaptativo" que começasse isotrópico, mas adaptasse sua distribuição de embeddings assim que soubéssemos a tarefa subsequente, de forma semelhante à adaptação do CMA-ES durante a otimização? Isso seria como meta-aprender a anisotropia correta para famílias de tarefas específicas. Enfim, pensei em compartilhar minhas ideias sobre isso. É fascinante ver as conexões entre essas diferentes áreas. A comunidade de otimização de caixa preta sempre foi bastante separada e distinta da comunidade de aprendizado profundo, e não há muita troca de conhecimentos entre elas. Faz sentido, porque se você tem um gradiente, seria loucura não usá-lo. Mas existem fortes conexões.

Thread de Jeffrey Emanuel (@doodlestein)

Informações do autor

Conteúdo da thread