Aprendizado de recursos silenciosos em Transformers Este é um artigo interessante desta semana: ele destaca que as curvas de perda podem nos levar a uma avaliação errônea do que o modelo aprendeu. Normalmente, usamos a perda como a principal métrica para medir o progresso do treinamento de redes neurais. Se a perda não mudar, presume-se que o modelo não aprendeu nada; se a perda diminuir, presume-se que o aprendizado está ocorrendo. No entanto, essa suposição não se confirma quando se trata de tarefas algorítmicas. Este novo estudo utilizou o Transformer para processar 10 tarefas algorítmicas básicas e descobriu "características silenciosas": representações internas continuam a evoluir mesmo quando a função de perda estagna. O estudo descobriu que o modelo já havia aprendido as etapas intermediárias de computação antes de melhorar seu desempenho de saída. Por exemplo: transporte na adição, associação à fila na busca em largura e produto parcial na multiplicação. Essas características se formam gradualmente ao longo de um longo período de estabilidade e, em seguida, se combinam repentinamente para resolver o problema. Os pesquisadores exploraram as representações internas na aritmética binária (adição, multiplicação), algoritmos de grafos (busca em largura, caminho mais curto, ordenação topológica, árvore geradora mínima) e otimização de sequências (submatriz máxima, seleção ativa). Todas as seis tarefas apresentaram uma clara transição em duas fases: após um longo período de estagnação, o desempenho melhorou repentinamente. O experimento de ablação confirmou a relação causal. A remoção dos recursos de transporte (carry) do modelo de adição de 64 bits reduziu a precisão em 75,1%. A eliminação das relações de pertencimento à fila na busca em largura reduziu a precisão em 43,6%. A tarefa do algoritmo requer que várias sub-rotinas trabalhem em conjunto. Um único componente alinhado corretamente não reduzirá a perda até que todas as peças estejam alinhadas. O modelo acumula capacidades potenciais sob uma curva de perda plana. Ao que tudo indica, a perda de entropia cruzada é um método de diagnóstico incompleto. Mesmo que as métricas pareçam estagnadas, uma quantidade significativa de aprendizado interno pode estar ocorrendo. Isso nos levou a desenvolver ferramentas de monitoramento que oferecem um suporte mais abrangente do que apenas curvas de perda. 🔖 Link para o artigo:
Este conteúdo foi gxaicreator.comttps://t.co/Gxsobg3hEN
Obrigado por dedicar seu tempo para ler este tweet! Siga @Yangyixxxx para informações sobre IA, insights de negócios e estratégias de crescimento. Se você gostou deste conteúdo, curta e compartilhe o primeiro tweet para disseminar informações valiosas para mais pessoas.
