Acho isso belíssimo — fazer ViT a partir de pixels brutos significa que você precisa treinar tudo em conjunto — esse pobre modelo precisa resolver o MNIST de forma independente e, DEPOIS/TAMBÉM, aprender a ser uma calculadora perfeita em seus pesos. Depois, continua... limitado apenas pelos dados que você fornece. É por isso que o conceito de "modelos fundamentais" de @percyliang em 2021 foi tão disruptivo/sacrilégio na corrida entre Google e OpenAI pelo GPT: em vez de 1000 pequenos modelos diferentes, todos especializados em suas tarefas, concentre todo esse orçamento/dados/recursos em um supermodelo que tenha a capacidade de modelar 1000 tarefas; ao longo do processo, você obtém 1) aprendizado por transferência, 2) capacidades para as quais você nunca treinou explicitamente, 3) habilidades emergentes que só são desbloqueadas em uma determinada taxa de exposição de parâmetros/profundidade/dados.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
