É comum ouvir isso de pessoas de fora ou que são novas na área de aprendizado de máquina, e eu costumo citar uma palestra que Ilya deu alguns anos atrás: 1) Considere qualquer rede neural profunda decente que tenha memória e operações sequenciais suficientes como um grande computador paralelo. 2) Treinar essa rede neural consiste em realizar buscas em programas de computador que maximizem seu objetivo. 3) A menos que você tenha algum gargalo significativo (e considerando que você consiga otimizar esse sistema com sucesso), você descobrirá que esses computadores paralelos são altamente robustos a mudanças arquitetônicas. 4) Isso ocorre porque os computadores são ótimos em simular uns aos outros. Sua nova arquitetura geralmente pode ser simulada de forma direta 'dentro' da sua arquitetura antiga. 5) Não é que a arquitetura não importe, mas importa principalmente em relação a (1) gargalos fundamentais neste computador paralelo (2) modificações que tornam os modelos mais fáceis de otimizar, já que este argumento só é válido se a sua otimização for boa (3) ganhos de eficiência computacional/eficiência do sistema que tornam o aprendizado mais fácil ou mais rápido. 6) É bem possível que novas arquiteturas levem a avanços significativos no aprendizado de máquina, mas primeiro devemos começar pelos gargalos, não por intuições naturalistas sobre a "forma" que a IA deveria assumir. Até que você entenda isso, parecerá surpreendente que modelos pequenos, treinados por mais tempo, sejam melhores do que modelos grandes e subtreinados, que profundidade e largura sejam surpreendentemente intercambiáveis, que interagir com um modelo usando MoE, atenção esparsa ou atenção linear resulte em avaliações isométricas aproximadamente iguais.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.