É ridículo que tenhamos resolvido o problema do VideoGen jogando tudo em um Transformer. Todas as boas tendências indutivas para texto simplesmente não se aplicam a vídeo: você está fazendo análise de atenção entre patches de pixels ao longo do tempo e do espaço? E mesmo assim funciona maravilhosamente bem.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.