Eu realmente não gosto que nas primeiras camadas X_t represente o token t e gradualmente passe a representar o token t+1 na última camada. Isso não faz o menor sentido, é objetivamente repugnante.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.