Resumo Futuro. Muito interessante, aprofunda a ideia original de previsão multi-token como forma de suprimir a imposição do professor, em vez de acelerar a decodificação. De alguma forma, me lembra a ideia do Free Transformer do @francoisfleuret.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
