C'est absurde d'avoir résolu le problème de la génération vidéo en le centralisant dans un transformateur. Les biais inductifs qui fonctionnent bien avec le texte ne s'appliquent pas à la vidéo : on fait de l'attention entre des zones de pixels à travers le temps et l'espace ? Et pourtant, ça marche à merveille !
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.