Je vois de moins en moins l'intérêt de la distillation pour les petits modèles. Si l'on opte de toute façon pour une modélisation entièrement synthétique, il est préférable de cibler sélectivement la tâche et la mémorisation >>> compression floue.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.