Je trouve ça magnifique : créer un modèle ViT à partir de pixels bruts implique un entraînement conjoint de tous les éléments. Ce modèle, déjà pauvre, doit résoudre MNIST indépendamment, puis apprendre à optimiser parfaitement ses calculs de poids. Et ainsi de suite… avec pour seule contrainte les données fournies. C’est pourquoi le concept de « modèles de base » de @percyliang en 2021 était si perturbateur/sacrilège dans la course entre Google et OpenAI pour le GPT : au lieu de 1 000 petits modèles différents, chacun spécialisé dans ses tâches, concentrer tout ce budget/données/ressources dans un seul supermodèle capable de modéliser 1 000 tâches ; ce faisant, on obtient : 1) l’apprentissage par transfert, 2) des capacités pour lesquelles on n’a jamais été explicitement entraîné, 3) des capacités émergentes qui ne se débloquent qu’à un certain niveau de paramètres/profondeur/taux d’exposition aux données.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
