On entend souvent cela de la part de personnes extérieures au ML ou qui y sont nouvelles, et je cite souvent une conférence qu'Ilya a donnée il y a quelques années : 1) Considérez n'importe quel réseau neuronal profond performant, doté de suffisamment de mémoire et d'opérations séquentielles, comme un simple gros ordinateur parallèle. 2) L'entraînement de ce réseau neuronal consiste à rechercher des programmes informatiques qui maximisent votre objectif. 3) à moins d'avoir un goulot d'étranglement important (et étant donné que vous pouvez optimiser ce système avec succès), vous constaterez que ces ordinateurs parallèles sont très robustes aux changements architecturaux. 4) Cela s'explique par le fait que les ordinateurs excellent dans la simulation mutuelle. Votre nouvelle architecture peut généralement être simulée facilement « à l'intérieur » de votre ancienne architecture. 5) Ce n'est pas que l'architecture n'ait pas d'importance, mais elle compte surtout en ce qui concerne (1) les goulots d'étranglement fondamentaux de cet ordinateur parallèle (2) les modifications qui facilitent l'optimisation des modèles, car cet argument n'est valable que si votre optimisation est bonne (3) les gains d'efficacité de calcul/d'efficacité du système qui rendent l'apprentissage plus facile ou plus rapide. 6) Il est fort possible que de nouvelles architectures mènent à des avancées majeures en apprentissage automatique, mais nous devrions d'abord nous attaquer aux goulots d'étranglement, et non nous fier à des intuitions naturalistes sur la « forme » que devrait prendre l'IA. Tant que vous n'aurez pas compris cela, il semblera surprenant que de petits modèles entraînés plus longtemps soient meilleurs que de grands modèles sous-entraînés, que la profondeur et la largeur soient étonnamment interchangeables, ou encore que l'interaction avec un modèle doté d'une attention MoE, d'une attention parcimonieuse ou d'une attention linéaire soit sensiblement équivalente à des évaluations isométriques.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.