Enfin, un livre comme celui-ci ! Plusieurs chercheurs de renom en IA ont collaboré à un article qui fournit une explication détaillée des principes des modèles de diffusion. J'ai traduit une version bilingue ; le lien est ci-dessous 👇 Cela permet une compréhension très complète du modèle de diffusion fondamental des modèles d'images et de vidéos actuels, notamment : Chapitre 1 : Un aperçu de la définition, de l'importance et de la lignée des modèles génératifs, jetant les bases d'une compréhension unifiée. Chapitre 2 (Perspective VAE) : Connexion à DDPM avec l'inférence variationnelle et explication de l'entraînement et de l'échantillonnage à l'aide de variables latentes et d'objectifs de reconstruction/débruitage. Chapitre 3 (Perspective EBM/Score) : Des modèles énergétiques aux SDE NCSN/Score, décrivant la dynamique générative avec correspondance fractionnaire et SDE à temps continu. Chapitre 4 : L'échantillonnage est la solution inverse de l'EDO/EDS au fil du temps, et la distribution des données est approximée étape par étape à l'aide du champ de vecteurs de dérive de diffusion. Chapitre 5 (Perspective NF) : Du flux régularisé à la correspondance de flux, unifiant l'idée de « transport piloté par la probabilité au fil du temps » grâce à l'apprentissage réversible du champ de transformation/flux. Chapitre six : En utilisant la formule de substitution du calcul comme base unifiée et en employant des « techniques de conditionnalisation » pour transformer les problèmes difficiles en régressions, on obtient une formation stable et contrôlable. Chapitre 8 : Réexamen de DDIM et DPM-Solver dans le cadre des EDO, clarification de leur relation avec les méthodes numériques classiques et explication du principe d'échantillonnage rapide. Chapitre 9 : Intégration numérique et contrôle d'erreur systématisés et optimisés pour accélérer l'échantillonnage itératif tout en maintenant la fidélité et la stabilité. Chapitre 10 : Propose l'approche de « cartographie des flux », telle que le modèle de cohérence, pour apprendre directement le démappage de n'importe quel pas de temps à n'importe quel pas de temps afin de générer la solution en moins d'étapes. Chapitre 11 : Extension des trajectoires cohérentes et du flux moyen pour apprendre la trajectoire complète (intégrale) pour une génération de haute qualité en une ou très peu d'étapes.
Adrespan.quark.cn/s/2a5100e32b51/t.co/92kzC8YvM3
