Le secret de la diffusion stable : il s’avère qu’elle a toujours effectué une réduction du bruit, et non un dessin ! --- Vous avez peut-être utilisé la diffusion stable. Lorsque vous tapez « Un chat est assis sur un canapé ». Ensuite, vous surveillez la barre de progression et vous avancez petit à petit. 10 %... 20 %... 30 %... L'image est progressivement devenue plus nette. Au début, ce n'était que du bruit. Puis, on peut vaguement distinguer quelques formes. On peut alors apercevoir la silhouette du chat. Finalement, une image claire est apparue. Vous êtes-vous déjà demandé à quoi cela sert réellement ? La réponse est : la réduction du bruit. Il ne s'agit pas de « dessiner » un tableau. Il s'agit de « réduction du bruit ». Pour commencer, nous le présentons avec un graphique de bruit pur. C'est comme l'écran fixe qui apparaît lorsqu'il n'y a pas de signal sur un téléviseur. Puis, il élimine progressivement le bruit. À chaque élément supprimé, l'image devient plus nette. Après 50 pas, l'image est devenue nette. Il s'agit du DDPM : Modèle probabiliste de diffusion avec débruitage. (Modèle de probabilité de diffusion pour le débruitage) Cela paraît compliqué, mais l'essentiel se résume à deux mots : réduction du bruit. Mais il y a un endroit magique ici : Comment sait-il quel type de résultat il doit atteindre ? Je veux dire, c'est toujours le même tas de bruit, Tu peux aller voir le chat, tu peux aller voir le chien, tu peux aller voir la voiture. Comment sait-il que vous voulez un chat ? La réponse est : Vous l'avez dit. Vous avez tapé « Un chat est assis sur le canapé ». Ce texte sera converti en vecteur. Ensuite, à chaque étape de réduction du bruit, Tous les modèles prendront en compte ce vecteur. Je sais : Oh, vous voulez un chat, pas un chien. Par conséquent, sa réduction du bruit est orientée vers les chats. C'est pourquoi vous saisissez un texte différent. Différents graphiques seront générés. Parce que les approches en matière de réduction du bruit sont différentes. Et tout cela repose sur une idée simple : La génération est essentiellement un débruitage inversé. Tout d'abord, apprenez à ajouter du bruit. Ensuite, à l'inverse, apprenez à éliminer le bruit. L'objectif ultime de la réduction du bruit est le résultat obtenu. À noter qu'il s'agit d'un article novateur datant de 2020. Depuis, tous les meilleurs modèles de génération d'images, Diffusion stable, mi-parcours, DALL-E 2, Utilisez cette approche pour tout. Ce n'est pas un GAN, c'est de la diffusion. La diffusion est plus stable, plus contrôlable et produit des images plus réalistes. De plus, lorsque vous utilisiez la diffusion stable, vous avez peut-être ajusté les paramètres suivants : Étapes : 50 Échelle CFG : 7,5 Échantillonneur : DPM++ 2M Karras Le code s'est exécuté avec succès et le graphique a été généré. Mais vous ignorez peut-être la signification de ces paramètres. « Steps » fait référence au nombre d'étapes de réduction du bruit. La diffusion stable ne génère pas de graphe en une seule étape. Il élimine le bruit étape par étape. Étapes = 50 signifie supprimer le bruit 50 fois. À chaque visite, la carte devient un peu plus claire. Plus il y a d'étapes, plus le diagramme devient clair, mais plus le processus est lent. Moins il y a d'étapes, plus l'image est floue, mais plus c'est rapide. En règle générale, 50 pas suffisent. L'échelle CFG correspond à l'intensité du guide textuel. CFG signifie « guidage sans classificateur ». Cela signifie : l'influence du texte saisi sur le résultat généré. Avec CFG Scale = 1, le texte est quasiment inchangé et le modèle peut être généré arbitrairement. Échelle CFG = 20, le texte a un impact significatif et le modèle est généré strictement en fonction du texte. L'échelle CFG = 7,5 représente un équilibre. Cela nécessite à la fois la lecture du texte et un peu de créativité. Le niveau est trop bas, l'image et le texte générés ne correspondent pas. Une résolution trop élevée donne une image rigide et sans intérêt. L'échantillonneur est une méthode de réduction du bruit. DDPM signifie « réduction du bruit par 1000 ». Mais 1000 fois, c'est trop lent. Alors, quelqu'un a inventé plus tard une méthode plus rapide. DPM++, Euler, DDIM... Tout cela concerne « comment réduire le bruit plus rapidement ». Certaines méthodes permettent d'obtenir le même résultat qu'en 1000 étapes, en seulement 20 étapes. Certaines méthodes sont plus stables. Certaines méthodes sont encore plus créatives. Le sampler que vous choisissez détermine la méthode de débruitage. Voici la signification de ces paramètres. Étapes : Supprimer le bruit à plusieurs reprises. Échelle CFG : Quelle est l’importance de l’impact du texte ? Échantillonneur : Quelle méthode est utilisée pour la réduction du bruit ? ---- Les articles scientifiques faciles à lire, générés par l'IA, sont idéaux pour l'apprentissage de concepts complexes.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.