El secreto detrás de Stable Diffusion: ¡Resulta que ha estado eliminando ruido todo el tiempo, no dibujando! --- Es posible que haya utilizado difusión estable. Cuando escribes "Un gato está sentado en un sofá". Luego mira la barra de progreso y avanza poco a poco. 10%... 20%... 30%... La imagen poco a poco se fue haciendo más clara. Al principio, todo era ruido. Luego se pueden ver vagamente algunas formas. Luego podrás ver el contorno del gato. Finalmente apareció una imagen clara. ¿Alguna vez te has preguntado qué hace realmente? La respuesta es: reducción de ruido. No se trata de "dibujar" una imagen. Es "reducción de ruido". Para empezar, lo presentamos con un gráfico de ruido puro. Es como la pantalla estática que aparece cuando no hay señal en un televisor. Luego, va eliminando el ruido poco a poco. Con cada bit eliminado la imagen se vuelve más clara. Después de 50 pasos la imagen se volvió clara. Este es DDPM: Modelo probabilístico de difusión y eliminación de ruido. (Modelo de probabilidad de difusión de eliminación de ruido) Suena complicado, pero la esencia son sólo dos palabras: reducción de ruido. Pero hay un lugar mágico aquí: ¿Cómo sabe qué tipo de resultado debe lograr? Quiero decir, es el mismo montón de ruido, Puedes ir al gato, puedes ir al perro, puedes ir al coche. ¿Cómo sabe que quieres un gato? La respuesta es: Tú lo dijiste. Escribiste "Un gato está sentado en el sofá". Este texto se convertirá en un vector. Luego, durante cada paso de reducción de ruido, Todos los modelos mirarán este vector. Lo sé: Oh, quieres un gato, no un perro. Por lo tanto, su reducción de ruido está orientada al "gato". Por eso escribes texto diferente. Se generarán diferentes gráficos. Porque los enfoques para la reducción de ruido son diferentes. Y todo esto se basa en una idea sencilla: La generación es esencialmente una eliminación de ruido inversa. Primero, aprenda a agregar ruido. Luego, a la inversa, aprende a eliminar el ruido. El objetivo final de la reducción de ruido es el resultado generado. Tenga en cuenta que este es un artículo innovador de 2020. Desde entonces, todos los mejores modelos de generación de imágenes, Difusión estable, a mitad de camino, DALL-E 2, Utilice este enfoque para todo. No es GAN, es Difusión. La difusión es más estable, más controlable y produce imágenes más realistas. Además, cuando estabas usando Stable Diffusion, es posible que hayas ajustado los siguientes parámetros: Pasos: 50 Escala CFG: 7.5 Muestreador: DPM++ 2M Karras El código se ejecutó correctamente y se generó el gráfico. Pero es posible que no sepas qué significan estos parámetros. Los pasos se refieren al número de pasos de reducción de ruido. La difusión estable no genera un gráfico de una sola vez. Elimina el ruido paso a paso. Pasos = 50 significa eliminar el ruido 50 veces. Cada vez que lo visito, el mapa se vuelve un poco más claro. Cuantos más pasos haya, más claro será el diagrama, pero más lento será. Cuanto menos pasos, más borrosa será la imagen, pero más rápido será. En términos generales, 50 pasos son suficientes. La escala CFG es la intensidad de la guía de texto. CFG es una guía sin clasificadores. Significa: cuánta influencia tiene el texto ingresado en el resultado generado. Con CFG Scale = 1, el texto prácticamente no se ve afectado y el modelo se puede generar arbitrariamente. Escala CFG = 20, el texto tiene un impacto significativo y el modelo se genera estrictamente de acuerdo con el texto. Escala CFG = 7,5 es un equilibrio. Requiere tanto la lectura del texto como un poco de creatividad. Demasiado bajo, la imagen y el texto generados no coinciden. Una resolución demasiado alta da como resultado una imagen rígida y poco inspiradora. Sampler es un método para reducir el ruido. DDPM significa "reducción de ruido de 1000 veces". Pero 1000 veces es demasiado lento. Entonces, alguien inventó más tarde un método más rápido. DPM++, Euler, DDIM... Todo esto trata sobre "cómo eliminar ruido más rápido". Algunos métodos pueden lograr el efecto de 1000 pasos en sólo 20 pasos. Algunos métodos son más estables. Algunos métodos son aún más creativos. El sampler que elijas determinará cómo eliminar el ruido. Esto es lo que significan estos parámetros. Pasos: Elimine el ruido varias veces. Escala CFG: ¿Qué tan significativo es el impacto del texto? Sampler: ¿Qué método se utiliza para la reducción de ruido? ---- Los artículos científicos generados por IA y fáciles de leer son ideales para aprender conceptos complejos.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.