Una guía para principiantes de Z-Image, que incluye implementación local y ejemplos prácticos de plantillas de palabras clave. Una laptop con 6 GB de memoria de video puede generar pósteres de calidad comercial con caracteres chinos. Esta guía ofrece una explicación sistemática, comenzando con la descarga de modelos, la configuración de ComfyUI, la creación de indicaciones y la resolución de errores comunes. 1. Seleccione el plan de implementación adecuado según la configuración de su computadora (consulte la figura para ver el plan de configuración). Para dispositivos con RTX 3060 (6 GB), RTX 4050 u otra VRAM de 6 a 8 GB, se requiere el esquema de cuantificación GGUF. Si la VRAM es ≥12 GB (como RTX 3060 12G, 4070, 4080, etc.), se puede usar el modelo BF16 original sin complementos adicionales. 2. Configurar ComfyUI Para que Z-Image se ejecute correctamente a nivel local, es necesario configurar correctamente tres componentes principales en ComfyUI: modelo de difusión, codificador de texto y autocodificador variacional. 1) Instale ComfyUI y descargue los componentes principales. Instale la última versión de ComfyUI y descargue el paquete portable desde el sitio web oficial. Luego descargue los tres archivos principales y colóquelos en el directorio correspondiente de ComfyUI. Archivo del modelo de difusión: z_image_turbo_bf16.safetensors (o versión FP8/GGUF, elija según la memoria de la GPU) Ruta: ComfyUI/models/diffusion_models/ Archivo codificador de texto: qwen_3_4b.safetensors (Tenga en cuenta que este es un modelo de lenguaje grande con parámetros 3.4B, no un CLIP tradicional) Ruta: ComfyUI/models/text_encoders/ Archivo de autocodificador variacional: ae.safetensors (normalmente compatible con VAE de Flux, pero se recomienda utilizar el oficial) Ruta: ComfyUI/models/vae/ Coloque estos tres archivos en los directorios correspondientes en ComfyUI y coloque el modelo de difusión en models/diffusion_models/. El codificador de texto se coloca en modelos/text_encoders/ Coloque el archivo VAE en models/vae/ Una vez completado, puede seleccionar el flujo de trabajo correspondiente según el tamaño de la memoria de video. El segundo paso se detalla en el siguiente artículo. #ZImage #AIImage #ImageGenerationTutorial
2) Solución de implementación rápida para 12 GB+ de VRAM: si la tarjeta gráfica tiene ≥12 GB de VRAM (como RTX 3060 12G, 4070, 4080, etc.), se recomienda utilizar el flujo de trabajo estándar de Z-Image para obtener la mejor calidad y velocidad de imagen. Nodos del modelo de carga En ComfyUI, al seleccionar "Z-Image Turbo Text-to-Image" de la biblioteca de plantillas a la izquierda, se cargarán automáticamente los tres componentes principales ya ubicados en los directorios correspondientes. Cargue z_image_turbo_bf16.safetensors utilizando el nodo Modelo de difusión de carga. Cargue ae.safetensors utilizando el nodo Cargar VAE. Cargue qwen_3_4b utilizando DualCLIPLoader o un cargador de codificador de texto Z-Image personalizado. Si los archivos se han colocado correctamente, el modelo normalmente se cargará automáticamente sin necesidad de configuración manual. Configuración del sampler En el modo de subtrama predeterminado, puede modificar la configuración básica. Si necesita ajustes más detallados, haga clic en la esquina superior derecha para abrir la subtrama y acceder a más ajustes. Los parámetros de KSampler son cruciales para los resultados generados y deben configurarse estrictamente de acuerdo con las siguientes instrucciones. Pasos: Establezca el valor en 8 o 9. No lo establezca demasiado alto, como 20 o 30, de lo contrario puede provocar que la piel luzca cerosa o desarrolle imperfecciones. CFG: Establecer en 1.0 Nombre del muestreador: Euler recomendado Programador: se recomienda usar sgm_uniform o la opción simple predeterminada. Las pruebas han demostrado que sgm_uniform reduce eficazmente el ruido con un número bajo de pasos. Shift: Establezca en 3 para una resolución de 1024 y en 7 para una resolución de 2K. [Configuración de resolución] Z-Image se optimiza mejor para resoluciones estándar como 1024x1024, 1280x720 y 720x1280. Evite generar directamente resoluciones ultraaltas, como 4K. En su lugar, genere primero una imagen 2K y luego amplíela con un escalador para garantizar la estabilidad de la composición y la calidad del detalle. Después de completar los tres pasos anteriores, puede ingresar la palabra clave y hacer clic en "Indicación en cola" para generar la imagen.
3) Esquema de cuantificación GGUF para flujos de trabajo con poca memoria (usuarios de VRAM de 6 a 8 GB) Si está utilizando un dispositivo con 6-8 GB de memoria de video, como una RTX 3060 (6 GB) o una RTX 4050, entonces deberá utilizar el esquema de cuantificación GGUF. Primero, debes instalar el complemento ComfyUI-GGUF en ComfyUI a través del Administrador de ComfyUI. Luego, descargue dos archivos en formato GGUF de la plataforma modelo: el modelo de difusión z_image_turbo_Q4_K_M.gguf y el codificador de texto qwen_3_4b_Q4_K_M.gguf. Este paso es crucial. Los qwen_3_4b.safetensors no cuantificados ocuparán más de 6 GB de memoria de la GPU. Incluso si el modelo principal se ha cuantificado, la carga seguirá fallando debido al desbordamiento de la memoria de la GPU. Coloque estos dos archivos en los directorios models/diffusion_models/ y models/text_encoders/ respectivamente. En ComfyUI, el nodo Unet Loader (GGUF) se utiliza para cargar el modelo de difusión, el nodo CLIP Loader (GGUF) se utiliza para cargar el codificador de texto y un nodo VAELoader está conectado para cargar los ae.safetensors oficiales. Los parámetros del muestreador están configurados para ser consistentes con el flujo de trabajo estándar: Pasos=8, CFG=1.0, Programador=sgm_uniform El uso de memoria de video se puede reducir a menos de 6 GB. Aunque el tiempo de inferencia es ligeramente mayor, el problema de OutOfMemoryError (OOM) se soluciona por completo.
3. Mejore el flujo de trabajo con indicaciones Se puede agregar un paso de procesamiento LLM opcional al inicio del flujo de trabajo para aprovechar al máximo el potencial de Z-Image. Este LLM expande automáticamente entradas simples (como "un frasco de perfume") en instrucciones detalladas que incluyen escena, iluminación, materiales y parámetros fotográficos, mejorando así la calidad del resultado. A continuación se muestran tres tipos de escenarios de alta frecuencia con plantillas directamente reutilizables que no requieren configuración adicional. 1) Fotografía de productos de comercio electrónico: [Generar una imagen de visualización para un frasco de perfume] Palabras clave: Fotografía cinematográfica hiperrealista de un producto comercial. El tema principal es un frasco de perfume de vidrio ámbar translúcido con un tapón de metal dorado cepillado, elegantemente situado sobre una pizarra oscura de textura rugosa que emerge de aguas tranquilas. La escena se desarrolla en una brumosa selva tropical al amanecer. Iluminación y atmósfera: Una intensa luz volumétrica (efecto Tyndall) se cuela entre las exuberantes hojas de palmera, proyectando sombras complejas y moteadas, creando brillantes y vibrantes patrones cáusticos sobre el agua y las botellas de vidrio. La cálida, dorada y etérea luz contrasta con los tonos fríos y oscuros de las rocas y el agua. Detalles y materiales: Exquisito enfoque macro. Se aprecian gotas de condensación en la superficie de la botella, que reflejan la vegetación circundante. La textura de la pizarra es increíblemente fina, con manchas de musgo. Las suaves ondulaciones en la superficie del agua crean reflejos y refracciones realistas. Al fondo, partículas desenfocadas y delicadas flores blancas de jazmín flotan sobre la superficie del agua. Especificaciones técnicas: Tomada con una cámara Hasselblad X2D 100C con una lente macro de 80 mm y una apertura de f/2.8 para lograr un fondo borroso cremoso. Resolución de 8K, enfoque ultra claro en el área del logotipo de la marca, reflejos con trazado de rayos, estilo de renderizado Unreal Engine 5, estilo de gradación de color que recuerda a un editorial de una revista de lujo. 2) Cultura oriental/Hanfu/Punto de referencia [Generar un retrato de una mujer vistiendo Hanfu] Indicación: Una concubina imperial de la dinastía Tang, de belleza incomparable, vestida con capas de hanfu de seda roja (un tipo de hanfu de cintura alta), bordado con intrincados diseños de fénix y peonías con hilos de oro. Se encuentra en la gran terraza del palacio, con la vibrante vista nocturna de Chang'an como telón de fondo y miles de faroles Kongming flotando en el cielo nocturno. Detalles de maquillaje y estilismo: La frente está pintada con delicados motivos florales, y el cabello está peinado en un moño alto, adornado con horquillas, horquillas doradas y borlas de perlas que brillan bajo las luces. Ambiente: La cálida luz amarilla de la linterna se entrelaza con la fría luz azul de la luna. La escena se llena de un ambiente festivo. Renderizado: Texturas de tela extremadamente detalladas, iluminación cinematográfica, efectos de profundidad de campo, resolución 8K: un festín visual como la película "La leyenda del gato demonio".
4. Problemas comunes Esto concluye el proceso completo de implementación local para Z-Image. En el uso real, puede encontrar problemas como imágenes completamente negras, texto ilegible o textura de piel cerosa. Generalmente, esto se debe a configuraciones de parámetros incorrectas, errores de carga de archivos o formato incorrecto del mensaje de error.
GitHub:github.com/Tongyi-MAI/Z-I…A Cara abrazahuggingface.co/Tongyi-MAI/Z-I…p2bC ModelSmodelscope.cn/models/Tongyi-…CTqgnS









