Um guia para iniciantes em Z-Image, incluindo implantação local e exemplos práticos de modelos de texto de prompt. Um laptop com 6 GB de memória de vídeo pode gerar pôsteres de qualidade profissional com caracteres chineses. Este guia fornece uma explicação sistemática, começando pelo download do modelo, configuração do ComfyUI, criação de prompts e resolução de erros comuns. 1. Selecione o plano de implantação apropriado com base na configuração do seu computador (consulte a figura para o plano de configuração). Para dispositivos com RTX 3060 (6GB), RTX 4050 ou outras placas com 6 a 8GB de VRAM, o esquema de quantização GGUF é necessário. Se a VRAM for ≥12GB (como RTX 3060 12G, 4070, 4080, etc.), o modelo BF16 original pode ser usado sem plugins adicionais. 2. Configure o ComfyUI Para que o Z-Image seja executado com sucesso localmente, três componentes principais precisam ser configurados corretamente no ComfyUI: modelo de difusão, codificador de texto e autoencoder variacional. 1) Instale o ComfyUI e baixe os componentes principais. Instale a versão mais recente do ComfyUI e baixe o pacote portátil do site oficial. Em seguida, baixe os três arquivos principais e coloque-os no diretório correspondente do ComfyUI. Arquivo do modelo de difusão: z_image_turbo_bf16.safetensors (ou versão FP8/GGUF, escolha de acordo com a memória da GPU) Caminho: ComfyUI/models/diffusion_models/ Arquivo de codificação de texto: qwen_3_4b.safetensors (Observe que este é um modelo de linguagem grande com 3,4 bilhões de parâmetros, não um CLIP tradicional) Caminho: ComfyUI/models/text_encoders/ Arquivo de autoencoder variacional: ae.safetensors (geralmente compatível com o VAE do Flux, mas recomenda-se usar o oficial) Caminho: ComfyUI/models/vae/ Coloque esses três arquivos nos diretórios correspondentes no ComfyUI e coloque o modelo de difusão em models/diffusion_models/. O codificador de texto está localizado em models/text_encoders/ Coloque o arquivo VAE em models/vae/ Após a conclusão, você poderá selecionar o fluxo de trabalho correspondente com base no tamanho da memória de vídeo. O segundo passo será detalhado no próximo artigo. #ZImage #AIImage #ImageGenerationTutorial
2) Solução de Implantação Rápida para 12GB+ de VRAM: Se a placa gráfica tiver ≥12GB de VRAM (como RTX 3060 12G, 4070, 4080, etc.), recomenda-se usar o fluxo de trabalho padrão do Z-Image para obter a melhor qualidade de imagem e velocidade. Carregar nós do modelo No ComfyUI, selecionar "Z-Image Turbo Text-to-Image" na biblioteca de modelos à esquerda carregará automaticamente os três componentes principais já localizados nos diretórios correspondentes. Carregue o arquivo z_image_turbo_bf16.safetensors usando o nó Load Diffusion Model. Carregue os tensores ae.safetensors usando o nó Load VAE. Carregue qwen_3_4b usando DualCLIPLoader ou um carregador de codificador de texto Z-Image personalizado. Se os arquivos tiverem sido colocados corretamente, o modelo geralmente será carregado automaticamente, sem necessidade de configuração manual. Configurações do amostrador No modo de subplot padrão, você pode modificar as configurações básicas. Se precisar de configurações mais detalhadas, clique no canto superior direito para abrir o subplot e realizar ajustes adicionais. Os parâmetros do KSampler são cruciais para os resultados gerados e devem ser configurados rigorosamente de acordo com as seguintes instruções. Passos: Defina o valor para 8 ou 9. Não o defina muito alto, como 20 ou 30, caso contrário, a pele pode ficar com aspecto ceroso ou desenvolver manchas. CFG: Definido para 1.0 Nome do amostrador: Euler recomendado Agendador: recomenda-se o uso do sgm_uniform ou do agendador padrão simple. Os testes demonstraram que o sgm_uniform reduz efetivamente o ruído em contagens de passos baixas. Shift: Defina para 3 para resolução de 1024 e 7 para resolução de 2K. [Configurações de resolução] O Z-Image é otimizado para resoluções padrão, como 1024x1024, 1280x720 e 720x1280. Evite gerar diretamente resoluções ultra-altas, como 4K. Em vez disso, gere primeiro uma imagem em 2K e depois amplie-a usando um Upscaler para garantir estabilidade na composição e qualidade dos detalhes. Após concluir os três passos acima, você pode inserir a palavra-chave e clicar em "Enfileirar comando" para gerar a imagem.
3) Esquema de quantização GGUF para fluxos de trabalho com pouca memória (usuários com 6-8 GB de VRAM) Se você estiver usando um dispositivo com 6 a 8 GB de memória de vídeo, como uma RTX 3060 (6 GB) ou RTX 4050, então você precisa usar o esquema de quantização GGUF. Primeiro, você precisa instalar o plugin ComfyUI-GGUF no ComfyUI através do ComfyUI Manager. Em seguida, baixe dois arquivos no formato GGUF da plataforma do modelo: o modelo de difusão z_image_turbo_Q4_K_M.gguf e o codificador de texto qwen_3_4b_Q4_K_M.gguf. Esta etapa é crucial. Os próprios tensores de segurança qwen_3_4b não quantizados ocuparão mais de 6 GB de memória da GPU. Mesmo que o modelo principal tenha sido quantizado, o carregamento ainda falhará devido ao estouro de memória da GPU. Coloque esses dois arquivos nos diretórios models/diffusion_models/ e models/text_encoders/, respectivamente. Na ComfyUI, o nó Unet Loader (GGUF) é usado para carregar o modelo de difusão, o nó CLIP Loader (GGUF) é usado para carregar o codificador de texto e um nó VAELoader é conectado para carregar os tensores de segurança oficiais do AE. Os parâmetros do amostrador estão definidos para serem consistentes com o fluxo de trabalho padrão: Etapas=8, CFG=1.0, Agendador=sgm_uniform O uso da memória de vídeo pode ser reduzido para menos de 6 GB. Embora o tempo de inferência seja ligeiramente maior, o problema de OutOfMemoryError (OOM) é completamente resolvido.
3. Melhore o fluxo de trabalho com lembretes. Uma etapa opcional de processamento LLM pode ser adicionada ao início do fluxo de trabalho para aproveitar ao máximo o potencial do Z-Image. Este LLM expande automaticamente entradas simples (como "um frasco de perfume") em instruções detalhadas que incluem cena, iluminação, materiais e parâmetros fotográficos, melhorando assim a qualidade do resultado. A seguir, apresentamos três tipos de cenários de alta frequência com modelos diretamente reutilizáveis que não exigem configuração adicional. 1) Fotografia de produto para comércio eletrônico: [Gerar uma imagem de exibição para um frasco de perfume] Palavras-chave: Fotografia comercial hiper-realista e cinematográfica de um produto. O tema principal é um frasco de perfume de vidro âmbar translúcido com tampa de metal dourado escovado, elegantemente posicionado sobre uma placa de ardósia escura e áspera, emergindo de águas calmas. A cena se passa em uma floresta tropical enevoada ao nascer do sol. Iluminação e atmosfera: Uma forte luz volumétrica (efeito Tyndall) incide através das exuberantes folhas das palmeiras, projetando sombras complexas e salpicadas e criando padrões cáusticos brilhantes e dançantes na água e nas garrafas de vidro. A luz quente, dourada e etérea contrasta com os tons frios e escuros das rochas e da água. Detalhes e Materiais: Foco macro de alta qualidade. Gotículas de condensação são visíveis na superfície da garrafa, refletindo a vegetação ao redor. A textura da ardósia é incrivelmente fina, com manchas de musgo. Ondulações suaves na superfície da água criam reflexos e refrações realistas. Ao fundo, partículas desfocadas e delicadas flores brancas de jasmim flutuam na superfície da água. Especificações técnicas: Filmado com uma câmera Hasselblad X2D 100C, lente macro de 80 mm e abertura f/2.8 para obter um fundo desfocado suave. Resolução 8K, foco ultranítido na área do logotipo da marca, reflexos com traçado de raios, renderização com Unreal Engine 5 e gradação de cores que remete a um editorial de revista de luxo. 2) Cultura Oriental/Hanfu/Ponto Turístico [Gerar um retrato de uma mulher vestindo Hanfu] Descrição: Uma concubina imperial da Dinastia Tang, de beleza incomparável, vestida com várias camadas de Hanfu de seda vermelha (um tipo de Hanfu com cintura alta), bordado com intrincados padrões de fênix e peônias em fios de ouro. Ela está em pé no terraço do grande palácio, com a movimentada vista noturna de Chang'an como pano de fundo e milhares de lanternas Kongming flutuando no céu noturno. Detalhes da maquiagem e do penteado: A testa está pintada com delicados desenhos florais, e o cabelo está preso em um coque alto, adornado com grampos, presilhas douradas e borlas de pérola que brilham sob as luzes. Atmosfera: A luz amarela e quente da lanterna se entrelaça com o azul frio do luar. A cena está repleta de um clima festivo. Renderização: Texturas de tecido extremamente detalhadas, iluminação cinematográfica, efeitos de profundidade de campo, resolução 8K — um deleite visual como o filme "A Lenda do Gato Demônio".
4. Problemas Comuns Isso conclui o processo completo de implantação local do Z-Image. No uso real, você pode encontrar problemas como imagens completamente pretas, texto ilegível ou textura de pele com aspecto ceroso. Isso geralmente decorre de configurações de parâmetros incorretas, erros ao carregar arquivos ou formatação incorreta da mensagem de erro.
GitHub:github.com/Tongyi-MAI/Z-I…A Abraço facihuggingface.co/Tongyi-MAI/Z-I…p2bC ModelSmodelscope.cn/models/Tongyi-…CTqgnS









