Z-Image에 대한 초보자 가이드에는 현지 배치와 프롬프트 워드 템플릿의 실제 예가 포함되어 있습니다. 6GB 비디오 메모리를 탑재한 노트북으로 상업용 중국어 포스터를 제작할 수 있습니다. 이 가이드는 모델 다운로드, ComfyUI 구성, 프롬프트 작성, 일반적인 오류 해결 등 체계적인 설명을 제공합니다. 1. 컴퓨터 구성에 따라 적절한 배포 계획을 선택합니다(구성 계획은 그림 참조). RTX 3060(6GB), RTX 4050 또는 6~8GB의 다른 VRAM을 탑재한 기기의 경우 GGUF 양자화 방식이 필요합니다. VRAM이 12GB 이상인 경우(예: RTX 3060 12GB, 4070, 4080 등)에는 추가 플러그인 없이 기존 BF16 모델을 사용할 수 있습니다. 2. ComfyUI 구성 Z-Image를 로컬에서 성공적으로 실행하려면 ComfyUI에서 확산 모델, 텍스트 인코더, 변형 자동 인코더라는 세 가지 핵심 구성 요소를 올바르게 구성해야 합니다. 1) ComfyUI를 설치하고 핵심 구성 요소를 다운로드하세요. ComfyUI 최신 버전을 설치하고 공식 웹사이트에서 휴대용 패키지를 다운로드하세요. 그런 다음 세 개의 핵심 파일을 다운로드하여 ComfyUI의 해당 디렉토리에 넣습니다. 확산 모델 파일: z_image_turbo_bf16.safetensors(또는 FP8/GGUF 버전, GPU 메모리에 따라 선택) 경로: ComfyUI/models/diffusion_models/ 텍스트 인코더 파일: qwen_3_4b.safetensors(이것은 기존 CLIP이 아닌 3.4B 매개변수가 있는 대규모 언어 모델입니다) 경로: ComfyUI/models/text_encoders/ 변형 자동 인코더 파일: ae.safetensors(일반적으로 Flux의 VAE와 호환되지만 공식 파일을 사용하는 것이 좋습니다) 경로: ComfyUI/models/vae/ 이 세 개의 파일을 ComfyUI의 해당 디렉토리에 넣고, 확산 모델을 models/diffusion_models/에 넣습니다. 텍스트 인코더는 models/text_encoders/에 배치됩니다. VAE 파일을 models/vae/에 넣으세요. 완료되면 비디오 메모리 크기에 따라 해당 워크플로를 선택할 수 있습니다. 두 번째 단계는 다음 기사에서 자세히 설명합니다. #ZImage #AIImage #ImageGenerationTutorial
2) 12GB 이상 VRAM을 위한 신속한 배포 솔루션: 그래픽 카드에 VRAM이 12GB 이상인 경우(예: RTX 3060 12G, 4070, 4080 등), 최상의 이미지 품질과 속도를 얻으려면 Z-Image의 표준 워크플로를 사용하는 것이 좋습니다. 모델 노드 로드 ComfyUI에서 왼쪽의 템플릿 라이브러리에서 "Z-Image Turbo Text-to-Image"를 선택하면 해당 디렉토리에 이미 배치된 세 가지 핵심 구성 요소가 자동으로 로드됩니다. Load Diffusion Model 노드를 사용하여 z_image_turbo_bf16.safetensors를 로드합니다. Load VAE 노드를 사용하여 ae.safetensor를 로드합니다. DualCLIPLoader 또는 사용자 정의 Z-Image Text Encoder Loader를 사용하여 qwen_3_4b를 로드합니다. 파일이 올바르게 배치된 경우, 일반적으로 수동 구성 없이 모델이 자동으로 로드됩니다. 샘플러 설정 기본 서브플롯 모드에서는 기본 설정을 수정할 수 있습니다. 더 자세한 설정이 필요하면 오른쪽 상단 모서리를 클릭하여 서브플롯을 열고 추가 설정을 할 수 있습니다. KSampler의 매개변수는 생성된 결과에 매우 중요하며 다음 지침에 따라 엄격하게 설정해야 합니다. 단계: 값을 8 또는 9로 설정합니다. 20이나 30처럼 너무 높게 설정하지 마세요. 그렇지 않으면 피부가 윤기 없어 보이거나 잡티가 생길 수 있습니다. CFG: 1.0으로 설정 샘플러 이름: 추천 오일러 스케줄러: sgm_uniform 또는 기본 simple을 권장합니다. 테스트 결과 sgm_uniform은 낮은 단계 수에서 노이즈를 효과적으로 줄이는 것으로 나타났습니다. Shift: 1024 해상도의 경우 3으로 설정하고, 2K 해상도의 경우 7로 설정합니다. [해상도 설정] Z-Image는 1024x1024, 1280x720, 720x1280과 같은 표준 해상도에 가장 최적화되어 있습니다. 4K와 같은 초고해상도를 직접 생성하는 것은 피하세요. 대신, 먼저 2K 이미지를 생성한 후 업스케일러를 사용하여 확대하여 구도 안정성과 디테일 품질을 확보하세요. 위의 세 단계를 완료한 후 프롬프트 단어를 입력하고 "프롬프트 대기"를 클릭하면 이미지가 생성됩니다.
3) 저메모리 워크플로(6-8GB VRAM 사용자)를 위한 GGUF 양자화 방식 RTX 3060(6GB)이나 RTX 4050과 같이 6~8GB의 비디오 메모리가 있는 장치를 사용하는 경우 GGUF 양자화 방식을 사용해야 합니다. 먼저 ComfyUI Manager를 통해 ComfyUI에 ComfyUI-GGUF 플러그인을 설치해야 합니다. 그런 다음 모델 플랫폼에서 두 개의 GGUF 형식 파일, 즉 확산 모델 z_image_turbo_Q4_K_M.gguf와 텍스트 인코더 qwen_3_4b_Q4_K_M.gguf를 다운로드합니다. 이 단계는 매우 중요합니다. 양자화되지 않은 qwen_3_4b.safetensor 자체는 6GB 이상의 GPU 메모리를 차지합니다. 메인 모델이 양자화되었더라도 GPU 메모리 오버플로로 인해 로딩이 실패합니다. 두 파일을 각각 models/diffusion_models/ 및 models/text_encoders/ 디렉토리에 넣습니다. ComfyUI에서는 Unet Loader(GGUF) 노드를 사용하여 확산 모델을 로드하고, CLIP Loader(GGUF) 노드를 사용하여 텍스트 인코더를 로드하고, VAELoader 노드를 연결하여 공식 ae.safetensor를 로드합니다. 샘플러 매개변수는 표준 워크플로와 일관되도록 설정됩니다. 단계=8, CFG=1.0, 스케줄러=sgm_uniform 비디오 메모리 사용량을 6GB 미만으로 줄일 수 있습니다. 추론 시간은 약간 길어지지만, OutOfMemoryError(OOM) 문제는 완전히 해결되었습니다.
3. 프롬프트를 사용하여 워크플로우를 향상시키세요 워크플로의 프런트 엔드에 선택적 LLM 처리 단계를 추가하면 Z-Image의 잠재력을 최대한 활용할 수 있습니다. 이 LLM은 간단한 입력(예: "향수 병")을 장면, 조명, 재료, 사진 매개변수를 포함하는 자세한 지침으로 자동으로 확장하여 출력 품질을 향상시킵니다. 추가 구성이 필요 없이 바로 재사용 가능한 템플릿을 사용한 세 가지 유형의 고빈도 시나리오는 다음과 같습니다. 1) 전자상거래 상품 사진 촬영: [향수병 디스플레이 이미지 생성] 키워드: 초현실적이고 영화적인 광고 제품 사진. 주요 피사체는 브러시드 골드 메탈 캡이 달린 반투명 호박색 유리 향수병으로, 잔잔한 물에서 솟아오른 거친 질감의 어두운 슬레이트 위에 우아하게 자리 잡고 있습니다. 이 장면은 일출 무렵의 안개 낀 열대 우림을 배경으로 합니다. 조명과 분위기: 틴들 효과로 인해 강렬하고 입체적인 빛이 위쪽의 무성한 야자수 잎 사이로 쏟아져 내려, 복잡하고 얼룩덜룩한 그림자를 드리우고 물과 유리병 위에 밝고 춤추는 가성적인 무늬를 만들어냅니다. 따뜻하고 황금빛이며 신비로운 빛은 바위와 물의 차갑고 어두운 색조와 대조를 이룹니다. 디테일 및 소재: 정교한 매크로 클로즈업 포커스. 병 표면에 맺힌 물방울이 주변 녹지를 반사하며 보입니다. 슬레이트의 질감은 놀라울 정도로 섬세하며, 이끼가 묻어 있습니다. 수면의 잔잔한 잔물결은 사실적인 반사와 굴절을 만들어냅니다. 배경에는 초점이 맞지 않은 입자와 섬세한 흰색 재스민 꽃이 수면에 떠 있습니다. 기술 사양: 80mm 매크로 렌즈와 f/2.8 조리개가 장착된 Hasselblad X2D 100C 카메라를 사용하여 크리미하고 흐릿한 배경을 구현했습니다. 8K 해상도, 브랜드 로고 영역에 대한 매우 선명한 초점, 레이 트레이싱 반사, Unreal Engine 5 렌더링 스타일, 고급 잡지 편집을 연상시키는 컬러 그레이딩 스타일. 2) 동양 문화/한복/랜드마크 [한복을 입은 여성의 초상화 생성] 프롬프트: 비할 데 없이 아름다운 당나라 황후가 붉은색 비단 한복(높은 허리를 가진 한복의 한 종류)을 여러 겹 입고 정교한 금실로 봉황과 모란 무늬를 수놓았습니다. 그녀는 장안의 번화한 야경을 배경으로 웅장한 궁궐 테라스에 서 있으며, 밤하늘에는 수천 개의 공명등이 떠 있습니다. 메이크업과 스타일링 세부 사항: 이마는 섬세한 꽃무늬로 칠해져 있고, 머리는 높은 빵 모양으로 묶고, 머리핀, 금색 머리핀, 조명 아래에서 반짝이는 진주 장식으로 장식되어 있습니다. 분위기: 따뜻한 노란색 등불이 시원한 푸른 달빛과 어우러져 축제 분위기가 물씬 풍깁니다. 렌더링: 매우 세부적인 패브릭 텍스처, 영화 같은 조명, 피사계 심도 효과, 8K 해상도 - 마치 영화 "마묘전설"과 같은 시각적 향연입니다.
4. 일반적인 문제 이것으로 Z-Image의 전체 로컬 배포 프로세스가 완료되었습니다. 실제 사용 시 완전히 검은색 이미지, 깨지는 텍스트, 또는 칙칙한 피부 질감과 같은 문제가 발생할 수 있습니다. 이는 일반적으로 잘못된 매개변수 설정, 파일 로딩 오류 또는 잘못된 오류 메시지 형식 때문에 발생합니다.
GitHub:github.com/Tongyi-MAI/Z-I…A 포옹하는 얼굴: hthuggingface.co/Tongyi-MAI/Z-I…모델스코프: https://t.co/1ZiPCTqgnS









