ローカル展開やプロンプト ワード テンプレートの実用的な例を含む、Z-Image の初心者向けガイドです。 6GBのビデオメモリを搭載したノートパソコンなら、商用グレードの中国語文字入りポスターを作成できます。このガイドでは、モデルのダウンロード、ComfyUIの設定、プロンプトの作成、よくあるエラーの解決方法など、体系的に解説しています。 1. コンピュータの構成に基づいて適切な展開プランを選択します (構成プランの図を参照)。 RTX 3060(6GB)、RTX 4050、または6~8GBのVRAMを搭載したデバイスでは、GGUF量子化スキームが必要です。VRAMが12GB以上の場合(RTX 3060 12G、4070、4080など)、追加のプラグインなしでオリジナルのBF16モデルを使用できます。 2. ComfyUIを設定する Z-Image をローカルで正常に実行するには、拡散モデル、テキスト エンコーダー、変分オートエンコーダーの 3 つのコア コンポーネントを ComfyUI で正しく構成する必要があります。 1) ComfyUIをインストールし、コアコンポーネントをダウンロードします。ComfyUIの最新バージョンをインストールし、公式サイトからポータブルパッケージをダウンロードします。 次に、3 つのコア ファイルをダウンロードし、ComfyUI の対応するディレクトリに配置します。 拡散モデルファイル: z_image_turbo_bf16.safetensors (または FP8/GGUF バージョン、GPU メモリに応じて選択) パス: ComfyUI/models/diffusion_models/ テキストエンコーダファイル: qwen_3_4b.safetensors (これは従来のCLIPではなく、34億のパラメータを持つ大規模な言語モデルであることに注意してください) パス: ComfyUI/models/text_encoders/ 変分オートエンコーダファイル: ae.safetensors (通常は Flux の VAE と互換性がありますが、公式のものを使用することをお勧めします) パス: ComfyUI/models/vae/ これら 3 つのファイルを ComfyUI の対応するディレクトリに配置し、拡散モデルを models/diffusion_models/ に配置します。 テキストエンコーダはmodels/text_encoders/に配置されます。 VAEファイルをmodels/vae/に配置します。 完了すると、ビデオ メモリのサイズに基づいて対応するワークフローを選択できます。 2 番目のステップについては次の記事で詳しく説明します。 #ZImage #AIImage #ImageGenerationTutorial
2) 12GB以上のVRAM向けの迅速な導入ソリューション: グラフィックカードに12GB以上のVRAMがある場合(RTX 3060 12G、4070、4080など)、最高の画質と速度を得るためにZ-Imageの標準ワークフローを使用することをお勧めします。 モデルノードをロードする ComfyUI では、左側のテンプレート ライブラリから「Z-Image Turbo Text-to-Image」を選択すると、対応するディレクトリにすでに配置されている 3 つのコア コンポーネントが自動的に読み込まれます。 Load Diffusion Model ノードを使用して z_image_turbo_bf16.safetensors をロードします。 Load VAE ノードを使用して ae.safetensors をロードします。 DualCLIPLoader またはカスタム Z-Image Text Encoder Loader を使用して qwen_3_4b をロードします。 ファイルが正しく配置されている場合、通常、手動で構成しなくてもモデルは自動的に読み込まれます。 サンプラー設定 デフォルトのサブプロットモードでは、基本的な設定を変更できます。より詳細な設定が必要な場合は、右上隅をクリックしてサブプロットを開き、詳細な設定を行うことができます。 KSampler のパラメータは生成される結果にとって非常に重要なので、以下の手順に従って厳密に設定する必要があります。 手順: 値を 8 または 9 に設定します。20 や 30 などの高い値に設定しないでください。そうしないと、肌がワックスのように見えたり、傷ができたりする可能性があります。 CFG: 1.0 に設定 サンプラー名: 推奨オイラー スケジューラ: sgm_uniform またはデフォルトの simple を推奨します。テストの結果、sgm_uniform はステップ数が少ない場合にノイズを効果的に低減することが確認されています。 Shift: 1024 解像度の場合は 3 に設定し、2K 解像度の場合は 7 に設定します。 [解像度設定] Z-Imageは、1024x1024、1280x720、720x1280などの標準解像度に最適化されています。4Kなどの超高解像度を直接生成することは避けてください。代わりに、まず2K画像を生成し、アップスケーラーを使用して拡大することで、構図の安定性とディテールの品質を確保できます。 上記の 3 つの手順を完了したら、プロンプトの単語を入力し、「プロンプトをキュー」をクリックして画像を生成できます。
3) 低メモリワークフロー向けのGGUF量子化スキーム(6~8GBのVRAMユーザー) RTX 3060 (6GB) や RTX 4050 など、6~8GB のビデオ メモリを搭載したデバイスを使用している場合は、GGUF 量子化スキームを使用する必要があります。 まず、ComfyUI マネージャーを通じて ComfyUI に ComfyUI-GGUF プラグインをインストールする必要があります。 次に、モデル プラットフォームから 2 つの GGUF 形式のファイル (拡散モデル z_image_turbo_Q4_K_M.gguf とテキスト エンコーダー qwen_3_4b_Q4_K_M.gguf) をダウンロードします。 このステップは非常に重要です。量子化されていないqwen_3_4b.safetensor自体は6GB以上のGPUメモリを占有します。メインモデルが量子化されていても、GPUメモリオーバーフローにより読み込みは失敗します。 これらの 2 つのファイルをそれぞれ models/diffusion_models/ ディレクトリと models/text_encoders/ ディレクトリに配置します。 ComfyUI では、Unet Loader (GGUF) ノードを使用して拡散モデルをロードし、CLIP Loader (GGUF) ノードを使用してテキスト エンコーダーをロードし、VAELoader ノードを接続して公式の ae.safetensors をロードします。 サンプラーパラメータは標準ワークフローと一致するように設定されています: ステップ=8、CFG=1.0、スケジューラ=sgm_uniform ビデオメモリ使用量を6GB未満に削減できます。推論時間は若干長くなりますが、OutOfMemoryError(OOM)の問題は完全に解決されます。
3. プロンプトでワークフローを強化する オプションの LLM 処理ステップをワークフローのフロントエンドに追加して、Z-Image の可能性を最大限に活用できます。 この LLM は、単純な入力 (「香水瓶」など) を、シーン、照明、マテリアル、写真パラメータなどの詳細な指示に自動的に拡張し、出力の品質を向上させます。 以下は、追加の構成を必要とせず、直接再利用可能なテンプレートを使用した 3 種類の高頻度シナリオです。 1) Eコマース商品写真撮影: [香水瓶のディスプレイ画像を生成する] キーワード:超写実的で映画的な商業製品写真。メインの被写体は、艶消しゴールドのメタルキャップが付いた半透明の琥珀色のガラス製香水瓶。穏やかな水面から浮かび上がる、ざらざらとした質感のダークスレートの上に優雅に鎮座しています。舞台は日の出の霧深い熱帯雨林です。 照明と雰囲気:力強いボリュームライト(チンダル効果)が、上空の青々としたヤシの葉の間から降り注ぎ、複雑でまだら模様の影を落とし、水面とガラス瓶に明るく踊るような腐食模様を作り出しています。温かく、黄金色で、優美な光は、岩と水の冷たく暗い色調と対照的です。 ディテールと素材:精巧なマクロクローズアップ。ボトル表面には水滴が浮かび、周囲の緑を映し出しています。スレートの質感は驚くほど細かく、苔の斑点が見られます。水面の穏やかな波紋は、リアルな反射と屈折を生み出しています。背景には、ピントの合っていない粒子と繊細な白いジャスミンの花が水面に浮かんでいます。 技術仕様: ハッセルブラッド X2D 100C カメラ、80mm マクロ レンズ、f/2.8 絞りを使用して撮影し、なめらかにぼけた背景を実現。8K 解像度、ブランド ロゴ領域への超鮮明なフォーカス、レイ トレーシングによる反射、Unreal Engine 5 レンダリング スタイル、高級雑誌の編集記事を彷彿とさせるカラー グレーディング スタイル。 2) 東洋文化/漢服/ランドマーク [漢服を着た女性の肖像画を生成する] 題材:唐代の皇后。比類なき美しさを誇る。赤い絹の漢服(腰の高いタイプの漢服)を重ね着し、金糸で鳳凰と牡丹の精緻な刺繍が施されている。壮麗な宮殿のテラスに立つ。背景には長安の賑やかな夜景が広がり、夜空には数千個の孔明灯が浮かんでいる。 メイクとスタイリングの詳細: 額には繊細な花柄が描かれ、髪は高めのお団子にまとめられ、ヘアピン、金色のヘアピン、照明の下で輝く真珠のタッセルで飾られています。 雰囲気:温かみのある黄色のランタンの光が、涼しげな青い月光と溶け合い、祝祭の雰囲気が満ち溢れています。 レンダリング: 非常に詳細な布地のテクスチャ、映画のような照明、被写界深度効果、8K 解像度 - 映画「魔猫伝説」のような視覚的な饗宴。
4. よくある問題 これでZ-Imageのローカル展開プロセスは完了です。実際の使用時には、画像が真っ黒になったり、文字化けしたり、肌の質感がワックス状になったりといった問題が発生する可能性があります。 これは通常、不適切なパラメータ設定、ファイルの読み込みエラー、またはエラー メッセージの形式が正しくないことが原因で発生します。
GitHub:github.com/Tongyi-MAI/Z-I…A ハグフェイス: httphuggingface.co/Tongyi-MAI/Z-I…スコープ: https://t.co/1ZiPCTqgnS









