X (Twitter)

アリババが新しいイメージモデル「Z-Image」を発表効果はすごく良さそうですね！パラメータの 3 分の 1 は、国際的なビジネスモデルとほぼ同じ視覚品質を実現しました。モデルパラメータ: 6B メモリ使用量：16GB以下で動作可能です。生成速度：わずか8サンプリングステップで高解像度画像を生成できます。対応デバイス：コンシューマーグレードのグラフィックカードでもスムーズに動作可能です。複雑な指示を理解し、推論・思考が可能です。映像はリアルで、照明と影は自然で、テキストレンダリングは非常に正確です（中国語と英語のバイリンガル対応）。

1. フォトリアリスティックな感覚 Z-Image-Turbo による人物、オブジェクト、照明のレンダリングは写真品質に近くなります。光は自然に溶け込みます。リアルな肌の質感。被写界深度が明確に定義されています。色彩のバランスが取れていて柔らかいです。リアリズムと美しさの間の良好なバランスを実現しています。

2. 中国語と英語のテキストレンダリング Z-Image は中国語のテキスト生成において独自の利点を持っています: フォントスタイルが安定している (文字化けや位置ずれがない)。中国語と英語が混在したテキストレイアウトを認識し、構成を調整できます (広告、表紙、その他のシナリオに適しています)。

3. 意味と文化の理解 Z-Image は、深い意味理解と文化モデリング機能を備えています。それは単に「絵を描く」ことではなく、「文化と世界を理解する」ことです。ランドマーク、人物、祭り、詩などの概念を認識します。例えば：「蘇軾の承天宮夜参」のシーンを正確に生成できます。古代の詩の内容を視覚化し、詩的なイメージに基づいて画像を作成します。地理座標に基づいて、特定の地域 (「杭州の西湖」など) のシーンを生成します。また、茶道、書道、二十四節気などの中国の伝統文化も理解できます。

4. 推論し、考えることができる Prompt Enhancer には「ロジックチェーン」が組み込まれています。複雑なタスクや曖昧な指示を理解することができます。例えば：かごの中に鶏とウサギがいます。頭は全部で35個、足は全部で94本あります。鶏とウサギの数を求めなさい。 Z-Image は鶏やウサギの数に応じたシーンを描画することを知っています。

5. 複雑な画像編集 Z-Image-Edit は複雑なテキスト編集コマンドを実行できます。「キャラクターを笑顔にし、背景を雪の日に変え、服の色はそのままにしてください。」モデルは、顔の表情、環境、照明を同時に調整できます。そしてイメージの一貫性を維持します。

Z-Image は、計算コストを 1/3 に抑えながら、国際的な商用モデルとほぼ同等の視覚品質を実現します。 Elo 人間嗜好評価 (AI Arena) によると、Z-Image は他の主要モデルと比較して強力な競争力を示し、オープンソーxiaohu.ai/c/a066c4/z-ima… 詳しい紹介：https://t.co/0pAGcfyWel

小互（@imxiaohu）のスレッド

作者情報

スレッド内容