アリババが新しいイメージモデル「Z-Image」を発表 効果はすごく良さそうですね! パラメータの 3 分の 1 は、国際的なビジネス モデルとほぼ同じ視覚品質を実現しました。 モデルパラメータ: 6B メモリ使用量:16GB以下で動作可能です。生成速度:わずか8サンプリングステップで高解像度画像を生成できます。対応デバイス:コンシューマーグレードのグラフィックカードでもスムーズに動作可能です。複雑な指示を理解し、推論・思考が可能です。映像はリアルで、照明と影は自然で、テキストレンダリングは非常に正確です(中国語と英語のバイリンガル対応)。
1. フォトリアリスティックな感覚 Z-Image-Turbo による人物、オブジェクト、照明のレンダリングは写真品質に近くなります。 光は自然に溶け込みます。 リアルな肌の質感。 被写界深度が明確に定義されています。 色彩のバランスが取れていて柔らかいです。 リアリズムと美しさの間の良好なバランスを実現しています。
2. 中国語と英語のテキストレンダリング Z-Image は中国語のテキスト生成において独自の利点を持っています: フォント スタイルが安定している (文字化けや位置ずれがない)。 中国語と英語が混在したテキストレイアウトを認識し、構成を調整できます (広告、表紙、その他のシナリオに適しています)。
3. 意味と文化の理解 Z-Image は、深い意味理解と文化モデリング機能を備えています。 それは単に「絵を描く」ことではなく、「文化と世界を理解する」ことです。 ランドマーク、人物、祭り、詩などの概念を認識します。 例えば: 「蘇軾の承天宮夜参」のシーンを正確に生成できます。 古代の詩の内容を視覚化し、詩的なイメージに基づいて画像を作成します。 地理座標に基づいて、特定の地域 (「杭州の西湖」など) のシーンを生成します。 また、茶道、書道、二十四節気などの中国の伝統文化も理解できます。
4. 推論し、考えることができる Prompt Enhancer には「ロジック チェーン」が組み込まれています。 複雑なタスクや曖昧な指示を理解することができます。 例えば: かごの中に鶏とウサギがいます。頭は全部で35個、足は全部で94本あります。鶏とウサギの数を求めなさい。 Z-Image は鶏やウサギの数に応じたシーンを描画することを知っています。
5. 複雑な画像編集 Z-Image-Edit は複雑なテキスト編集コマンドを実行できます。 「キャラクターを笑顔にし、背景を雪の日に変え、服の色はそのままにしてください。」 モデルは、顔の表情、環境、照明を同時に調整できます。 そしてイメージの一貫性を維持します。
Z-Image は、計算コストを 1/3 に抑えながら、国際的な商用モデルとほぼ同等の視覚品質を実現します。 Elo 人間嗜好評価 (AI Arena) によると、Z-Image は他の主要モデルと比較して強力な競争力を示し、オープンソーxiaohu.ai/c/a066c4/z-ima… 詳しい紹介:https://t.co/0pAGcfyWel








