Alibaba lance un nouveau modèle d'image : Z-Image L'effet semble vraiment bon ! Un tiers des paramètres ont atteint une qualité visuelle quasi identique aux modèles commerciaux internationaux. Paramètres du modèle : 6B Utilisation de la mémoire : 16 Go suffisent pour le fonctionnement. Vitesse de génération : des images haute résolution sont générées en seulement 8 étapes d’échantillonnage. Appareils compatibles : les cartes graphiques grand public fonctionnent de manière fluide. Le logiciel comprend des instructions complexes et est capable de raisonner. Les graphismes sont réalistes, l’éclairage et les ombres sont naturels, et le rendu du texte est très précis (bilingue chinois-anglais).
1. Sensation photoréaliste Le rendu des personnes, des objets et de l'éclairage par Z-Image-Turbo est proche de la qualité photographique. La lumière se fond naturellement ; Texture de peau réaliste ; La profondeur de champ est clairement définie ; Les couleurs sont équilibrées et douces. Il parvient à un bon équilibre entre réalisme et esthétique.
2. Rendu des textes chinois et anglais Z-Image présente des avantages uniques en matière de génération de texte chinois : Le style de police est stable (pas de caractères brouillés ni de désalignement) ; Il peut reconnaître les mises en page de textes mixtes chinois et anglais et coordonner la composition (convient à la publicité, aux couvertures et à d'autres scénarios).
3. Compréhension sémantique et culturelle Z-Image fait preuve d'une profonde compréhension sémantique et de capacités de modélisation culturelle. Il ne s'agit pas seulement de « peinture » ; il s'agit de « comprendre la culture et le monde ». Il connaît des concepts tels que les monuments, les personnes, les festivals et les poèmes. Par exemple: Il peut générer correctement la scène de « La visite nocturne de Su Shi au temple de Chengtian » ; Visualisez le contenu des poèmes anciens et créez des images basées sur l'imagerie poétique ; Générer une scène d'une région spécifique (comme « le lac de l'Ouest à Hangzhou ») à partir de coordonnées géographiques. Ils peuvent également comprendre la culture traditionnelle chinoise, comme la cérémonie du thé, la calligraphie et les termes solaires.
4. Capable de raisonner et de réfléchir Son système d'amélioration des réponses intègre une « chaîne logique » intégrée. Il peut comprendre des tâches complexes ou des instructions ambiguës. Par exemple: Il y a des poules et des lapins dans une cage. Il y a 35 têtes et 94 pattes au total. Déterminez le nombre de poules et de lapins. Z-Image sait dessiner la scène correspondant au nombre de poulets et de lapins.
5. Retouche d'images complexe Z-Image-Edit peut exécuter des commandes complexes d'édition de texte : « Faites sourire le personnage, changez le décor pour une journée enneigée et conservez les couleurs originales des vêtements. » Le modèle peut ajuster simultanément les expressions faciales, l'environnement et l'éclairage. Et veiller à la cohérence de l'image.
Z-Image atteint une qualité visuelle quasi identique aux modèles commerciaux internationaux pour un coût de calcul trois xiaohu.ai/c/a066c4/z-ima… l'évaluation des préférences humaines Elo (sur AI Arena), Z-Image démontre une forte compétitivité par rapport aux autres modèles leaders, tout en atteignant des résultats de pointe parmi les modèles open-source. Présentation détaillée : https://t.co/0pAGcfyWel








