X (Twitter)

Alibaba lanza un nuevo modelo de imagen: Z-Image ¡Parece que el efecto es realmente bueno! Un tercio de los parámetros lograron una calidad visual casi idéntica a la de los modelos comerciales internacionales. Parámetros del modelo: 6B Uso de memoria: 16 GB o menos son suficientes para funcionar. Velocidad de generación: Se pueden generar imágenes de alta resolución en tan solo 8 pasos de muestreo. Dispositivos compatibles: Las tarjetas gráficas de consumo funcionan sin problemas. Es capaz de comprender instrucciones complejas y razonar. Las imágenes son realistas, la iluminación y las sombras son naturales, y la representación del texto es muy precisa (bilingüe en chino e inglés).

1. Sensación fotorrealista La representación de personas, objetos e iluminación que ofrece Z-Image-Turbo se acerca a la calidad fotográfica. La luz se funde de forma natural; Textura de piel realista; La profundidad de campo está claramente definida; Los colores son equilibrados y suaves. Logra un buen equilibrio entre realismo y estética.

2. Representación de texto en chino e inglés Z-Image tiene ventajas únicas en la generación de texto en chino: El estilo de fuente es estable (sin caracteres ilegibles ni desalineados); Puede reconocer diseños de texto mixtos en chino e inglés y coordinar la composición (adecuado para publicidad, portadas y otros escenarios).

3. Comprensión semántica y cultural Z-Image demuestra una profunda comprensión semántica y capacidades de modelado cultural. No se trata sólo de “pintar”; se trata de “comprender la cultura y el mundo”. Conoce conceptos como lugares de interés, personas, festivales y poemas. Por ejemplo: Puede generar correctamente la escena de "La visita nocturna de Su Shi al Templo Chengtian"; Visualizar el contenido de poemas antiguos y crear imágenes basadas en la imaginería poética; Generar una escena de una región específica (como "Lago Oeste en Hangzhou") en función de coordenadas geográficas. También pueden comprender la cultura tradicional china, como la ceremonia del té, la caligrafía y los términos solares.

4. Capaz de razonar y pensar Su Prompt Enhancer incorpora una "cadena lógica" incorporada. Puede comprender tareas complejas o instrucciones ambiguas. Por ejemplo: Hay gallinas y conejos en una jaula. Hay 35 cabezas y 94 patas en total. Calcula la cantidad de gallinas y conejos. Z-Image sabe dibujar la escena correspondiente al número de gallinas y conejos.

5. Edición de imágenes complejas Z-Image-Edit puede ejecutar comandos de edición de texto complejos: "Haz que el personaje sonría, cambia el fondo a un día nevado y mantén los colores originales de la ropa". El modelo puede ajustar las expresiones faciales, el entorno y la iluminación simultáneamente. Y mantener la consistencia de la imagen.

Z-Image logra una calidad visual casi idéntica a los modelos comerciales internacionales con sólo 1/3 del coste computacixiaohu.ai/c/a066c4/z-ima…ción de preferencia humana de Elo (en AI Arena), Z-Image demuestra una fuerte competitividad en comparación con otros modelos líderes, al tiempo que logra resultados de vanguardia entre los modelos de código abierto. Introducción detallada: https://t.co/0pAGcfyWel

Hilo de 小互 (@imxiaohu)

Información del autor

Contenido del hilo