X (Twitter)

Alibaba lança novo modelo de imagem: Z-Image Parece que o efeito é realmente bom! Um terço dos parâmetros alcançou qualidade visual quase idêntica à de modelos de negócios internacionais. Parâmetros do modelo: 6B Uso de memória: 16 GB ou menos são suficientes para executar. Velocidade de geração: Imagens de alta resolução podem ser geradas em apenas 8 etapas de amostragem. Dispositivos compatíveis: Placas de vídeo de nível básico funcionam sem problemas. O programa consegue entender instruções complexas, raciocinar e pensar. Os visuais são realistas, a iluminação e as sombras são naturais e a renderização de texto é muito precisa (bilíngue em chinês e inglês).

1. Sensação fotorrealista A renderização de pessoas, objetos e iluminação pelo Z-Image-Turbo se aproxima da qualidade fotográfica. A luz se mistura naturalmente; Textura de pele realista; A profundidade de campo está claramente definida; As cores são equilibradas e suaves. Consegue um bom equilíbrio entre realismo e estética.

2. Tradução de texto em chinês e inglês O Z-Image possui vantagens exclusivas na geração de texto em chinês: O estilo da fonte é estável (sem caracteres ilegíveis ou desalinhamento); Ele consegue reconhecer layouts de texto mistos em chinês e inglês e coordenar a composição (adequado para publicidade, capas e outros cenários).

3. Compreensão Semântica e Cultural O Z-Image demonstra uma profunda compreensão semântica e capacidades de modelagem cultural. Não se trata apenas de "pintura"; trata-se de "compreender a cultura e o mundo". Conhece conceitos como pontos turísticos, pessoas, festivais e poemas. Por exemplo: Ele consegue gerar corretamente a cena de "Visita Noturna de Su Shi ao Templo Chengtian"; Visualize o conteúdo de poemas antigos e crie imagens baseadas na linguagem poética; Gere uma cena de uma região específica (como "Lago Oeste em Hangzhou") com base em coordenadas geográficas. Eles também conseguem compreender a cultura tradicional chinesa, como a cerimônia do chá, a caligrafia e os termos solares.

4. Capacidade de raciocinar e pensar Seu recurso Prompt Enhancer incorpora uma "cadeia lógica" integrada. Ele consegue compreender tarefas complexas ou instruções ambíguas. Por exemplo: Há galinhas e coelhos em uma gaiola. Há um total de 35 cabeças e 94 patas. Encontre o número de galinhas e coelhos. O Z-Image sabe desenhar a cena correspondente ao número de galinhas e coelhos.

5. Edição complexa de imagens O Z-Image-Edit pode executar comandos complexos de edição de texto: "Faça o personagem sorrir, mude o cenário para um dia de neve e mantenha as cores originais das roupas." O modelo consegue ajustar simultaneamente as expressões faciais, o ambiente e a iluminação. E manter a consistência da imagem.

O Z-Image atinge uma qualidade visual quase idêntica à dos modelos comerciais internacionais com apenas 1/3 do custo compxiaohu.ai/c/a066c4/z-ima…com a avaliação de preferência humana da Elo (na AI Arena), o Z-Image demonstra forte competitividade em comparação com outros modelos líderes, ao mesmo tempo que alcança resultados de última geração entre os modelos de código aberto. Introdução detalhada: https://t.co/0pAGcfyWel

Thread de 小互 (@imxiaohu)

Informações do autor

Conteúdo da thread