X (Twitter)

A equipe de IA da Alibaba AIDC desenvolveu um modelo de conversão de texto em imagem de 7 bilhões de bits: o Ovis-Image, especializado em cenários de "texto em imagens" e que alcança resultados comparáveis a modelos de mais de 20 bilhões de bits. A julgar pelos resultados, a capacidade de renderização de texto é aceitável. O texto é nítido e sem distorções, e diferentes estilos de fonte podem ser integrados naturalmente à cena e aos materiais. É excelente na geração de pôsteres, logotipos, banners, protótipos de interface do usuário e infográficos, além de poder gerar diversas fontes, tamanhos e proporções. O teste de renderização de texto CVTG-2K apresenta uma precisão média de 92%, superior aos 85% do GPT-4o e aos 82% do Qwen-Image. Resultados do LongText-Bench para textos longos: Inglês 92,2%, inferior aos 95,6% do GPT4o; Chinês 96,4%, superior aos 94,6% do Qwen-Image. #OvisImage #GeraçãoDeImagensComIA #ImagemComIA

github：github.com/AIDC-AI/Ovis-I…

Thread de AIGCLINK (@aigclink)

Informações do autor

Conteúdo da thread