L'équipe d'IA d'Alibaba AIDC a développé un modèle de conversion texte-image de 7 milliards de caractères : Ovis-Image, spécialisé dans les scénarios de « texte dans les images » et qui obtient des résultats comparables à ceux de modèles de plus de 20 milliards de caractères. D'après les résultats, le rendu du texte est satisfaisant. Le texte est net et sans distorsion, et différents styles de police s'intègrent naturellement à la scène et aux matériaux. Il excelle dans la génération d'affiches, de logos, de bannières, de prototypes d'interface utilisateur et d'infographies, et peut générer différentes polices, tailles et proportions. Le test de rendu de texte CVTG-2K affiche une précision moyenne de 92 %, supérieure aux 85 % de GPT-4o et aux 82 % de Qwen-Image. Résultats de LongText-Bench pour les textes longs : anglais 92,2 %, inférieur aux 95,6 % de GPT4o ; chinois 96,4 %, supérieur aux 94,6 % de Qwen-Image. #OvisImage #GénérationImageIA #ImageIA
github:github.com/AIDC-AI/Ovis-I…
