X (Twitter)

El equipo de inteligencia artificial de Alibaba AIDC ha desarrollado un modelo de texto a imagen de 7 mil millones de dólares: Ovis-Image, que se especializa en escenarios de "texto en imágenes" y logra resultados comparables a modelos de más de 20 mil millones de dólares. A juzgar por los resultados, la capacidad de renderizado de texto es aceptable. El texto es claro y sin distorsiones, y los diferentes estilos de fuente se integran de forma natural en la escena y los materiales. Se destaca en la generación de carteles, logotipos, pancartas, prototipos de UI e infografías, y puede generar varias fuentes, tamaños y relaciones de aspecto. El benchmark de renderizado de texto CVTG-2K muestra una precisión promedio del 92%, superior al 85% de GPT-4o y al 82% de Qwen-Image. Puntuaciones de LongText-Bench para texto largo: inglés 92,2%, inferior al 95,6% de GPT4o; chino 96,4%, superior al 94,6% de Qwen-Image. #OvisImage #GeneraciónDeImagenesAI #ImagenAI

github：github.com/AIDC-AI/Ovis-I…

Hilo de AIGCLINK (@aigclink)

Información del autor

Contenido del hilo