알리바바 AIDC의 AI 팀은 70억 개의 텍스트-이미지 모델인 Ovis-Image를 개발했습니다. 이 모델은 "이미지 속 텍스트" 시나리오에 특화되어 있으며 200억 개 이상의 모델과 비교 가능한 결과를 달성합니다. 결과를 보면 텍스트 렌더링 성능은 만족스럽습니다. 텍스트가 선명하고 왜곡되지 않았으며, 다양한 글꼴 스타일을 장면과 소재에 자연스럽게 통합할 수 있었습니다. 포스터, 로고, 배너, UI 프로토타입, 인포그래픽을 생성하는 데 탁월하며 다양한 글꼴, 크기, 종횡비를 생성할 수 있습니다. CVTG-2K 텍스트 렌더링 벤치마크는 평균 92%의 정확도를 보이며, 이는 GPT-4o의 85%와 Qwen-Image의 82%보다 높습니다. 긴 텍스트에 대한 LongText-Bench 점수: 영어 92.2%, GPT4o의 95.6%보다 낮음; 중국어 96.4%, Qwen-Image의 94.6%보다 높음. #오비스이미지 #AI이미지제너레이션 #AI이미지
깃허브: https://t.co/XDbhTbrMIQ
