X (Twitter)

Alibaba AIDC の AI チームは、70 億のテキストを画像に変換するモデル Ovis-Image を開発しました。これは、「画像内のテキスト」のシナリオに特化しており、200 億以上のモデルに匹敵する結果を実現します。結果から判断すると、テキストレンダリング能力は許容範囲内です。テキストは鮮明で歪みがなく、様々なフォントスタイルをシーンやマテリアルに自然に溶け込ませることができます。ポスター、ロゴ、バナー、UI プロトタイプ、インフォグラフィックの生成に優れており、さまざまなフォント、サイズ、アスペクト比を生成できます。 CVTG-2K テキストレンダリングベンチマークの平均精度は 92% で、GPT-4o の 85% や Qwen-Image の 82% を上回っています。長文の LongText-Bench スコア: 英語 92.2%、GPT4o の 95.6% より低い; 中国語 96.4%、Qwen-Image の 94.6% より高い。 #OvisImage #AI画像生成 #AI画像

ギットハブ: github.com/AIDC-AI/Ovis-I…

AIGCLINK（@aigclink）のスレッド

作者情報

スレッド内容