X (Twitter)

統合マルチモーダルモデルはテキストと画像の両方を生成できますが、クロスモーダル推論機能を本当に備えているのでしょうか? この論文では、「相互クロスモーダル推論」を実行する統合モデルの能力を評価するために特別に設計されたベンチマークを紹介します。簡単に言えば、「テキスト思考」の評価モデルはテキスト推論を使用して画像を生成でき、「視覚思考」は画像推論を使用してテキストを生成できます。テスト結果によると、モデルは「テキスト思考」では比較的優れているものの、「視覚的思考」では比較的弱いことがわかりました。

宝玉（@dotey）のスレッド

作者情報

スレッド内容