国産オープンソース大型モデルに新たな仲間が加わりました。 ちょうど本日、Baidu は別のマルチモーダル思考モデル ERNIE-4.5-VL-28B-A3B-Thinking をオープンソース化しました。 わずか 3B のアクティベーション パラメータで、そのマルチモーダル理解および推論機能は GPT-5-High および Gemini-2.5-Pro モデルのそれに近づきます。 今回の最大の目玉は、ユーザーが能動的に画像を拡大・縮小し、画像の細部を注意深く観察した上で、自ら考え、疑問に答えることができる「イメージ思考」機能です。 人間と同じように、彼らは絵を見ると、それについて考え、理解し、そしてそこに何が含まれているかをみんなに伝えます。 以下は公式のテストケースです。見てみましょう。
働く人々の実際の仕事量を描いた古典的なミーム(図 1)。 モデルは画像のユーモアを理解し、画像が現代の働く人々の悩みをどのように的確に捉えているかを詳しく説明します (図 2)。
製造期限の日付がぼかされた、賞味期限切れの月餅の写真(図1)。 写真を最大まで拡大しても、かろうじてはっきりとは分かりますが、「月餅の賞味期限が切れている」ということは正確に分かります(図2)。
また、深圳北部で撮影した夜景写真(図1)。 何も指示しなくても、写真内の建築的特徴に基づいて特定の撮影場所を特定できます (図 2)。 そしてそれは確かな推論と証拠に基づいており、本当に素晴らしいです。
全体的に、このモデルによって導入された「イメージ思考」能力は実に強力であり、実際に画像情報を見て理解できるようです。 オンラインデモはまだ提供されhuggingface.co/baidu/ERNIE-4.…モデルのダウンロード: https://t.co/WOYawrwuZL






