Baidu は、ERNIE-4.5-VL-28B-A3B モデルの Thinking バージョンをオープンソース化しました。 マルチモーダル理解とクロスモーダル推論能力の向上に重点を置きます。 その利点は、効率的なモデル構造設計と強化学習戦略を通じて、比較的小さなパラメータスケールで高精度の視覚的理解と複雑な推論を実現することにあります。 彼ら自身のテストでは、マルチモーダル理解指標のほとんどがGemini-2.5-ProおよびGPT-5-Highモデルの指標に近いことが示されました。文書/グラフ理解タスクでは、目標値を上回る結果が出ました。 今回のアップデートでは、以前のO3と同様の「Thinking with Images(画像で考える)」機能が導入されました。モデルは画像を自動的にズームイン、ズームアウト、トリミングすることで、画像の詳細を発見し、視覚的推論を行うのに役立ちます。 数日前のOCRモデルから現在のERNIE-4.5-VL-28B-A3Bの考え方まで、Baiduは自社の方向性と強みを見つけたようだ。 現在、国内のマルチモーダル分野では競争が激しくなく、優れたマルチモーダルモデルもほとんどありません。誰もがコード開発に注力していますが、マルチモーダル開発においては優れた成果を上げています。 このモデルはHuggingFace、GitHub、PaddlePaddleコミュニティで公開されており、重みと推論コードが公開されています。
モデルのダhuggingface.co/baidu/ERNIE-4.…6tcWBRr
