わずか 3B の活性化パラメータで「思考のために画像を拡大」できる、無料のオープンソース マルチモーダル モデル。 Wenxin のマルチモーダル思考モデルはオープンソース化されており、ERNIE-4.5-VL-28B-A3B-Thinking と呼ばれています。 驚くべきことに、オープンソース バージョンは Apache 2.0 ライセンスを使用しており、完全な重みと推論のコードが提供されており、商用利用にも適しています。 過去数年間、大規模モデル業界は軍拡競争のような状況にあり、パラメータはますます大きくなり、計算能力はますます高価になってきました。 実際、小型モデルには、導入コストが低い、推論速度が速い、使用シナリオが豊富(携帯電話での実行など)といった独自の利点もあります。 最大の特徴は、オープンソース モデルが「イメージで考える」機能を備えていることです。つまり、画像を積極的にズームイン/ズームアウトしたり、詳細に焦点を当てたり、複数ステップの推論を実行したりできます。 さらに、マルチモーダルモデルであるため、ビデオ分析、テキスト抽出などの機能もサポートしています。 画像/テキスト/ビデオ/文書の理解と推論を伴うタスクで非常に安定したパフォーマンスを発揮すると言われています。 いくつかの公式のケースはかなり良さそうです。
このモデルは、HuggingFace、GitHub、PaddlePaddle コミュニティにアッhuggingface.co/baidu/ERNIE-4.…ttps://t.cgithub.com/PaddlePaddle/E… github.com/PaddlePaddle/F… https://aistudio.baidu.com/modelsdetail/3…ePaddle Galaxy コミュニティ:





