X (Twitter)

Baidu は新しい VLM モデルをリリースしました。以下に概要を示します。 ERNIE-4.5-VL-28B-A3B-Thinkingマルチモーダルモデルは、合計28個のパラメータを持ちますが、MoEアーキテクチャを採用しているため、実際のアクティベーションパラメータはわずか3Bであり、非常に軽量です。重要な点は、そのパフォーマンスが非常に強力であり、複数のベンチマークテストでトップクラスのフラッグシップモデルのパフォーマンスに近づいていることです。このモデルの主な特徴は次のとおりです。視覚的推論: これについては以前にも何度か実証しましたが、画像要素を識別できるだけでなく、内容を推測することもできます。 STEM推論：数学、物理学などの写真ベースの問題解決タスクの処理に役立ちます。視覚的ローカリゼーション：より正確なローカリゼーション機能と柔軟なコマンド実行を提供します。画像ベース思考：モデルは人間のように思考し、画像を自由にズームイン・ズームアウトして細部まで把握できます。ツールの使用：画像検索などの機能を使用して、ロングテール知識を特定できます。 - ビデオ理解: さまざまな期間にわたるビデオのコンテンツの変更を識別します。現在、vLLMを含む多くのデプロイメント方法をサポートしています。ただし、spaceの公式デモはまだリリースされていないため、直接テストすることはできません。しばらくお待ちください。ご興味があれば、後ほどテストしてみます。モデルアドレス:

詳細データ

詳細データ2

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容