Baidu は新しい VLM モデルをリリースしました。以下に概要を示します。 ERNIE-4.5-VL-28B-A3B-Thinkingマルチモーダルモデルは、合計28個のパラメータを持ちますが、MoEアーキテクチャを採用しているため、実際のアクティベーションパラメータはわずか3Bであり、非常に軽量です。 重要な点は、そのパフォーマンスが非常に強力であり、複数のベンチマークテストでトップクラスのフラッグシップモデルのパフォーマンスに近づいていることです。 このモデルの主な特徴は次のとおりです。 視覚的推論: これについては以前にも何度か実証しましたが、画像要素を識別できるだけでなく、内容を推測することもできます。 STEM推論:数学、物理学などの写真ベースの問題解決タスクの処理に役立ちます。視覚的ローカリゼーション:より正確なローカリゼーション機能と柔軟なコマンド実行を提供します。画像ベース思考:モデルは人間のように思考し、画像を自由にズームイン・ズームアウトして細部まで把握できます。ツールの使用:画像検索などの機能を使用して、ロングテール知識を特定できます。 - ビデオ理解: さまざまな期間にわたるビデオのコンテンツの変更を識別します。 現在、vLLMを含む多くのデプロイメント方法をサポートしています。ただし、spaceの公式デモはまだリリースされていないため、直接テストすることはできません。しばらくお待ちください。ご興味があれば、後ほどテストしてみます。 モデルアドレス:
詳細データ
詳細データ2







