Baidu は、「画像を通して考える」ことに焦点を当て、画像の拡大縮小、検索、その他のツールを使用してユーザーが画像を自由に拡大/縮小できる ERNIE-4.5-VL-28B-A3B-Thinking をリリースしました。 これにより、モデルのきめ細かな詳細とロングテールの視覚知識を処理する能力が向上し、複雑な視覚シーンをより包括的に理解できるようになります。 VLM上のSuper GPT-5-HighとGEMINI-2.5-Proは盲目です 多段階推論、グラフ分析、因果推論、STEM 写真ベースの問題解決、ビデオの時間的ローカリゼーションに使用できます。 #百度アーニー #VLM
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
