X (Twitter)

Baidu は、「画像を通して考える」ことに焦点を当て、画像の拡大縮小、検索、その他のツールを使用してユーザーが画像を自由に拡大/縮小できる ERNIE-4.5-VL-28B-A3B-Thinking をリリースしました。これにより、モデルのきめ細かな詳細とロングテールの視覚知識を処理する能力が向上し、複雑な視覚シーンをより包括的に理解できるようになります。 VLM上のSuper GPT-5-HighとGEMINI-2.5-Proは盲目です多段階推論、グラフ分析、因果推論、STEM 写真ベースの問題解決、ビデオの時間的ローカリゼーションに使用できます。 #百度アーニー #VLM

HF：huggingface.co/baidu/ERNIE-4.…

AIGCLINK（@aigclink）のスレッド

作者情報

スレッド内容