X (Twitter)

百度剛發了個新VLM模型，跟大家整理下： ERNIE-4.5-VL-28B-A3B-Thinking 多模態模型，這個模型雖然總參數有28B，但採用了MoE 架構，實際活化參數只有3B，的確是輕量級。關鍵是性能還挺強，在多個基準測試上已經接近業界頂級旗艦模型的表現了。這個模型的主要特色包括：視覺推理：這個之前有給大家示範過不少，不但能辨識圖片元素還能推理出內容。 STEM 推理：這個是有用的，可以處理數學、物理等拍照解題任務視覺定位：提供更精確的定位能力和靈活的指令執行帶圖思考：模型可以像人一樣思考，能夠自由放大縮小圖片來把握每一個細節工具調用：可以使用圖片搜尋等功能來識別長尾知識 -影片理解：辨識影片不同時段的內容變化目前部署也支援很多，包括vLLM 等。不過官方並沒有放出space demo 供大家直接測試，可以等一等。如果大家有興趣的話我稍後會做測試。模型位址：

詳細數據

詳細數據2

来自 karminski-牙医（@karminski3）的推文线程

作者信息

线程正文