百度剛發了個新VLM模型,跟大家整理下: ERNIE-4.5-VL-28B-A3B-Thinking 多模態模型,這個模型雖然總參數有28B,但採用了MoE 架構,實際活化參數只有3B,的確是輕量級。 關鍵是性能還挺強,在多個基準測試上已經接近業界頂級旗艦模型的表現了。 這個模型的主要特色包括: 視覺推理:這個之前有給大家示範過不少,不但能辨識圖片元素還能推理出內容。 STEM 推理:這個是有用的,可以處理數學、物理等拍照解題任務視覺定位:提供更精確的定位能力和靈活的指令執行帶圖思考:模型可以像人一樣思考,能夠自由放大縮小圖片來把握每一個細節工具調用:可以使用圖片搜尋等功能來識別長尾知識 -影片理解:辨識影片不同時段的內容變化 目前部署也支援很多,包括vLLM 等。不過官方並沒有放出space demo 供大家直接測試,可以等一等。如果大家有興趣的話我稍後會做測試。 模型位址:
詳細數據
詳細數據2







