X (Twitter)

國產開源大模型再添新成員。就在今天，百度又開源了一個多模態思考模型：ERNIE-4.5-VL-28B-A3B-Thinking。僅僅3B 活化參數，多模態理解與推理能力就逼近了GPT-5-High 與Gemini-2.5-Pro 模型。這次最大亮點是它的「圖像思考」能力，可以主動放大、縮小圖片，仔細觀察圖片細節再進行思考回答。就像人一樣，當看到一張圖，經過大腦思考理解，然後告訴大家有什麼內容。以下是官方給的測試案例，一起來看看：

一張打工人實際工作量的老梗圖（圖1）。模型能讀懂其中的笑點，並詳細闡述了這張圖如何精準戳中當代打工人的痛點（圖2）。

一張已經過期了的月餅照片，上面的生產過期日期很模糊（圖1）。即使人把照片放到最大也只能勉強看清，但它依然能正確看到「月餅已經過期了」（圖2）。

還有，一張在深圳北拍攝的夜景圖（圖1）。不給任何提示，它能根據圖中的建築特徵，判斷出具體的拍攝位置（圖2）。而且是有理有據的，真的有點厲害。

總的來看，這次模型引入的「圖像思考」能力，確實挺強的，似乎真的能看懂並理解圖片資訊。目前還沒有線上體驗位址，不過模型已經開源。模型下載：https://t.co/WOYawrwuZL

来自 GitHubDaily（@GitHub_Daily）的推文线程

作者信息

线程正文