X (Twitter)

百度開源了ERNIE-4.5-VL-28B-A3B 的Thinking 版本模型專注於提升多模態理解和跨模態推理能力。優點是透過高效的模型結構設計和強化學習策略，在較小參數規模下實現了高精度的視覺理解與複雜推理。他們自己的測驗大部分指標多模態理解指標與達Gemini-2.5-Pro與GPT-5-High 兩個模型接近。文件/圖表理解任務還超了點。這次更新引入了Thinking with Images 能力，類似先前的O3，模型可以自動對圖片進行放大、縮小、裁切等能力輔助發現圖片細節進行視覺推理。從前幾天的OCR 模型到現在的ERNIE-4.5-VL-28B-A3B 的Thinking 百度好像找到了自己的發力方向和擅長的點。現在在多模態這個層面國內的競爭確實不多，好用的多模態模型也少，大家都盯著代碼的時候他們搞多模態也不錯。模型已經上線HuggingFace/GitHub / 飛槳社區，權重、推理程式碼都公開了。

模型下載：huggingface.co/baidu/ERNIE-4.…

来自歸藏(guizang.ai)（@op7418）的推文线程

作者信息

线程正文