百度開源了ERNIE-4.5-VL-28B-A3B 的Thinking 版本模型 專注於提升多模態理解和跨模態推理能力。 優點是透過高效的模型結構設計和強化學習策略,在較小參數規模下實現了高精度的視覺理解與複雜推理。 他們自己的測驗大部分指標多模態理解指標與達Gemini-2.5-Pro與GPT-5-High 兩個模型接近。文件/圖表理解任務還超了點。 這次更新引入了Thinking with Images 能力,類似先前的O3,模型可以自動對圖片進行放大、縮小、裁切等能力輔助發現圖片細節進行視覺推理。 從前幾天的OCR 模型到現在的ERNIE-4.5-VL-28B-A3B 的Thinking 百度好像找到了自己的發力方向和擅長的點。 現在在多模態這個層面國內的競爭確實不多,好用的多模態模型也少,大家都盯著代碼的時候他們搞多模態也不錯。 模型已經上線HuggingFace/GitHub / 飛槳社區,權重、推理程式碼都公開了。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
