一款免費開源、能「放大圖片思考「的多模態模型,僅3B啟動參數。 文心的多模態思考模型開源了,模型叫做ERNIE-4.5-VL-28B-A3B-Thinking 比較意外的是,開源用的是Apache-2.0 協議,提供完整的權重、推理程式碼,商用也沒問題。 過去幾年,大模型產業有點像軍備競賽:參數越來越大,算力越來越貴。 其實,小模型也有獨特的優勢:部署成本低、推理速度快,使用場景更多(例如手機運行)。 最大亮點開源模型竟然有"影像思考"能力:會主動放大/縮小影像、聚焦細節、做多步驟推理。 另外,因為是多模態模型,也支援影片分析,文案擷取等能力。 據說在圖文/影片/文件理解與推理任務上表現很穩定。 一些官方案例看起來相當不錯。
模型已經上了HuggingFace、GitHub 和飛槳社群。 Hugging Face: huggingface.co/baidu/ERNIE-4.…0 GitHubgithub.com/PaddlePaddle/E…5github.com/PaddlePaddle/F…bIMp 飛槳星河社區:





