X (Twitter)

一款免費開源、能「放大圖片思考「的多模態模型，僅3B啟動參數。文心的多模態思考模型開源了，模型叫做ERNIE-4.5-VL-28B-A3B-Thinking 比較意外的是，開源用的是Apache-2.0 協議，提供完整的權重、推理程式碼，商用也沒問題。過去幾年，大模型產業有點像軍備競賽：參數越來越大，算力越來越貴。其實，小模型也有獨特的優勢：部署成本低、推理速度快，使用場景更多（例如手機運行）。最大亮點開源模型竟然有"影像思考"能力：會主動放大/縮小影像、聚焦細節、做多步驟推理。另外，因為是多模態模型，也支援影片分析，文案擷取等能力。據說在圖文/影片/文件理解與推理任務上表現很穩定。一些官方案例看起來相當不錯。

模型已經上了HuggingFace、GitHub 和飛槳社群。 Hugging Face： huggingface.co/baidu/ERNIE-4.…0 GitHubgithub.com/PaddlePaddle/E…5github.com/PaddlePaddle/F…bIMp 飛槳星河社區：

模型已經上了HuggingFace、GitHub 和飛槳社群。

Hugging Face：
https://t.co/8YZJ18EcG0

GitHub：
https://t.co/68APvdB5ux
https://t.c

來自向阳乔木（@vista8）的推文串

作者資訊

推文串內容