智譜剛剛把GLM-4.6V開源了,核心能力是把“看圖說話”,變成了“看圖辦事” 過去多模態模型以描述圖片內容為主,GLM-4.6V把工具呼叫直接做進視覺模型裡,影像本身就是指令參數 比如說,給張街拍照片,它自動調用搜圖/比價接口,返回一份帶有來源、價格、商品縮圖、匹配度與差異說明、購買鏈接的導購清單 還有前端復刻,給定設計稿,它可以出像素級高品質HTML/CSS /JS程式碼,支援截圖多輪微調 兩個版本: GLM-4.6V(106B-A12B),雲端高效能版 GLM-4.6V-Flash(9B),本地低延遲版,免費使用 支援128k視覺上下文相當於把整份財報、整場球賽、整套說明書一次塞進去,還能跨頁、跨鏡頭對比總結,省掉反覆截圖、分段輸入的麻煩 價格GLM-4.6V相較於GLM-4.5V降價50%,API 呼叫價格輸入1 元/百萬tokens,輸出3 元/百萬tokens #GLM46V #智譜GLM
GitHub:github.com/zai-org/GLM-V Hugging Facehuggingface.co/collections/za…1 魔搭社群modelscope.cn/collections/GL…C 技術blog:z.ai/blog/glm-4.6v