X (Twitter)

智譜剛剛把GLM-4.6V開源了，核心能力是把“看圖說話”，變成了“看圖辦事” 過去多模態模型以描述圖片內容為主，GLM-4.6V把工具呼叫直接做進視覺模型裡，影像本身就是指令參數比如說，給張街拍照片，它自動調用搜圖/比價接口，返回一份帶有來源、價格、商品縮圖、匹配度與差異說明、購買鏈接的導購清單還有前端復刻，給定設計稿，它可以出像素級高品質HTML/CSS /JS程式碼，支援截圖多輪微調兩個版本： GLM-4.6V（106B-A12B），雲端高效能版 GLM-4.6V-Flash（9B），本地低延遲版，免費使用支援128k視覺上下文相當於把整份財報、整場球賽、整套說明書一次塞進去，還能跨頁、跨鏡頭對比總結，省掉反覆截圖、分段輸入的麻煩價格GLM-4.6V相較於GLM-4.5V降價50%，API 呼叫價格輸入1 元/百萬tokens，輸出3 元/百萬tokens #GLM46V #智譜GLM

GitHub：github.com/zai-org/GLM-V Hugging Facehuggingface.co/collections/za…1 魔搭社群modelscope.cn/collections/GL…C 技術blog：z.ai/blog/glm-4.6v

来自 AIGCLINK（@aigclink）的推文线程

作者信息

线程正文