GLM-4.6V 實測! 會用ToolCall 的大模型能做些什麼? 給大家帶來GLM-4.6V 實測! 由於GLM-4.6V 支持Agent/MCP 能力, 所以我們擴展了測試場景, 包括使用PDF撰寫圖文文案, 使用網站錄屏視頻還原網站, 識別外賣小票等. 直接來看測試結果: 首先是外賣小票測試, 上傳多張外賣小票, 讓模型統計都吃了什麼, 花了多少錢, 並且梳理可能的過敏原. 這個測試完美通過, 而在接下來的測試中, GLM-4.6V 的OCR 能力也是最突出的能力, 所以OCR場景使用是完全沒問題的. 然後是本次新更新的PDF 視覺報告Agent 測試, 即上傳一個PDF, 模型可以調用截圖Agent, 然後總結PDF 內容, 並且配上截圖生成內容豐富的文案. 這個測試中, AI 在處理簡單佈局的PDF 是沒問題的, 可以把裡面的圖片截圖做成的 #GLM #GLM46V #智譜AI #VLM #智譜
然後是動態網站錄影產生動態網站測試, 同樣這個測試中OCR 能力非常不錯, 網頁中的文字都可以還原, 但是文字的動效是沒辦法還原的, 估計需要針對性訓練. 接下來是物件標記測試, 一個有長頸鹿和羚羊的圖片, 這個圖是我精心挑選的,幹擾項很多, 比如右側的長頸鹿, 兩個脖子幾乎重疊, 很容易誤判, 以及下面的2只羚羊被長頸鹿遮擋, 但還是頭尾相接的, 如果模型不能理解哺乳動物身體結構, 就這只羚羊被長頸鹿遮擋, 但還是頭尾相接的, 如果模型不能理解哺乳動物身體結構, 就少一點跟之前的GLM-4.5V 對比還是有進步的, 之前的測試這個是沒辦法完成的. 然後是網站還原測試, 不過寫傳統網站相信大家看膩了, 於是這次增大了測試難度, 直接使用了化學實驗的圖片, 讓GLM-4.6V 使用three.js 進行建模模擬化學實驗. 可以看到電解水試驗完成得不錯, 除了電池以外其他部分還原良好. 然後是複雜的場景, 加熱儀器的所有場景, 加熱。不過這個對於頭部大模型都是足夠困難的測試. 情有可原.
最後是知識量測試, 給GLM-4.6V 一個萬用表圖片, 問大模型該如何測試電池的電量, 這個也是沒問題, 這也是GLM-4.6V 的另一大優勢, 參數量足夠所以知識量特別好, 之前在GLM-4.5V 測試的時候, 它連麻將胡牌都能將胡牌判斷出來. 總結: 相比於幾個月前的GLM-4.5V 這次不但性能繼續有提升, 可以完成之前無法完成的測試, 而且增加了Agent/ MCP 能力, 可以用工具完成任務了, 極大的拓寬了模型的應用場景. 不過測試中對於復雜場景還需要繼續打磨, 期待下一個版本的更新! 另外, 智譜也把GLM-4.6V 加入了GLM Coding Plan, 定價也比GLM-4.5V 便宜了一半, 多模態程式設計任務也可以爽用了! #GLM #GLM46V #智譜AI #VLM









