X (Twitter)

然後是動態網站錄影產生動態網站測試, 同樣這個測試中OCR 能力非常不錯, 網頁中的文字都可以還原, 但是文字的動效是沒辦法還原的, 估計需要針對性訓練. 接下來是物件標記測試, 一個有長頸鹿和羚羊的圖片, 這個圖是我精心挑選的,幹擾項很多, 比如右側的長頸鹿, 兩個脖子幾乎重疊, 很容易誤判, 以及下面的2只羚羊被長頸鹿遮擋, 但還是頭尾相接的, 如果模型不能理解哺乳動物身體結構, 就這只羚羊被長頸鹿遮擋, 但還是頭尾相接的, 如果模型不能理解哺乳動物身體結構, 就少一點跟之前的GLM-4.5V 對比還是有進步的, 之前的測試這個是沒辦法完成的. 然後是網站還原測試, 不過寫傳統網站相信大家看膩了, 於是這次增大了測試難度, 直接使用了化學實驗的圖片, 讓GLM-4.6V 使用three.js 進行建模模擬化學實驗. 可以看到電解水試驗完成得不錯, 除了電池以外其他部分還原良好. 然後是複雜的場景, 加熱儀器的所有場景, 加熱。不過這個對於頭部大模型都是足夠困難的測試. 情有可原.

最後是知識量測試, 給GLM-4.6V 一個萬用表圖片, 問大模型該如何測試電池的電量, 這個也是沒問題, 這也是GLM-4.6V 的另一大優勢, 參數量足夠所以知識量特別好, 之前在GLM-4.5V 測試的時候, 它連麻將胡牌都能將胡牌判斷出來. 總結: 相比於幾個月前的GLM-4.5V 這次不但性能繼續有提升, 可以完成之前無法完成的測試, 而且增加了Agent/ MCP 能力, 可以用工具完成任務了, 極大的拓寬了模型的應用場景. 不過測試中對於復雜場景還需要繼續打磨, 期待下一個版本的更新! 另外, 智譜也把GLM-4.6V 加入了GLM Coding Plan, 定價也比GLM-4.5V 便宜了一半, 多模態程式設計任務也可以爽用了! #GLM #GLM46V #智譜AI #VLM

来自 karminski-牙医（@karminski3）的推文线程

作者信息

线程正文