抱歉我們只有超大杯! GLM-4.7實測! 本測試涵蓋了GLM-4.7的程式設計能力, Agent/ToolCall能力, 長上下文召回能力, 帶給大家剛發布的GLM 4.7 的測試結果: 考驗Agent能力的矽基騎手測試, 簡單講是讓大模型使用工具模擬騎手取外帶送餐. GLM 4.7 在24小時總計300回合的極限送餐中收益達到了571.91 元, 執行了總計354 次tool call, 測試使用了大約50% 的上下文空間, 直到超過100K後才停止工作. Agent 測試這次是創了新高, 執行效率特別高, 得益於模型可以在一次會話中發起多個tool call, 節省了時間並能選擇收益最大的方案. 然後是考驗長上下文召回能力的霍格華茲測試, 簡單來講就是在長上下文中, 能否記住上下文並準確的回答問題. GLM 4.7 在192K以內召回水準在91%到100%區間, 而200K也有95%, 召回效果同樣也很不錯. 最後再來看程式設計能力測試上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空間能力有了巨大的提升. 當然性能問題仍然存在, 希望下個版本著重優化下生成代碼的性能問題. 總結, 這次GLM 4.7 在各個方面都有明顯的提升, 作為主力編程模型不是問題, LMArena 和SWE-bench 等編程測試中都取得了開源大模型SOTA 的水平. 不過還是要說一句, 測試中我發現API速度時快時慢, 是不是因為大家都在用新版本導致的? 希望官方趕緊加機器. #GLM47 #智譜AI #智譜GLM #AIAgent #ai程式設計#大模型#開源#KCORES大模型競技場
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。