LogoThread Easy
  • Explorer
  • Composer un thread
LogoThread Easy

Votre partenaire tout-en-un pour les threads Twitter

© 2025 Thread Easy All Rights Reserved.

Explorer

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

抱歉我们只有超大杯! GLM-4.7实测!

本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果:

考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐.

GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作.

Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案.

然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题.

GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错.

最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题.

总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平.

不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器.

#GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Tue Dec 23 09:53:43
文心5.0刚刚夺得了LMArena文本排行榜国产SOTA!

LMArena刚刚更新了大模型文本排行榜数据, 百度文心5.0-preview-1203 (ERNIE-5.0-Preview-1203) 刚刚获得了大模型文本能力排行榜第10名, 也是唯一一个跻身前十名的国产大模型. 超过了GPT-5.2 和 Claude-Sonnet-4.5. 第二个国产大模型排在了第22名, 所以也是前20名中唯一的非美国模型, 在一众英语作为主要语言的头部大模型中取得文本能力上的突破真的是很难的.

给大家简单介绍下大模型的文本能力,简单来说就是AI理解和生成自然语言的核心竞争力, 大家日常使用AI的对话交互,以及深层次的语义理解、逻辑推理、知识整合和多轮对话连贯性这些都是大模型的文本能力.

百度在传统NLP领域这方面积累很多, 作为中文互联网的主要入口,百度长期积累了海量的中文网页、问答、知识图谱数据. 这些真实的、多样化的中文语料,为文心大模型提供了得天独厚的训练资源,让它对中文的理解远超其他模型. 

目前国产大模型百花齐放的状态非常好, 不仅是写代码能力, 其他的像数学能力, Agent 能力国产大模型都能达到一个非常高的水平, 期待国产大模型的进步.

#文心大模型 #百度文心 #ERNIE #文心5 #LMArena

文心5.0刚刚夺得了LMArena文本排行榜国产SOTA! LMArena刚刚更新了大模型文本排行榜数据, 百度文心5.0-preview-1203 (ERNIE-5.0-Preview-1203) 刚刚获得了大模型文本能力排行榜第10名, 也是唯一一个跻身前十名的国产大模型. 超过了GPT-5.2 和 Claude-Sonnet-4.5. 第二个国产大模型排在了第22名, 所以也是前20名中唯一的非美国模型, 在一众英语作为主要语言的头部大模型中取得文本能力上的突破真的是很难的. 给大家简单介绍下大模型的文本能力,简单来说就是AI理解和生成自然语言的核心竞争力, 大家日常使用AI的对话交互,以及深层次的语义理解、逻辑推理、知识整合和多轮对话连贯性这些都是大模型的文本能力. 百度在传统NLP领域这方面积累很多, 作为中文互联网的主要入口,百度长期积累了海量的中文网页、问答、知识图谱数据. 这些真实的、多样化的中文语料,为文心大模型提供了得天独厚的训练资源,让它对中文的理解远超其他模型. 目前国产大模型百花齐放的状态非常好, 不仅是写代码能力, 其他的像数学能力, Agent 能力国产大模型都能达到一个非常高的水平, 期待国产大模型的进步. #文心大模型 #百度文心 #ERNIE #文心5 #LMArena

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Tue Dec 23 04:36:15
Meta 的分离音轨大模型 Sam audio 实测!

给大家带来 Meta 刚发布的新模型 Sam audio 的测试, 这个大模型可以分割音轨, 模型有10B 和 30B版本, 我测试了10B版本, 这个版本分割流行音乐效果是可以的, 不过分割共复杂的音乐比如交响乐或者音乐中有很多和声的场景就不太好了, 以及分离出来的音频质量一般般. 模型一次只能分离出来两个音轨, 所以需要多音轨可以把分离一遍的再塞给模型多次分离.

另外, 30B 版本 效果会好很多, 不过30B版本处理 30 秒的音乐就需要 90G 的峰值显存, 要是小一点就更好了.

#SAMAudio #Meta

Meta 的分离音轨大模型 Sam audio 实测! 给大家带来 Meta 刚发布的新模型 Sam audio 的测试, 这个大模型可以分割音轨, 模型有10B 和 30B版本, 我测试了10B版本, 这个版本分割流行音乐效果是可以的, 不过分割共复杂的音乐比如交响乐或者音乐中有很多和声的场景就不太好了, 以及分离出来的音频质量一般般. 模型一次只能分离出来两个音轨, 所以需要多音轨可以把分离一遍的再塞给模型多次分离. 另外, 30B 版本 效果会好很多, 不过30B版本处理 30 秒的音乐就需要 90G 的峰值显存, 要是小一点就更好了. #SAMAudio #Meta

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Mon Dec 22 22:14:54
现在都流行大模型月更吗? MiniMax-M2.1 实测!

申请 MiniMax-M2.1 内测通过了, 给大家带来 MiniMax M2.1 的测试结果:

本次测试较 MiniMax-M2 从编程, Agent能力, 长上下文召回能力均有不小的提升. 尤其是Agent能力和长上下文召回能力达到了摧枯拉朽的程度, 直接叫 MiniMax-M3都不过分.

MiniMax M2.1 在 24 小时总计 300 回合的硅基骑手测试(让大模型调用 tool 送外卖)收益达到了 419.77 元, 总计执行了392次 tool call, 测试使用了大约56%的上下文空间, 这个范围内工具调用均表现良好.

作为对比MiniMax M2, 它的收益是285.27元, 不过只使用了32%的上下文空间, 模型就停止使用 tool call, 不断重复上文了.

MiniMax-M2.1, 在192K长度上下文上有94%的召回水平, 而 MiniMax-M2 只有 52%. 可以说是摧枯拉朽的提升.

另外几个大家熟悉的编程水平测试上也有不同程度的提升. 这次的新模型特别适合大型Agent任务, 有这方面需求的朋友可以试试看.

#MiniMax #MiniMaxM21 #ai写代码 #aiagent #KCORES大模型竞技场

现在都流行大模型月更吗? MiniMax-M2.1 实测! 申请 MiniMax-M2.1 内测通过了, 给大家带来 MiniMax M2.1 的测试结果: 本次测试较 MiniMax-M2 从编程, Agent能力, 长上下文召回能力均有不小的提升. 尤其是Agent能力和长上下文召回能力达到了摧枯拉朽的程度, 直接叫 MiniMax-M3都不过分. MiniMax M2.1 在 24 小时总计 300 回合的硅基骑手测试(让大模型调用 tool 送外卖)收益达到了 419.77 元, 总计执行了392次 tool call, 测试使用了大约56%的上下文空间, 这个范围内工具调用均表现良好. 作为对比MiniMax M2, 它的收益是285.27元, 不过只使用了32%的上下文空间, 模型就停止使用 tool call, 不断重复上文了. MiniMax-M2.1, 在192K长度上下文上有94%的召回水平, 而 MiniMax-M2 只有 52%. 可以说是摧枯拉朽的提升. 另外几个大家熟悉的编程水平测试上也有不同程度的提升. 这次的新模型特别适合大型Agent任务, 有这方面需求的朋友可以试试看. #MiniMax #MiniMaxM21 #ai写代码 #aiagent #KCORES大模型竞技场

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Mon Dec 22 12:53:34
大模型终于能一口气生成5分钟视频了? 

来自复旦, 南京大学等几所大学的研究员发布了新的多模态可控超长视频世界模型 LongVie 2, 这个模型最大的特点是可以生成长达5分钟的视频.

该模型基于 Wan 2.1 魔改, 实现了一个个三阶段流水线, 包括多模态引导,针对输入帧的退化感知训练和历史上下文引导 从而达到了输出3至5分钟的连贯视频.其核心是优先保证因果一致性,而非简单的帧预测.

大模型终于能一口气生成5分钟视频了? 来自复旦, 南京大学等几所大学的研究员发布了新的多模态可控超长视频世界模型 LongVie 2, 这个模型最大的特点是可以生成长达5分钟的视频. 该模型基于 Wan 2.1 魔改, 实现了一个个三阶段流水线, 包括多模态引导,针对输入帧的退化感知训练和历史上下文引导 从而达到了输出3至5分钟的连贯视频.其核心是优先保证因果一致性,而非简单的帧预测.

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Mon Dec 22 04:00:49
开源分解图层大模型这么快就来了?

给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 

本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层).

直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右,  模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Sat Dec 20 12:46:00
  • Previous
  • 1
  • 2
  • 3
  • More pages
  • 32
  • 33
  • Next