LogoThread Easy
  • Explorar
  • Criar thread
LogoThread Easy

Seu parceiro completo para threads do Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @Sumanth_077: Test and detect security issues in your LLM Apps!

(100% open-source and locally)

DeepTeam is an open-source LLM red team…

RT @Sumanth_077: Test and detect security issues in your LLM Apps! (100% open-source and locally) DeepTeam is an open-source LLM red team…

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Thu Nov 13 02:06:21
Cursor 最受欢迎和最快增长 AI 模型排行(2025.11 和 2025.04 对比)

半年时间,AI 模型的发展确实经历了翻天覆地的变化,两个榜单都是完全不重合的。

Sonnet 4.5 还是最受欢迎的最强编程模型,很多开源模型都在不断靠近它,但还是不能超越。

Composer 1 这个 Cursor 自家孩子,增长很快,它本身速度也够快,相信 Cursor 团队的 RL 会让它越来越好用,期待。

Gemini 2.5 有些断代了,Gemini 3 跳票让 Gemini 的先发劣势不断显现。

Grok Code Fast 1 的增长最近也有些放缓,老马在编程模型上还会继续发力,传 Grok 也要发 Crok Code 了?

Kimi、GLM 和 Qwen 等开源模型的编程能力也越来越强了,不过可能还是模型供应商方面的问题,使用量没有真的起来,OpenRouter 等的用量也不太理想。

Cursor 最受欢迎和最快增长 AI 模型排行(2025.11 和 2025.04 对比) 半年时间,AI 模型的发展确实经历了翻天覆地的变化,两个榜单都是完全不重合的。 Sonnet 4.5 还是最受欢迎的最强编程模型,很多开源模型都在不断靠近它,但还是不能超越。 Composer 1 这个 Cursor 自家孩子,增长很快,它本身速度也够快,相信 Cursor 团队的 RL 会让它越来越好用,期待。 Gemini 2.5 有些断代了,Gemini 3 跳票让 Gemini 的先发劣势不断显现。 Grok Code Fast 1 的增长最近也有些放缓,老马在编程模型上还会继续发力,传 Grok 也要发 Crok Code 了? Kimi、GLM 和 Qwen 等开源模型的编程能力也越来越强了,不过可能还是模型供应商方面的问题,使用量没有真的起来,OpenRouter 等的用量也不太理想。

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Thu Nov 13 01:37:34
OpenAI 发布 GPT-5.1,在 GPT-5 的基础上升级,更智能的同时也更加"有趣可聊"

两个核心版本
1. GPT-5.1 Instant(即时版)
最常用的模型,现在更温暖、更智能,并且更擅长遵循指令。
关键升级包括:
· 默认语气更加温暖和对话化,带有一定的趣味性
· 首次引入"自适应推理"功能,能够判断何时需要在回答前进行思考
· 在数学和编程评测(如 AIME 2025 和 Codeforces)上表现显著提升
· 指令遵循能力大幅改善

2. GPT-5.1 Thinking(思考版)
高级推理模型,现在在简单任务上更快,在复杂任务上更持久。
主要特点:
· 能够根据问题复杂度动态调整思考时间——简单问题速度提升约2倍,复杂问题思考时间延长约2倍
· 回答更清晰,减少了术语和未定义的专业词汇
· 同样采用更温暖、更有同理心的语气

个性化定制功能
OpenAI 新增了多种对话风格选项,包括专业(Professional)、坦诚(Candid)、古怪(Quirky),这些加入了之前已有的默认、友好、高效、愤世嫉俗和书呆子等风格。

用户可以细致调节:
· 回复的简洁程度
· 温暖程度
· 可读性
· 表情符号使用频率

核心理念转变
OpenAI 明确表示:"出色的 AI 不仅要智能,还要令人愉快地交谈"。这反映了公司从追求技术突破转向注重实用性和用户满意度的战略调整。
这次更新本质上是 OpenAI 在承认 GPT-5 初期问题后的一次"软重启",通过改善沟通风格和用户控制,试图重建用户信任并提升整体体验。

OpenAI 发布 GPT-5.1,在 GPT-5 的基础上升级,更智能的同时也更加"有趣可聊" 两个核心版本 1. GPT-5.1 Instant(即时版) 最常用的模型,现在更温暖、更智能,并且更擅长遵循指令。 关键升级包括: · 默认语气更加温暖和对话化,带有一定的趣味性 · 首次引入"自适应推理"功能,能够判断何时需要在回答前进行思考 · 在数学和编程评测(如 AIME 2025 和 Codeforces)上表现显著提升 · 指令遵循能力大幅改善 2. GPT-5.1 Thinking(思考版) 高级推理模型,现在在简单任务上更快,在复杂任务上更持久。 主要特点: · 能够根据问题复杂度动态调整思考时间——简单问题速度提升约2倍,复杂问题思考时间延长约2倍 · 回答更清晰,减少了术语和未定义的专业词汇 · 同样采用更温暖、更有同理心的语气 个性化定制功能 OpenAI 新增了多种对话风格选项,包括专业(Professional)、坦诚(Candid)、古怪(Quirky),这些加入了之前已有的默认、友好、高效、愤世嫉俗和书呆子等风格。 用户可以细致调节: · 回复的简洁程度 · 温暖程度 · 可读性 · 表情符号使用频率 核心理念转变 OpenAI 明确表示:"出色的 AI 不仅要智能,还要令人愉快地交谈"。这反映了公司从追求技术突破转向注重实用性和用户满意度的战略调整。 这次更新本质上是 OpenAI 在承认 GPT-5 初期问题后的一次"软重启",通过改善沟通风格和用户控制,试图重建用户信任并提升整体体验。

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Thu Nov 13 01:29:29
RT @shao__meng: 5-Day AI Agents Intensive Course with Google (3/5)

谷歌这5天的 AI Agents 课程太硬核了,前三天连续发布白皮书,每一本都值得慢慢阅读,理论结合最佳实践,对重新理解和真正把 AI Age…

RT @shao__meng: 5-Day AI Agents Intensive Course with Google (3/5) 谷歌这5天的 AI Agents 课程太硬核了,前三天连续发布白皮书,每一本都值得慢慢阅读,理论结合最佳实践,对重新理解和真正把 AI Age…

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Nov 12 23:24:50
5-Day AI Agents Intensive Course with Google (3/5)

谷歌这5天的 AI Agents 课程太硬核了,前三天连续发布白皮书,每一本都值得慢慢阅读,理论结合最佳实践,对重新理解和真正把 AI Agents 在企业中落地都很有帮助。

再把这三本白皮书发在这里,前几天错过的朋友们,看这一篇:
1. Introduction to Agents
https://t.co/Gj7i3a89QX
2. Agent Tools & Interoperability with MCP
https://t.co/gSjeM8OZIs
3. Context Engineering: Sessions & Memory
https://t.co/eFC292dE1o

4-5 天一起期待,这周五全部更新。

5-Day AI Agents Intensive Course with Google (3/5) 谷歌这5天的 AI Agents 课程太硬核了,前三天连续发布白皮书,每一本都值得慢慢阅读,理论结合最佳实践,对重新理解和真正把 AI Agents 在企业中落地都很有帮助。 再把这三本白皮书发在这里,前几天错过的朋友们,看这一篇: 1. Introduction to Agents https://t.co/Gj7i3a89QX 2. Agent Tools & Interoperability with MCP https://t.co/gSjeM8OZIs 3. Context Engineering: Sessions & Memory https://t.co/eFC292dE1o 4-5 天一起期待,这周五全部更新。

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Nov 12 13:01:51
新浪微博最新开源了 1.5B 参数“小模型”「VibeThinker-1.5B」,训练成本仅 7800 美元,在数学和编码等复杂推理任务上达到甚至超越大型模型的水平!

背景与动机:为什么小模型能“逆袭”?
OpenAI o1 模型开启了“大型推理模型”(LRM)时代,通过强化学习和长链式思考(Long CoT),在数学定理证明、临床诊断和编程竞赛等领域接近人类专家水平。随后开源项目如 DeepSeek R1(671B)和 Kimi K2(>1T)进一步强化了“规模定律”:参数越多,推理越强。小模型被视为先天不足,无法处理高难度问题。

论文作者质疑这一观点:如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理潜力?答案是肯定的。VibeThinker-1.5B 基于 Qwen2.5-Math-1.5B 基础模型,经过后训练优化,在基准测试中大幅提升——从 AIME24 数学测试的 6.7 分跃升至 80.3 分,编码基准LiveCodeBench V6 从 0 分升至 51.1 分。更惊人的是,它在多个数学挑战上小胜 DeepSeek R1,后者参数规模是它的 400 多倍。这表明,推理能力的瓶颈不在于“体型”,而在于训练范式的创新。

核心创新:Spectrum-to-Signal Principle(谱-信号原理)
论文提出“谱-信号原理”(SSP),这是一个重新定义监督微调(SFT)和强化学习(RL)协同的框架。传统方法视 SFT 为“准确定位最佳答案”的阶段,RL 则进一步精炼。但作者认为,这会让模型陷入单一路径的“局部最优”,限制后续探索空间。SSP 将两阶段解耦为互补角色:

· 谱阶段(SFT):探索多样性  
  SFT 不再追求单次生成(Pass@1)的准确率,而是优化多采样成功率(Pass@K),生成一个“丰富的光谱”——即多种潜在正确解法。这能避免模型固守狭隘模式,提升问题解决的鲁棒性和创造性。  
  实现上采用“两阶段多样性探索蒸馏”:  
  1. 领域感知多样性探测:将数学领域拆分为子域(如代数、几何),为每个子域用强大 LLM 生成探测集,选出在 Pass@K 上最佳的“专家模型”。  
  2. 专家模型融合:通过加权平均(均匀权重)合并专家模型,形成统一 SFT 模型。这平衡了准确性和多样性,为 RL 铺平道路。

· 信号阶段(RL):放大正确路径  
  RL 从 SFT 的“光谱”中挑选并强化最佳推理轨迹。作者引入“最大熵指导政策优化”(MGPO),基于群相对政策优化(GRPO)扩展。GRPO通过采样多组响应计算相对优势,避免外部价值函数的复杂性。MGPO 进一步融入最大熵原理:优先训练不确定性高的样本(准确率接近 50%,即二元分布的最大熵点),用熵偏差正则化加权优势函数。这让模型高效聚焦“高价值”问题,避免浪费计算在已掌握的简单任务上。  
  RL 分两子阶段:先数学推理(上下文从 16K 扩展到 32K),后编码生成,奖励函数为二元正确性。

此外,论文强调数据净化:使用 10-gram 语义匹配去除训练与测试集重叠,确保成绩真实。训练数据结合开源数据集和合成数据,覆盖数学和编码领域。

实验与结果:小模型的“大逻辑”
在多个基准上评估 VibeThinker-1.5B,包括数学(MATH-500、AIME24/25、HMMT25)、编码(LiveCodeBench V5/V6)和知识(GPQA-Diamond)。评估采用 vLLM 后端,多采样 Pass@1,温度 0.6(数学用 1.0)。

· 与小模型比较:VibeThinker 在子 3B 类别中拔尖,AIME25 达 74.4(Qwen3-1.7B 仅 36.8),HMMT25 达 50.4(SmolLM-3B 仅 26.0),编码 V6 达 51.1(基础模型 0.0)。  
· 与大型推理模型比较:数学上小胜 DeepSeek R1(AIME24:80.3 vs. 79.8;AIME25:74.4 vs. 70.0;HMMT25:50.4 vs. 41.7),与 MiniMax-M1-456B 持平。编码稍逊 Magistral Medium(55.9 vs. 59.4)。  
· 与顶级非推理模型比较:数学碾压 GPT-4.1(AIME24:80.3 vs. 46.5)和 Kimi K2(49.5),编码胜 Claude Opus 4(51.1 vs. 47.4)。但在 GPQA 知识测试上仍有差距(46.7 vs. 70-82),提示小模型在广域知识上需进一步优化。

这些结果证实 SSP 的有效性:多样性驱动让小模型在推理密集任务中“以小博大”。

讨论与影响:重塑 AI 格局
VibeThinker 的成功源于算法设计而非参数堆积,推理成本降至大型模型的 1/30-1/60,便于边缘部署(推理成本低 20-70 倍)。它暴露了规模定律的局限:小模型潜力被低估,尤其在数学/编码领域。但知识基准的差距表明,未来需加强广义知识注入。

开源模型和技术报告:

新浪微博最新开源了 1.5B 参数“小模型”「VibeThinker-1.5B」,训练成本仅 7800 美元,在数学和编码等复杂推理任务上达到甚至超越大型模型的水平! 背景与动机:为什么小模型能“逆袭”? OpenAI o1 模型开启了“大型推理模型”(LRM)时代,通过强化学习和长链式思考(Long CoT),在数学定理证明、临床诊断和编程竞赛等领域接近人类专家水平。随后开源项目如 DeepSeek R1(671B)和 Kimi K2(>1T)进一步强化了“规模定律”:参数越多,推理越强。小模型被视为先天不足,无法处理高难度问题。 论文作者质疑这一观点:如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理潜力?答案是肯定的。VibeThinker-1.5B 基于 Qwen2.5-Math-1.5B 基础模型,经过后训练优化,在基准测试中大幅提升——从 AIME24 数学测试的 6.7 分跃升至 80.3 分,编码基准LiveCodeBench V6 从 0 分升至 51.1 分。更惊人的是,它在多个数学挑战上小胜 DeepSeek R1,后者参数规模是它的 400 多倍。这表明,推理能力的瓶颈不在于“体型”,而在于训练范式的创新。 核心创新:Spectrum-to-Signal Principle(谱-信号原理) 论文提出“谱-信号原理”(SSP),这是一个重新定义监督微调(SFT)和强化学习(RL)协同的框架。传统方法视 SFT 为“准确定位最佳答案”的阶段,RL 则进一步精炼。但作者认为,这会让模型陷入单一路径的“局部最优”,限制后续探索空间。SSP 将两阶段解耦为互补角色: · 谱阶段(SFT):探索多样性 SFT 不再追求单次生成(Pass@1)的准确率,而是优化多采样成功率(Pass@K),生成一个“丰富的光谱”——即多种潜在正确解法。这能避免模型固守狭隘模式,提升问题解决的鲁棒性和创造性。 实现上采用“两阶段多样性探索蒸馏”: 1. 领域感知多样性探测:将数学领域拆分为子域(如代数、几何),为每个子域用强大 LLM 生成探测集,选出在 Pass@K 上最佳的“专家模型”。 2. 专家模型融合:通过加权平均(均匀权重)合并专家模型,形成统一 SFT 模型。这平衡了准确性和多样性,为 RL 铺平道路。 · 信号阶段(RL):放大正确路径 RL 从 SFT 的“光谱”中挑选并强化最佳推理轨迹。作者引入“最大熵指导政策优化”(MGPO),基于群相对政策优化(GRPO)扩展。GRPO通过采样多组响应计算相对优势,避免外部价值函数的复杂性。MGPO 进一步融入最大熵原理:优先训练不确定性高的样本(准确率接近 50%,即二元分布的最大熵点),用熵偏差正则化加权优势函数。这让模型高效聚焦“高价值”问题,避免浪费计算在已掌握的简单任务上。 RL 分两子阶段:先数学推理(上下文从 16K 扩展到 32K),后编码生成,奖励函数为二元正确性。 此外,论文强调数据净化:使用 10-gram 语义匹配去除训练与测试集重叠,确保成绩真实。训练数据结合开源数据集和合成数据,覆盖数学和编码领域。 实验与结果:小模型的“大逻辑” 在多个基准上评估 VibeThinker-1.5B,包括数学(MATH-500、AIME24/25、HMMT25)、编码(LiveCodeBench V5/V6)和知识(GPQA-Diamond)。评估采用 vLLM 后端,多采样 Pass@1,温度 0.6(数学用 1.0)。 · 与小模型比较:VibeThinker 在子 3B 类别中拔尖,AIME25 达 74.4(Qwen3-1.7B 仅 36.8),HMMT25 达 50.4(SmolLM-3B 仅 26.0),编码 V6 达 51.1(基础模型 0.0)。 · 与大型推理模型比较:数学上小胜 DeepSeek R1(AIME24:80.3 vs. 79.8;AIME25:74.4 vs. 70.0;HMMT25:50.4 vs. 41.7),与 MiniMax-M1-456B 持平。编码稍逊 Magistral Medium(55.9 vs. 59.4)。 · 与顶级非推理模型比较:数学碾压 GPT-4.1(AIME24:80.3 vs. 46.5)和 Kimi K2(49.5),编码胜 Claude Opus 4(51.1 vs. 47.4)。但在 GPQA 知识测试上仍有差距(46.7 vs. 70-82),提示小模型在广域知识上需进一步优化。 这些结果证实 SSP 的有效性:多样性驱动让小模型在推理密集任务中“以小博大”。 讨论与影响:重塑 AI 格局 VibeThinker 的成功源于算法设计而非参数堆积,推理成本降至大型模型的 1/30-1/60,便于边缘部署(推理成本低 20-70 倍)。它暴露了规模定律的局限:小模型潜力被低估,尤其在数学/编码领域。但知识基准的差距表明,未来需加强广义知识注入。 开源模型和技术报告:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Nov 12 12:45:42
  • Previous
  • 1
  • 2
  • 3
  • More pages
  • 15
  • 16
  • Next