LogoThread Easy
  • 探索
  • 撰写 Thread
LogoThread Easy

您的一体化 Twitter 线程助手

© 2025 Thread Easy All Rights Reserved.

探索

最新在前,按卡片方式浏览线程

开启时会模糊预览图,关闭后正常显示

新浪微博最新开源了 1.5B 参数“小模型”「VibeThinker-1.5B」,训练成本仅 7800 美元,在数学和编码等复杂推理任务上达到甚至超越大型模型的水平!

背景与动机:为什么小模型能“逆袭”?
OpenAI o1 模型开启了“大型推理模型”(LRM)时代,通过强化学习和长链式思考(Long CoT),在数学定理证明、临床诊断和编程竞赛等领域接近人类专家水平。随后开源项目如 DeepSeek R1(671B)和 Kimi K2(>1T)进一步强化了“规模定律”:参数越多,推理越强。小模型被视为先天不足,无法处理高难度问题。

论文作者质疑这一观点:如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理潜力?答案是肯定的。VibeThinker-1.5B 基于 Qwen2.5-Math-1.5B 基础模型,经过后训练优化,在基准测试中大幅提升——从 AIME24 数学测试的 6.7 分跃升至 80.3 分,编码基准LiveCodeBench V6 从 0 分升至 51.1 分。更惊人的是,它在多个数学挑战上小胜 DeepSeek R1,后者参数规模是它的 400 多倍。这表明,推理能力的瓶颈不在于“体型”,而在于训练范式的创新。

核心创新:Spectrum-to-Signal Principle(谱-信号原理)
论文提出“谱-信号原理”(SSP),这是一个重新定义监督微调(SFT)和强化学习(RL)协同的框架。传统方法视 SFT 为“准确定位最佳答案”的阶段,RL 则进一步精炼。但作者认为,这会让模型陷入单一路径的“局部最优”,限制后续探索空间。SSP 将两阶段解耦为互补角色:

· 谱阶段(SFT):探索多样性  
  SFT 不再追求单次生成(Pass@1)的准确率,而是优化多采样成功率(Pass@K),生成一个“丰富的光谱”——即多种潜在正确解法。这能避免模型固守狭隘模式,提升问题解决的鲁棒性和创造性。  
  实现上采用“两阶段多样性探索蒸馏”:  
  1. 领域感知多样性探测:将数学领域拆分为子域(如代数、几何),为每个子域用强大 LLM 生成探测集,选出在 Pass@K 上最佳的“专家模型”。  
  2. 专家模型融合:通过加权平均(均匀权重)合并专家模型,形成统一 SFT 模型。这平衡了准确性和多样性,为 RL 铺平道路。

· 信号阶段(RL):放大正确路径  
  RL 从 SFT 的“光谱”中挑选并强化最佳推理轨迹。作者引入“最大熵指导政策优化”(MGPO),基于群相对政策优化(GRPO)扩展。GRPO通过采样多组响应计算相对优势,避免外部价值函数的复杂性。MGPO 进一步融入最大熵原理:优先训练不确定性高的样本(准确率接近 50%,即二元分布的最大熵点),用熵偏差正则化加权优势函数。这让模型高效聚焦“高价值”问题,避免浪费计算在已掌握的简单任务上。  
  RL 分两子阶段:先数学推理(上下文从 16K 扩展到 32K),后编码生成,奖励函数为二元正确性。

此外,论文强调数据净化:使用 10-gram 语义匹配去除训练与测试集重叠,确保成绩真实。训练数据结合开源数据集和合成数据,覆盖数学和编码领域。

实验与结果:小模型的“大逻辑”
在多个基准上评估 VibeThinker-1.5B,包括数学(MATH-500、AIME24/25、HMMT25)、编码(LiveCodeBench V5/V6)和知识(GPQA-Diamond)。评估采用 vLLM 后端,多采样 Pass@1,温度 0.6(数学用 1.0)。

· 与小模型比较:VibeThinker 在子 3B 类别中拔尖,AIME25 达 74.4(Qwen3-1.7B 仅 36.8),HMMT25 达 50.4(SmolLM-3B 仅 26.0),编码 V6 达 51.1(基础模型 0.0)。  
· 与大型推理模型比较:数学上小胜 DeepSeek R1(AIME24:80.3 vs. 79.8;AIME25:74.4 vs. 70.0;HMMT25:50.4 vs. 41.7),与 MiniMax-M1-456B 持平。编码稍逊 Magistral Medium(55.9 vs. 59.4)。  
· 与顶级非推理模型比较:数学碾压 GPT-4.1(AIME24:80.3 vs. 46.5)和 Kimi K2(49.5),编码胜 Claude Opus 4(51.1 vs. 47.4)。但在 GPQA 知识测试上仍有差距(46.7 vs. 70-82),提示小模型在广域知识上需进一步优化。

这些结果证实 SSP 的有效性:多样性驱动让小模型在推理密集任务中“以小博大”。

讨论与影响:重塑 AI 格局
VibeThinker 的成功源于算法设计而非参数堆积,推理成本降至大型模型的 1/30-1/60,便于边缘部署(推理成本低 20-70 倍)。它暴露了规模定律的局限:小模型潜力被低估,尤其在数学/编码领域。但知识基准的差距表明,未来需加强广义知识注入。

开源模型和技术报告:

新浪微博最新开源了 1.5B 参数“小模型”「VibeThinker-1.5B」,训练成本仅 7800 美元,在数学和编码等复杂推理任务上达到甚至超越大型模型的水平! 背景与动机:为什么小模型能“逆袭”? OpenAI o1 模型开启了“大型推理模型”(LRM)时代,通过强化学习和长链式思考(Long CoT),在数学定理证明、临床诊断和编程竞赛等领域接近人类专家水平。随后开源项目如 DeepSeek R1(671B)和 Kimi K2(>1T)进一步强化了“规模定律”:参数越多,推理越强。小模型被视为先天不足,无法处理高难度问题。 论文作者质疑这一观点:如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理潜力?答案是肯定的。VibeThinker-1.5B 基于 Qwen2.5-Math-1.5B 基础模型,经过后训练优化,在基准测试中大幅提升——从 AIME24 数学测试的 6.7 分跃升至 80.3 分,编码基准LiveCodeBench V6 从 0 分升至 51.1 分。更惊人的是,它在多个数学挑战上小胜 DeepSeek R1,后者参数规模是它的 400 多倍。这表明,推理能力的瓶颈不在于“体型”,而在于训练范式的创新。 核心创新:Spectrum-to-Signal Principle(谱-信号原理) 论文提出“谱-信号原理”(SSP),这是一个重新定义监督微调(SFT)和强化学习(RL)协同的框架。传统方法视 SFT 为“准确定位最佳答案”的阶段,RL 则进一步精炼。但作者认为,这会让模型陷入单一路径的“局部最优”,限制后续探索空间。SSP 将两阶段解耦为互补角色: · 谱阶段(SFT):探索多样性 SFT 不再追求单次生成(Pass@1)的准确率,而是优化多采样成功率(Pass@K),生成一个“丰富的光谱”——即多种潜在正确解法。这能避免模型固守狭隘模式,提升问题解决的鲁棒性和创造性。 实现上采用“两阶段多样性探索蒸馏”: 1. 领域感知多样性探测:将数学领域拆分为子域(如代数、几何),为每个子域用强大 LLM 生成探测集,选出在 Pass@K 上最佳的“专家模型”。 2. 专家模型融合:通过加权平均(均匀权重)合并专家模型,形成统一 SFT 模型。这平衡了准确性和多样性,为 RL 铺平道路。 · 信号阶段(RL):放大正确路径 RL 从 SFT 的“光谱”中挑选并强化最佳推理轨迹。作者引入“最大熵指导政策优化”(MGPO),基于群相对政策优化(GRPO)扩展。GRPO通过采样多组响应计算相对优势,避免外部价值函数的复杂性。MGPO 进一步融入最大熵原理:优先训练不确定性高的样本(准确率接近 50%,即二元分布的最大熵点),用熵偏差正则化加权优势函数。这让模型高效聚焦“高价值”问题,避免浪费计算在已掌握的简单任务上。 RL 分两子阶段:先数学推理(上下文从 16K 扩展到 32K),后编码生成,奖励函数为二元正确性。 此外,论文强调数据净化:使用 10-gram 语义匹配去除训练与测试集重叠,确保成绩真实。训练数据结合开源数据集和合成数据,覆盖数学和编码领域。 实验与结果:小模型的“大逻辑” 在多个基准上评估 VibeThinker-1.5B,包括数学(MATH-500、AIME24/25、HMMT25)、编码(LiveCodeBench V5/V6)和知识(GPQA-Diamond)。评估采用 vLLM 后端,多采样 Pass@1,温度 0.6(数学用 1.0)。 · 与小模型比较:VibeThinker 在子 3B 类别中拔尖,AIME25 达 74.4(Qwen3-1.7B 仅 36.8),HMMT25 达 50.4(SmolLM-3B 仅 26.0),编码 V6 达 51.1(基础模型 0.0)。 · 与大型推理模型比较:数学上小胜 DeepSeek R1(AIME24:80.3 vs. 79.8;AIME25:74.4 vs. 70.0;HMMT25:50.4 vs. 41.7),与 MiniMax-M1-456B 持平。编码稍逊 Magistral Medium(55.9 vs. 59.4)。 · 与顶级非推理模型比较:数学碾压 GPT-4.1(AIME24:80.3 vs. 46.5)和 Kimi K2(49.5),编码胜 Claude Opus 4(51.1 vs. 47.4)。但在 GPQA 知识测试上仍有差距(46.7 vs. 70-82),提示小模型在广域知识上需进一步优化。 这些结果证实 SSP 的有效性:多样性驱动让小模型在推理密集任务中“以小博大”。 讨论与影响:重塑 AI 格局 VibeThinker 的成功源于算法设计而非参数堆积,推理成本降至大型模型的 1/30-1/60,便于边缘部署(推理成本低 20-70 倍)。它暴露了规模定律的局限:小模型潜力被低估,尤其在数学/编码领域。但知识基准的差距表明,未来需加强广义知识注入。 开源模型和技术报告:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Nov 12 12:45:42
"he's just selling a boilerplate"
"he's just selling a course"
"he's just selling ads"

"he's just selling a boilerplate" "he's just selling a course" "he's just selling ads"

🧑‍💻 https://t.co/Y30jsaHwz9 $20K/m ⚡️ https://t.co/vatLDmi9UG $17K/m 📈 https://t.co/3EDxln5mdi $16K/m ⭐️ https://t.co/MZc8tG9xWi $8K/m 🧬 https://t.co/SfrVXVtmdA $.5K/m 🍜 https://t.co/r07EpGSYJ2 $0K/m 🧾 https://t.co/7olaOzV8Xd $0/m +18 https://t.co/4zCWHGJp1S

avatar for Marc Lou
Marc Lou
Wed Nov 12 12:44:04
"he's just selling a boilerplate"
"he's just selling a course"
"he's just selling ads"

"he's just selling a boilerplate" "he's just selling a course" "he's just selling ads"

🧑‍💻 https://t.co/Y30jsaHwz9 $20K/m ⚡️ https://t.co/vatLDmi9UG $17K/m 📈 https://t.co/3EDxln5mdi $16K/m ⭐️ https://t.co/MZc8tG9xWi $8K/m 🧬 https://t.co/SfrVXVtmdA $.5K/m 🍜 https://t.co/r07EpGSYJ2 $0K/m 🧾 https://t.co/7olaOzV8Xd $0/m +18 https://t.co/4zCWHGJp1S

avatar for Marc Lou
Marc Lou
Wed Nov 12 12:44:04
awarded honorary points to myself for making this part of the noosphere.
you're welcome.

awarded honorary points to myself for making this part of the noosphere. you're welcome.

RL and distributed training • eXperiments lab

avatar for tokenbender
tokenbender
Wed Nov 12 12:43:33
RT @amoljain_: ~40% of Product Engineering at @Replit are ex-founders.

Many of the rest are early-career builders who I’m sure will someda…

RT @amoljain_: ~40% of Product Engineering at @Replit are ex-founders. Many of the rest are early-career builders who I’m sure will someda…

ceo @replit. civilizationist

avatar for Amjad Masad
Amjad Masad
Wed Nov 12 12:43:32
冷知识:

帮大家试过了。

闲鱼也一样会遇到推广问题,如果你不花钱分发你的商品,靠自然推荐流,一天也就不到100个小眼睛,支付转化其实也不高,很多时候都不到1%....

不像自媒体老师说的‘只要做咸鱼,就能赚钱....”

冷知识: 帮大家试过了。 闲鱼也一样会遇到推广问题,如果你不花钱分发你的商品,靠自然推荐流,一天也就不到100个小眼睛,支付转化其实也不高,很多时候都不到1%.... 不像自媒体老师说的‘只要做咸鱼,就能赚钱....”

从投资领域转到创业:找工作、找面试题、改简历、模拟面试. 创业(冷启动)|AI , AIGC | 安全技术|RAG | 时空智能 | 认知心理学|智能体 | 生命科学 | 强化学习 I built open source software at https://t.co/b69DXZhcyR

avatar for Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Wed Nov 12 12:43:00
  • Previous
  • 1
  • More pages
  • 87
  • 88
  • 89
  • More pages
  • 2127
  • Next