LogoThread Easy
  • 탐색
  • 스레드 작성
LogoThread Easy

트위터 스레드의 올인원 파트너

© 2025 Thread Easy All Rights Reserved.

탐색

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @syeerzy: 甜蜜陷阱测试

“甜蜜陷阱测试”是全球零售巨头(如沃尔玛、山姆、Target、Costco)在反内部偷盗(employee theft)中使用的隐秘行为筛查技术,核心是通过人为制造无人监督下的偷窃机会,观察员工是否“上钩”,从而提前识别高风险个体。现已…

RT @syeerzy: 甜蜜陷阱测试 “甜蜜陷阱测试”是全球零售巨头(如沃尔玛、山姆、Target、Costco)在反内部偷盗(employee theft)中使用的隐秘行为筛查技术,核心是通过人为制造无人监督下的偷窃机会,观察员工是否“上钩”,从而提前识别高风险个体。现已…

从投资领域转到创业:找工作、找面试题、改简历、模拟面试. 创业(冷启动)|AI , AIGC | 安全技术|RAG | 时空智能 | 认知心理学|智能体 | 生命科学 | 强化学习 I built open source software at https://t.co/b69DXZhcyR

avatar for Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Wed Nov 12 12:53:33
RT @pangyusio: don 哥真的很聪明。

在我的视角下,他是在用比大部分博士生更勤勉的态度、更科学的方法,在拆解、研究、实验自媒体。

从而找到自媒体的基本规律,成为自媒体领域的博士、教授、专家。

就像几年前直播带货的辛巴、小杨哥一样。…

RT @pangyusio: don 哥真的很聪明。 在我的视角下,他是在用比大部分博士生更勤勉的态度、更科学的方法,在拆解、研究、实验自媒体。 从而找到自媒体的基本规律,成为自媒体领域的博士、教授、专家。 就像几年前直播带货的辛巴、小杨哥一样。…

从投资领域转到创业:找工作、找面试题、改简历、模拟面试. 创业(冷启动)|AI , AIGC | 安全技术|RAG | 时空智能 | 认知心理学|智能体 | 生命科学 | 强化学习 I built open source software at https://t.co/b69DXZhcyR

avatar for Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Wed Nov 12 12:52:57
RT @chenbimo: 农村的自由生活,主要收入来源是自媒体和独立开发,目前也给 @moonbitlang @bobzhang1988 MoonBit编程语言进行推广分享,这是一个非常优秀,潜力无限的语言,我正用于我自己的产品升级中,用来提高产品性能和加密。

要在农村待下…

RT @chenbimo: 农村的自由生活,主要收入来源是自媒体和独立开发,目前也给 @moonbitlang @bobzhang1988 MoonBit编程语言进行推广分享,这是一个非常优秀,潜力无限的语言,我正用于我自己的产品升级中,用来提高产品性能和加密。 要在农村待下…

从投资领域转到创业:找工作、找面试题、改简历、模拟面试. 创业(冷启动)|AI , AIGC | 安全技术|RAG | 时空智能 | 认知心理学|智能体 | 生命科学 | 强化学习 I built open source software at https://t.co/b69DXZhcyR

avatar for Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Wed Nov 12 12:52:41
新浪微博最新开源了 1.5B 参数“小模型”「VibeThinker-1.5B」,训练成本仅 7800 美元,在数学和编码等复杂推理任务上达到甚至超越大型模型的水平!

背景与动机:为什么小模型能“逆袭”?
OpenAI o1 模型开启了“大型推理模型”(LRM)时代,通过强化学习和长链式思考(Long CoT),在数学定理证明、临床诊断和编程竞赛等领域接近人类专家水平。随后开源项目如 DeepSeek R1(671B)和 Kimi K2(>1T)进一步强化了“规模定律”:参数越多,推理越强。小模型被视为先天不足,无法处理高难度问题。

论文作者质疑这一观点:如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理潜力?答案是肯定的。VibeThinker-1.5B 基于 Qwen2.5-Math-1.5B 基础模型,经过后训练优化,在基准测试中大幅提升——从 AIME24 数学测试的 6.7 分跃升至 80.3 分,编码基准LiveCodeBench V6 从 0 分升至 51.1 分。更惊人的是,它在多个数学挑战上小胜 DeepSeek R1,后者参数规模是它的 400 多倍。这表明,推理能力的瓶颈不在于“体型”,而在于训练范式的创新。

核心创新:Spectrum-to-Signal Principle(谱-信号原理)
论文提出“谱-信号原理”(SSP),这是一个重新定义监督微调(SFT)和强化学习(RL)协同的框架。传统方法视 SFT 为“准确定位最佳答案”的阶段,RL 则进一步精炼。但作者认为,这会让模型陷入单一路径的“局部最优”,限制后续探索空间。SSP 将两阶段解耦为互补角色:

· 谱阶段(SFT):探索多样性  
  SFT 不再追求单次生成(Pass@1)的准确率,而是优化多采样成功率(Pass@K),生成一个“丰富的光谱”——即多种潜在正确解法。这能避免模型固守狭隘模式,提升问题解决的鲁棒性和创造性。  
  实现上采用“两阶段多样性探索蒸馏”:  
  1. 领域感知多样性探测:将数学领域拆分为子域(如代数、几何),为每个子域用强大 LLM 生成探测集,选出在 Pass@K 上最佳的“专家模型”。  
  2. 专家模型融合:通过加权平均(均匀权重)合并专家模型,形成统一 SFT 模型。这平衡了准确性和多样性,为 RL 铺平道路。

· 信号阶段(RL):放大正确路径  
  RL 从 SFT 的“光谱”中挑选并强化最佳推理轨迹。作者引入“最大熵指导政策优化”(MGPO),基于群相对政策优化(GRPO)扩展。GRPO通过采样多组响应计算相对优势,避免外部价值函数的复杂性。MGPO 进一步融入最大熵原理:优先训练不确定性高的样本(准确率接近 50%,即二元分布的最大熵点),用熵偏差正则化加权优势函数。这让模型高效聚焦“高价值”问题,避免浪费计算在已掌握的简单任务上。  
  RL 分两子阶段:先数学推理(上下文从 16K 扩展到 32K),后编码生成,奖励函数为二元正确性。

此外,论文强调数据净化:使用 10-gram 语义匹配去除训练与测试集重叠,确保成绩真实。训练数据结合开源数据集和合成数据,覆盖数学和编码领域。

实验与结果:小模型的“大逻辑”
在多个基准上评估 VibeThinker-1.5B,包括数学(MATH-500、AIME24/25、HMMT25)、编码(LiveCodeBench V5/V6)和知识(GPQA-Diamond)。评估采用 vLLM 后端,多采样 Pass@1,温度 0.6(数学用 1.0)。

· 与小模型比较:VibeThinker 在子 3B 类别中拔尖,AIME25 达 74.4(Qwen3-1.7B 仅 36.8),HMMT25 达 50.4(SmolLM-3B 仅 26.0),编码 V6 达 51.1(基础模型 0.0)。  
· 与大型推理模型比较:数学上小胜 DeepSeek R1(AIME24:80.3 vs. 79.8;AIME25:74.4 vs. 70.0;HMMT25:50.4 vs. 41.7),与 MiniMax-M1-456B 持平。编码稍逊 Magistral Medium(55.9 vs. 59.4)。  
· 与顶级非推理模型比较:数学碾压 GPT-4.1(AIME24:80.3 vs. 46.5)和 Kimi K2(49.5),编码胜 Claude Opus 4(51.1 vs. 47.4)。但在 GPQA 知识测试上仍有差距(46.7 vs. 70-82),提示小模型在广域知识上需进一步优化。

这些结果证实 SSP 的有效性:多样性驱动让小模型在推理密集任务中“以小博大”。

讨论与影响:重塑 AI 格局
VibeThinker 的成功源于算法设计而非参数堆积,推理成本降至大型模型的 1/30-1/60,便于边缘部署(推理成本低 20-70 倍)。它暴露了规模定律的局限:小模型潜力被低估,尤其在数学/编码领域。但知识基准的差距表明,未来需加强广义知识注入。

开源模型和技术报告:

新浪微博最新开源了 1.5B 参数“小模型”「VibeThinker-1.5B」,训练成本仅 7800 美元,在数学和编码等复杂推理任务上达到甚至超越大型模型的水平! 背景与动机:为什么小模型能“逆袭”? OpenAI o1 模型开启了“大型推理模型”(LRM)时代,通过强化学习和长链式思考(Long CoT),在数学定理证明、临床诊断和编程竞赛等领域接近人类专家水平。随后开源项目如 DeepSeek R1(671B)和 Kimi K2(>1T)进一步强化了“规模定律”:参数越多,推理越强。小模型被视为先天不足,无法处理高难度问题。 论文作者质疑这一观点:如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理潜力?答案是肯定的。VibeThinker-1.5B 基于 Qwen2.5-Math-1.5B 基础模型,经过后训练优化,在基准测试中大幅提升——从 AIME24 数学测试的 6.7 分跃升至 80.3 分,编码基准LiveCodeBench V6 从 0 分升至 51.1 分。更惊人的是,它在多个数学挑战上小胜 DeepSeek R1,后者参数规模是它的 400 多倍。这表明,推理能力的瓶颈不在于“体型”,而在于训练范式的创新。 核心创新:Spectrum-to-Signal Principle(谱-信号原理) 论文提出“谱-信号原理”(SSP),这是一个重新定义监督微调(SFT)和强化学习(RL)协同的框架。传统方法视 SFT 为“准确定位最佳答案”的阶段,RL 则进一步精炼。但作者认为,这会让模型陷入单一路径的“局部最优”,限制后续探索空间。SSP 将两阶段解耦为互补角色: · 谱阶段(SFT):探索多样性 SFT 不再追求单次生成(Pass@1)的准确率,而是优化多采样成功率(Pass@K),生成一个“丰富的光谱”——即多种潜在正确解法。这能避免模型固守狭隘模式,提升问题解决的鲁棒性和创造性。 实现上采用“两阶段多样性探索蒸馏”: 1. 领域感知多样性探测:将数学领域拆分为子域(如代数、几何),为每个子域用强大 LLM 生成探测集,选出在 Pass@K 上最佳的“专家模型”。 2. 专家模型融合:通过加权平均(均匀权重)合并专家模型,形成统一 SFT 模型。这平衡了准确性和多样性,为 RL 铺平道路。 · 信号阶段(RL):放大正确路径 RL 从 SFT 的“光谱”中挑选并强化最佳推理轨迹。作者引入“最大熵指导政策优化”(MGPO),基于群相对政策优化(GRPO)扩展。GRPO通过采样多组响应计算相对优势,避免外部价值函数的复杂性。MGPO 进一步融入最大熵原理:优先训练不确定性高的样本(准确率接近 50%,即二元分布的最大熵点),用熵偏差正则化加权优势函数。这让模型高效聚焦“高价值”问题,避免浪费计算在已掌握的简单任务上。 RL 分两子阶段:先数学推理(上下文从 16K 扩展到 32K),后编码生成,奖励函数为二元正确性。 此外,论文强调数据净化:使用 10-gram 语义匹配去除训练与测试集重叠,确保成绩真实。训练数据结合开源数据集和合成数据,覆盖数学和编码领域。 实验与结果:小模型的“大逻辑” 在多个基准上评估 VibeThinker-1.5B,包括数学(MATH-500、AIME24/25、HMMT25)、编码(LiveCodeBench V5/V6)和知识(GPQA-Diamond)。评估采用 vLLM 后端,多采样 Pass@1,温度 0.6(数学用 1.0)。 · 与小模型比较:VibeThinker 在子 3B 类别中拔尖,AIME25 达 74.4(Qwen3-1.7B 仅 36.8),HMMT25 达 50.4(SmolLM-3B 仅 26.0),编码 V6 达 51.1(基础模型 0.0)。 · 与大型推理模型比较:数学上小胜 DeepSeek R1(AIME24:80.3 vs. 79.8;AIME25:74.4 vs. 70.0;HMMT25:50.4 vs. 41.7),与 MiniMax-M1-456B 持平。编码稍逊 Magistral Medium(55.9 vs. 59.4)。 · 与顶级非推理模型比较:数学碾压 GPT-4.1(AIME24:80.3 vs. 46.5)和 Kimi K2(49.5),编码胜 Claude Opus 4(51.1 vs. 47.4)。但在 GPQA 知识测试上仍有差距(46.7 vs. 70-82),提示小模型在广域知识上需进一步优化。 这些结果证实 SSP 的有效性:多样性驱动让小模型在推理密集任务中“以小博大”。 讨论与影响:重塑 AI 格局 VibeThinker 的成功源于算法设计而非参数堆积,推理成本降至大型模型的 1/30-1/60,便于边缘部署(推理成本低 20-70 倍)。它暴露了规模定律的局限:小模型潜力被低估,尤其在数学/编码领域。但知识基准的差距表明,未来需加强广义知识注入。 开源模型和技术报告:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Nov 12 12:45:42
"he's just selling a boilerplate"
"he's just selling a course"
"he's just selling ads"

"he's just selling a boilerplate" "he's just selling a course" "he's just selling ads"

🧑‍💻 https://t.co/Y30jsaHwz9 $20K/m ⚡️ https://t.co/vatLDmi9UG $17K/m 📈 https://t.co/3EDxln5mdi $16K/m ⭐️ https://t.co/MZc8tG9xWi $8K/m 🧬 https://t.co/SfrVXVtmdA $.5K/m 🍜 https://t.co/r07EpGSYJ2 $0K/m 🧾 https://t.co/7olaOzV8Xd $0/m +18 https://t.co/4zCWHGJp1S

avatar for Marc Lou
Marc Lou
Wed Nov 12 12:44:04
"he's just selling a boilerplate"
"he's just selling a course"
"he's just selling ads"

"he's just selling a boilerplate" "he's just selling a course" "he's just selling ads"

🧑‍💻 https://t.co/Y30jsaHwz9 $20K/m ⚡️ https://t.co/vatLDmi9UG $17K/m 📈 https://t.co/3EDxln5mdi $16K/m ⭐️ https://t.co/MZc8tG9xWi $8K/m 🧬 https://t.co/SfrVXVtmdA $.5K/m 🍜 https://t.co/r07EpGSYJ2 $0K/m 🧾 https://t.co/7olaOzV8Xd $0/m +18 https://t.co/4zCWHGJp1S

avatar for Marc Lou
Marc Lou
Wed Nov 12 12:44:04
  • Previous
  • 1
  • More pages
  • 77
  • 78
  • 79
  • More pages
  • 2117
  • Next