新浪微博最新開源了1.5B 參數“小模型”“VibeThinker-1.5B”,訓練成本僅7800 美元,在數學和編碼等複雜推理任務上達到甚至超越大型模型的水平! 背景與動機:為什麼小模型能「逆襲」? OpenAI o1 模型開啟了「大型推理模型」(LRM)時代,透過強化學習和長鍊式思考(Long CoT),在數學定理證明、臨床診斷和程式設計競賽等領域接近人類專家水準。隨後開源專案如DeepSeek R1(671B)和Kimi K2(>1T)進一步強化了「規模定律」:參數越多,推理越強。小模型被視為先天不足,無法處理高難度問題。 論文作者質疑這個觀點:如果從小模型開始,透過巧妙的訓練策略,能否挖掘出隱藏的推理潛力?答案是肯定的。 VibeThinker-1.5B 基於Qwen2.5-Math-1.5B 基礎模型,經過後訓練優化,在基準測試中大幅提升——從AIME24 數學測試的6.7 分躍升至80.3 分,編碼基準LiveCodeBench V6 從0 分升至51.1 分。更驚人的是,它在多個數學挑戰上小勝DeepSeek R1,後者參數規模是它的400 倍以上。這表明,推理能力的瓶頸不在於“體型”,而在於訓練範式的創新。 核心創新:Spectrum-to-Signal Principle(光譜-訊號原理) 論文提出「譜-訊號原理」(SSP),這是一個重新定義監督微調(SFT)和強化學習(RL)協同的框架。傳統方法視SFT 為「準確定位最佳答案」的階段,RL 則進一步精煉。但作者認為,這會讓模型陷入單一路徑的“局部最優”,限制後續探索空間。 SSP 將兩階段解耦為互補角色: · 譜階段(SFT):探索多樣性 SFT 不再追求單次生成(Pass@1)的準確率,而是優化多採樣成功率(Pass@K),產生一個「豐富的光譜」-即多種潛在正確解法。這能避免模型固守狹隘模式,提升問題解決的穩健性和創造力。 實現上採用「兩階段多樣性探索蒸餾」: 1. 領域感知多樣性探測:將數學領域拆分為子域(如代數、幾何),為每個子域以強大LLM 產生探測集,選出在Pass@K 上最佳的「專家模型」。 2. 專家模型融合:透過加權平均(均勻權重)合併專家模型,形成統一SFT 模型。這平衡了準確性和多樣性,為RL 鋪平道路。 · 訊號階段(RL):放大正確路徑 RL 從SFT 的「光譜」中挑選並強化最佳推理軌跡。作者引入「最大熵指導政策優化」(MGPO),基於群相對政策優化(GRPO)擴展。 GRPO透過取樣多組響應計算相對優勢,避免外部價值函數的複雜度。 MGPO 進一步融入最大熵原理:優先訓練不確定性高的樣本(準確率接近50%,即二元分佈的最大熵點),以熵偏差正規化加權優勢函數。這讓模型有效率地聚焦「高價值」問題,避免浪費計算在已掌握的簡單任務上。 RL 分兩子階段:先數學推理(上下文從16K 擴展到32K),後編碼生成,獎勵函數為二元正確。 此外,論文強調資料淨化:使用10-gram 語意配對去除訓練與測試集重疊,確保成績真實。訓練資料結合開源資料集和合成數據,涵蓋數學和編碼領域。 實驗與結果:小模型的“大邏輯” 在多個基準上評估VibeThinker-1.5B,包括數學(MATH-500、AIME24/25、HMMT25)、編碼(LiveCodeBench V5/V6)和知識(GPQA-Diamond)。評估採用vLLM 後端,多採樣Pass@1,溫度0.6(數學用1.0)。 · 與小模型比較:VibeThinker 在子3B 類別中拔尖,AIME25 達74.4(Qwen3-1.7B 僅36.8),HMMT25 達50.4(SmolLM-3B 僅26.0),編碼V6 達51.1(基礎模型0.0)。 · 與大型推理模型比較:數學上小勝DeepSeek R1(AIME24:80.3 vs. 79.8;AIME25:74.4 vs. 70.0;HMMT25:50.4 vs. 41.7),與MiniMax-M1-456B 持平。編碼稍遜Magistral Medium(55.9 vs. 59.4)。 · 與頂級非推理模型比較:數學碾壓GPT-4.1(AIME24:80.3 vs. 46.5)和Kimi K2(49.5),編碼勝Claude Opus 4(51.1 vs. 47.4)。但在GPQA 知識測試上仍有差距(46.7 vs. 70-82),提示小模型在廣域知識上需進一步最佳化。 這些結果證實SSP 的有效性:多樣性驅動讓小模型在推理密集任務中「以小博大」。 討論與影響:重塑AI 格局 VibeThinker 的成功源自於演算法設計而非參數堆積,推理成本降至大型模型的1/30-1/60,便於邊緣部署(推理成本低20-70 倍)。它暴露了規模定律的限制:小模型潛力被低估,尤其在數學/編碼領域。但知識基準的差距表明,未來需加強廣義知識注入。 開源模型和技術報告:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
