深度解析meta為何使用阿里千問蒸餾新模型 刷到了個震驚的信息, 彭博社說meta 的新模型Avocado (牛油果) 正在使用阿里千問, Google Gemma, OpenAI GPT-OSS 等開放權重模型蒸餾. 而且這個模型還是個閉源的商業模型. 另外llama 大概率是涼了, 扎克伯格放棄了這個項目. Avocado (牛油果) 預計明年1月份發布. 給大家從專業角度做一些解析: 為啥使用了三個模型當教師模型? 而不是一個模型當教師模型? 其實這個決策很現實, 蒸餾過程中可以使用多個教師模型看哪個回答的最好來指導學生模型, 比如千問的開放權重模型模型的種類非常多, 中文能力和編程能力在同規模下都很好, 比如說它模態或者說+ 然後它 另外, 我們其實還能從這個報道中看到很大的信息量, 原文中說的是"distilling from rival models including Google's Gemma, OpenAI's gpt-oss and Qwen", 這大概率Avocado (牛油果) 已經進入後訓練了. 蒸餾其實分黑盒蒸餾和中間層蒸餾, 其中中間層蒸餾需要維度投影, 這意味著學生模型的架構都要模仿教師模型, 如果都這麼做了, 那其實是在"克隆模型了". 而原文中說使用了三種開放權重模型, 他們三個的架構都是不同的, 所以沒辦法實現中間層蒸餾. 所以大機率是後訓練階段(Post-training)的高級策略, 那麼Avocado (酪梨) 的基座模型其實已經準備好了. 而沒有自己合成資料進行後訓練, 反而使用開放權重模型蒸餾, 這意味著Meta 極其缺乏"特定領域高質量"的數據(特別是邏輯推理、代碼和復雜指令遵循數據). 考慮到Meta 可能是世界上擁有數據量最大的公司之一(幾十億人的聊天記錄、帖子),但這恰恰是它的軟肋: Facebook 和Instagram 上的數據充滿了口語、縮寫、情緒發洩、短文字。這些數據對於讓模型學會"像人一樣說話"非常有用,但對於讓模型學會"像工程師一樣思考"(Reasoning/Coding)幾乎沒有幫助,甚至全是噪音. 甚至大家會想到今年十月份那篇論文《LLMs Can Get "Brain Rot"!》, 使用社交媒體資料訓練大模型會讓大模型變"腦殘". 考慮到TBD (Product) 團隊的定位不同於FAIR (Research) 團隊, 他們是非常需要在商業上證明自己的, 對他們來說甚至更重要 總結, 這篇報導輕描淡寫這一段, 暴露出來的信息可以有: 1. Avocado (酪梨) 已經進入後訓練了, 基座模型架構不確定, 但可以肯定不同於千問, Gemma, GPT-OSS, 是Meta 自家的架構 2. Meta 極度缺乏特性領域高品質資料, (特別是邏輯推理、程式碼和複雜指令遵循資料) 3. 團隊被Push的很緊, 不惜用這種方法來後訓練, 甚至都不是用這些模型合成數據後訓練, 而是直接"抄答案"進行蒸餾. 4. Meta 都要靠蒸餾千問來提升邏輯和代碼能力,這算不算對阿里千問系列含金量的反向"官方認證"? 哈哈哈 #meta #阿里千問#qwen #Avocado #llama
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
