LogoThread Easy
  • 探索
  • 撰写 Thread
LogoThread Easy

您的一体化 Twitter 线程助手

© 2025 Thread Easy All Rights Reserved.

探索

最新在前,按卡片方式浏览线程

开启时会模糊预览图,关闭后正常显示

I'm back on Filament Daily channel after 2-week break!

@filamentphp TableSelect: Pick Value And Auto-Fill Form Fields https://t.co/4ovno6nff4

I'm back on Filament Daily channel after 2-week break! @filamentphp TableSelect: Pick Value And Auto-Fill Form Fields https://t.co/4ovno6nff4

~20 yrs in web-dev, now mostly Laravel. My Laravel courses: https://t.co/HRUAJdMRZL My Youtube channel: https://t.co/qPQAkaov2F

avatar for Povilas Korop | Laravel Courses Creator & Youtuber
Povilas Korop | Laravel Courses Creator & Youtuber
Thu Dec 11 07:58:02
深度解析meta为何使用阿里千问蒸馏新模型

刷到了个震惊的信息, 彭博社说 meta 的新模型 Avocado (牛油果) 正在使用阿里千问, Google Gemma, OpenAI GPT-OSS 等开放权重模型蒸馏.

而且这个模型还是个闭源的商业模型. 另外 llama 大概率是凉了, 扎克伯格放弃了这个项目. Avocado (牛油果) 预计明年1月份发布.

给大家从专业角度做一些解析:

为啥使用了三个模型当教师模型? 而不是一个模型当教师模型? 其实这个决策很现实, 蒸馏过程中可以使用多个教师模型看哪个回答的最好来指导学生模型, 比如千问的开放权重模型模型的种类非常多, 而且中文能力和编程能力在同规模下都很好, 那么多模态或者编程+中文领域都用千问, 然后其它领域用剩下两个模型.

另外, 我们其实还能从这个报道中看到很大的信息量, 原文中说的是 "distilling from rival models including Google’s Gemma, OpenAI’s gpt-oss and Qwen", 这大概率 Avocado (牛油果) 已经进入后训练了. 

蒸馏其实分黑盒蒸馏和中间层蒸馏, 其中中间层蒸馏需要维度投影, 这意味着学生模型的架构都要模仿教师模型, 如果都这么做了, 那其实是在"克隆模型了". 而原文中说使用了三种开放权重模型, 他们三个的架构都是不同的, 所以没办法实现中间层蒸馏. 

所以大概率是后训练阶段(Post-training)的高级策略, 那么 Avocado (牛油果) 的基座模型其实已经准备好了. 

而没有自己合成数据进行后训练, 反而使用开放权重模型蒸馏, 这意味着 Meta 极其缺乏"特定领域高质量"的数据(特别是逻辑推理、代码和复杂指令遵循数据). 考虑到 Meta 可能是世界上拥有数据量最大的公司之一(几十亿人的聊天记录、帖子),但这恰恰是它的软肋:

Facebook 和 Instagram 上的数据充满了口语、缩写、情绪发泄、短文本。这些数据对于让模型学会"像人一样说话"非常有用,但对于让模型学会"像工程师一样思考"(Reasoning/Coding)几乎没有帮助,甚至全是噪音. 

甚至大家会想到今年十月份那篇论文《LLMs Can Get "Brain Rot"!》, 使用社交媒体数据训练大模型会让大模型变"脑残". 考虑到TBD (Product) 团队的定位不同于 FAIR (Research) 团队, 他们是非常需要在商业上证明自己的, 所以对他们来说, 面子不重要(使用竞品模型蒸馏), 好用和快速上线才最重要, 甚至给扎克伯格一个交代更重要.

总结, 这篇报道轻描淡写这一段, 暴露出来的信息可以有:

1. Avocado (牛油果) 已经进入后训练了, 基座模型架构不确定, 但可以肯定不同于 千问, Gemma, GPT-OSS, 是 Meta 自家的架构
2. Meta 极度缺乏特性领域高质量数据, (特别是逻辑推理、代码和复杂指令遵循数据)
3. 团队被Push的很紧, 不惜用这种方法来后训练, 甚至都不是用这些模型合成数据后训练, 而是直接"抄答案"进行蒸馏.
4. Meta 都要靠蒸馏千问来提升逻辑和代码能力,这算不算对阿里千问系列含金量的反向"官方认证"? 哈哈哈

#meta #阿里千问 #qwen #Avocado #llama

深度解析meta为何使用阿里千问蒸馏新模型 刷到了个震惊的信息, 彭博社说 meta 的新模型 Avocado (牛油果) 正在使用阿里千问, Google Gemma, OpenAI GPT-OSS 等开放权重模型蒸馏. 而且这个模型还是个闭源的商业模型. 另外 llama 大概率是凉了, 扎克伯格放弃了这个项目. Avocado (牛油果) 预计明年1月份发布. 给大家从专业角度做一些解析: 为啥使用了三个模型当教师模型? 而不是一个模型当教师模型? 其实这个决策很现实, 蒸馏过程中可以使用多个教师模型看哪个回答的最好来指导学生模型, 比如千问的开放权重模型模型的种类非常多, 而且中文能力和编程能力在同规模下都很好, 那么多模态或者编程+中文领域都用千问, 然后其它领域用剩下两个模型. 另外, 我们其实还能从这个报道中看到很大的信息量, 原文中说的是 "distilling from rival models including Google’s Gemma, OpenAI’s gpt-oss and Qwen", 这大概率 Avocado (牛油果) 已经进入后训练了. 蒸馏其实分黑盒蒸馏和中间层蒸馏, 其中中间层蒸馏需要维度投影, 这意味着学生模型的架构都要模仿教师模型, 如果都这么做了, 那其实是在"克隆模型了". 而原文中说使用了三种开放权重模型, 他们三个的架构都是不同的, 所以没办法实现中间层蒸馏. 所以大概率是后训练阶段(Post-training)的高级策略, 那么 Avocado (牛油果) 的基座模型其实已经准备好了. 而没有自己合成数据进行后训练, 反而使用开放权重模型蒸馏, 这意味着 Meta 极其缺乏"特定领域高质量"的数据(特别是逻辑推理、代码和复杂指令遵循数据). 考虑到 Meta 可能是世界上拥有数据量最大的公司之一(几十亿人的聊天记录、帖子),但这恰恰是它的软肋: Facebook 和 Instagram 上的数据充满了口语、缩写、情绪发泄、短文本。这些数据对于让模型学会"像人一样说话"非常有用,但对于让模型学会"像工程师一样思考"(Reasoning/Coding)几乎没有帮助,甚至全是噪音. 甚至大家会想到今年十月份那篇论文《LLMs Can Get "Brain Rot"!》, 使用社交媒体数据训练大模型会让大模型变"脑残". 考虑到TBD (Product) 团队的定位不同于 FAIR (Research) 团队, 他们是非常需要在商业上证明自己的, 所以对他们来说, 面子不重要(使用竞品模型蒸馏), 好用和快速上线才最重要, 甚至给扎克伯格一个交代更重要. 总结, 这篇报道轻描淡写这一段, 暴露出来的信息可以有: 1. Avocado (牛油果) 已经进入后训练了, 基座模型架构不确定, 但可以肯定不同于 千问, Gemma, GPT-OSS, 是 Meta 自家的架构 2. Meta 极度缺乏特性领域高质量数据, (特别是逻辑推理、代码和复杂指令遵循数据) 3. 团队被Push的很紧, 不惜用这种方法来后训练, 甚至都不是用这些模型合成数据后训练, 而是直接"抄答案"进行蒸馏. 4. Meta 都要靠蒸馏千问来提升逻辑和代码能力,这算不算对阿里千问系列含金量的反向"官方认证"? 哈哈哈 #meta #阿里千问 #qwen #Avocado #llama

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Thu Dec 11 07:57:17
RT @MaxHappyverse: @martin_casado 100% agree, best exec I've ever worked with in my life. Wakes up at 5am and gives detailed comments on de…

RT @MaxHappyverse: @martin_casado 100% agree, best exec I've ever worked with in my life. Wakes up at 5am and gives detailed comments on de…

GP @ a16z ... questionable heuristics in a grossly underdetermined world

avatar for martin_casado
martin_casado
Thu Dec 11 07:57:00
昨天到今天用 Cursor 发现一个问题,一直卡在 planning next move,会花非常长的时间,非常影响使用。看了论坛发现很多人遇到这个问题:
https://t.co/kgFa6E3gER

我最后看评论实验出了一个解决方案:删除本地的缓存文件就可以,位置在

Mac 在:~/Library/Application\ Support/Cursor/User/workspaceStorage/
Windows 在:`%APPDATA%\Cursor\User\workspaceStorage`

注意删除了这几个缓存文件,本地的chat 历史就都会丢失,所以请特别注意。

昨天到今天用 Cursor 发现一个问题,一直卡在 planning next move,会花非常长的时间,非常影响使用。看了论坛发现很多人遇到这个问题: https://t.co/kgFa6E3gER 我最后看评论实验出了一个解决方案:删除本地的缓存文件就可以,位置在 Mac 在:~/Library/Application\ Support/Cursor/User/workspaceStorage/ Windows 在:`%APPDATA%\Cursor\User\workspaceStorage` 注意删除了这几个缓存文件,本地的chat 历史就都会丢失,所以请特别注意。

独立开发者 自由职业 作品 - 简单简历 https://t.co/xMu5JFIGnr 五分钟打造程序员的金牌简历 课程 - 慕课网精英讲师 https://t.co/NTyFFrvHwL 经历 - 不上班的1000天 https://t.co/bonuLQCCsY 视频 - https://t.co/aQYLgujIyC

avatar for Viking
Viking
Thu Dec 11 07:56:03
The most satisfying part of programming for me is the refactoring phase. You've made it work, so now you can make it beautiful. Weighing every comma, every colon, every character. And working in Ruby makes this refining flow all the more enjoyable.

The most satisfying part of programming for me is the refactoring phase. You've made it work, so now you can make it beautiful. Weighing every comma, every colon, every character. And working in Ruby makes this refining flow all the more enjoyable.

Father of three, Creator of Ruby on Rails + Omarchy, Co-owner & CTO of 37signals, Shopify director, NYT best-selling author, and Le Mans 24h class-winner.

avatar for DHH
DHH
Thu Dec 11 07:53:51
RT @vrexec: There’s this recurring trope that Europe is overregulated and the US is this sort of free-wheeling world where anything goes.…

RT @vrexec: There’s this recurring trope that Europe is overregulated and the US is this sort of free-wheeling world where anything goes.…

Building digital assets Founder of: 💸 https://t.co/25luMOeurc 📧 https://t.co/R5XVHCie1Z 🔎 https://t.co/zQs9wdGD4c 🏟️ https://t.co/2YDuZxDKM8

avatar for Tobi Hikari
Tobi Hikari
Thu Dec 11 07:41:02
  • Previous
  • 1
  • More pages
  • 1016
  • 1017
  • 1018
  • More pages
  • 5634
  • Next