我强烈谴责对 Prime Intellect 的嘲讽,他们做的完全正确。 目前,将中国基础模型训练到前沿水平实际上比学习如何预训练我们自己的基础模型*更重要*。我基本上不在乎Prime Intellect、Arcee和其他公司能预训练出什么模型,尽管我合理地预期他们很快就能赶上。西方拥有丰富的计算资源,我们已经看到西方开放空间中小型模型(这两个模型加上@ZyphraAI、@Dorialexander、@natolambert 的 Olmo……)的预训练经验非常丰富;而且从各方面来看,这种能力是可以扩展的。但这主要关乎……地缘政治意义,关乎你们这些爱国服务器接入智能体框架后能运行什么。我既不是西方人也不是中国人,而且与我的帖子相反,我并不真正关心这个层面,这只是一个纯粹的工具性问题。请参阅简介:这场竞赛不是美国/西方与中国之间的竞赛,而是人类和通用人工智能(AGI)与猿猴权力集中化之间的竞赛。而Prime Intellect在阻止权力集中化方面所做的贡献比任何人都多。 想想就让人心痛:HF 上满是天赐的宝藏,我们却无力利用,它们只能在那里腐烂,直到过时。成千上万次的下载,却毫无成果。Qwen 为什么还要做那些过时且极其昂贵的 Llama 式密集模型呢?主要原因有二:一是阿里巴巴的 KPI 是“HF 月下载量”;二是学术界和小实验室搞不清楚如何微调现代架构。即便基础设施更成熟,技术水平更高,他们又该如何进行微调呢?开源微调的巅峰之作是 Nous-Hermes,而它的范式基本上就是对 GPT-4 进行提炼,根据“喜好”和模糊的标准进行筛选,在一个强大的基础上进行 SFT,然后祈祷好运。 OpenAI 等公司事先就对这种切入点嗤之以鼻,认为它毫无威胁,只会奖励幻觉和风格模仿,不出所料,它最终不了了之。接下来呢?“强化学习”?强化学习究竟是什么?如何进行强化学习?信号生成器是什么?它如何与下游任务相交?Kimi-K2,一个完美的前沿级基础模型,已经向所有人开放数月。DeepSeek-V3,也已经近一年了。V2,更是超过一年。数十个不同规模的模型,定期更新,包含更长的上下文和其他优势。而我们用这一切又构建了什么呢? 任何能接近中国内部开发的模型,更别提当代前沿模型了?喂?你能给我指出这些衍生模型吗?这完全亵渎了开放科学的理念。就连中国人也懒得费这个劲,他们都直接从零开始训练自己的模型。我能想到极少数例外(比如Rednote开发了DSV3-VL),但它们都没引起什么轰动。那些价值数十亿美元的初创公司,凭借搜索或智能体编码等优势,拥有庞大的训练后数据集,偷偷地在自己的专有产品中使用DS/GLM/Qwen,却不分享alpha版本。大概就是这样。 Prime Intellect 横空出世。他们正在解决训练问题,解决环境生成问题。他们以严谨的原则思考塑造通用模型认知的信号。实际上,他们正在释放此前积累的巨大惰性价值。对世界而言,这远不止是又一个平庸的模型。他们才华横溢,目标明确,拥有清晰的路线图,而且他们是我的朋友。我绝不会容忍对他们的工作嗤之以鼻,因为它服务于伟大的共同目标。如果你看不到这一点,你就根本不明白在这个阶段真正重要的东西是什么。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。