LogoThread Easy
  • Explorer
  • Composer un thread
LogoThread Easy

Votre partenaire tout-en-un pour les threads Twitter

© 2025 Thread Easy All Rights Reserved.

Explorer

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

I think you rest Eze and put Ethan. You play Norgard, White, MLS

I think you rest Eze and put Ethan. You play Norgard, White, MLS

Founder | Author | Speaker Building @beltstripe I'm Not The Man Of Your Dreams. Your Imagination Wasn't This Great.

avatar for Sani Yusuf
Sani Yusuf
Mon Nov 03 14:38:37
RT @jxmnop: "there's nothing interesting on arxiv these days!"  
- the words of an uncurious mind

i have personally been blown away by the…

RT @jxmnop: "there's nothing interesting on arxiv these days!" - the words of an uncurious mind i have personally been blown away by the…

Asst professor @MIT EECS & CSAIL (@nlp_mit). Author of https://t.co/VgyLxl0oa1 and https://t.co/ZZaSzaRaZ7 (@DSPyOSS). Prev: CS PhD @StanfordNLP. Research @Databricks.

avatar for Omar Khattab
Omar Khattab
Mon Nov 03 14:38:35
Alexis for sure. Peak Alexis comes in, and we are the undisputed best team in the world. We would defend well, were fast, could cross, had goals, were strong, and rarely got injured. He was everything. After him then maybe Santi

Alexis for sure. Peak Alexis comes in, and we are the undisputed best team in the world. We would defend well, were fast, could cross, had goals, were strong, and rarely got injured. He was everything. After him then maybe Santi

Founder | Author | Speaker Building @beltstripe I'm Not The Man Of Your Dreams. Your Imagination Wasn't This Great.

avatar for Sani Yusuf
Sani Yusuf
Mon Nov 03 14:37:29
RT @ExPANDKCL: Watch/listen to this great discussion between three ADHD experts on challenging the medical model of ADHD with @neuranne @Dr…

RT @ExPANDKCL: Watch/listen to this great discussion between three ADHD experts on challenging the medical model of ADHD with @neuranne @Dr…

hypercurious :) founder @ness_labs • neuroscientist @KingsIoPPN • author of Tiny Experiments • personal science, systematic curiosity, experimental thinking ꩜⋆✦

avatar for Anne-Laure Le Cunff
Anne-Laure Le Cunff
Mon Nov 03 14:37:13
这个实在太有趣了,忍不住让AI重写了一篇文章。

破案了!AI 疯狂喜欢用破折号的真相竟然是⋯

AI写的文章,总透着一股“AI味儿”。

最明显的一个特征之一,尤其英文写作中,特别爱用破折号。

讲真,AI模型(尤其是GPT-4之后的版本)对破折号的滥用,已经到了让人发指的地步。

更逗的是,你还很难通过提示词(Prompt)去“纠正”它。

有网友在OpenAI的论坛上发帖,说他试了各种方法,比如“请不要使用破折号”、“请用更简洁的标点”,结果模型“好的,我明白了”,然后转头该用还是用。

这事儿就透着一股诡异。

按理说,AI就是个“复读机”,它的一切行为都应该来自它的训练数据。

但为什么偏偏是破折号——这个在现代英语里并不算最高频的标点——成了AI的“心头好”呢?

有意思的是,关于这个问题,业内目前居然**没有一个公认的、确定的答案**。

今天,咱们就来当一回侦探,结合一篇挺有意思的分析文章(来自Sean Goedecke),一起来扒一扒,AI这个“写作怪癖”到底是怎么来的。

几种“不太靠谱”的猜测

在揭晓那个最可能的答案之前,咱们先得“排雷”,把几个流传很广、但细想又站不住脚的理论给干掉。

猜测一:训练数据里本来就很多?

这是最直观的猜测:AI爱用,是不是因为它“学习”的材料——也就是整个互联网的英文文本里,破折号本来就用得很多?

这个解释,我第一个就不太信。

你想啊,如果破折号在人类写作中也这么普遍,那它就不应该成为一个扎眼的“槽点”,对吧?

我们之所以会觉得“AI味儿”冲,恰恰是因为我们凭直觉感知到,AI使用破折号的频率 远高于正常人类的平均水平。

如果AI用逗号的频率很高,你会在意吗?不会,因为我们也都这么用。

所以,这个解释直接回避了核心问题:为什么AI会“偏爱”它?

猜测二:破折号“功能万金油”,AI“偷懒”?

还有一种理论,听起来有点“拟人化”。

说的是,AI在吭哧吭哧预测下一个词(Token)的时候,它其实也很“纠结”。

用破折号,就像是给自己留了个“后门”。

你想啊,一个破折号——它既可以引出补充说明,也可以开启一个全新的观点,甚至可以表示转折。

所以,AI是不是“算计”过了,觉得扔出一个破折号最“安全”,最“万金油”,能让后面的句子怎么接都行?

这个我也不太信。

首先,其他标点(比如逗号、分号)在很多语境下也同样灵活。

其次,我总觉得用“偷懒”或“留后路”这种人类的思维方式,去套大语言模型的工作原理,有点……想当然了。模型只是在“预测下一个最可能的Token”,它并没有“耍滑头”的主观意识。

猜测三:为了“省钱”(Token效率)?

这个说法稍微技术一点,但也最容易被驳倒。

它扯到了一个概念,叫 Token效率。

简单科普一下:大语言模型处理文本,不是一个词一个词处理的,而是把词打碎成一个个“Token”(标记)。

比如 "unbelievable" 可能会被拆成 "un"、"believe"、"able" 三个Token。

AI的计算成本和它处理的Token数量直接相关。

这个理论是说,AI是不是发现,用一个破折号(占1个Token),可以替代掉一堆啰嗦的连接词(比如 ",therefore," 或 "which means" 这种可能占2-3个Token的短语)?

用破折号,能“省钱”啊!

Emmm……这个解释还是不太对劲。

第一,在绝大多数情况下,那个破折号明明可以被一个逗号(同样只占1个Token)完美替换。

比如AI常写的:"It's not X — it's Y."

这完全可以写成:"It's not X, it's Y."

谁也没比谁更省Token啊。

第二,你真觉得GPT-4o这种“庞然大物”,会在标点符号上搞这种“微操”来优化成本吗?

它要是真想省Token,少说点那些翻来覆去的“车轱辘话”(waffle less)不就完了吗?那省下的Token才叫多。

所以,上面这三个“主流”猜测,基本都被排除了。

那“真凶”到底是谁?

深入扒一扒:会不会是RLHF的“锅”?

讲到这儿,咱们就得聊点更深的东西了,一个在AI圈大名鼎鼎的词:RLHF。

全称叫 Reinforcement Learning with Human Feedback(基于人类反馈的强化学习)。

这是啥玩意儿?

你可以把它粗暴地想象成AI的“岗前培训”和“绩效考核”阶段。

在模型(比如GPT-4)基本训练好之后,AI公司会雇佣成百上千的人类“标注员”(Raters),让他们去跟AI聊天,然后给AI的回答打分。

“这个回答太啰嗦了,差评!”
“这个回答很友好,帮我解决了问题,好评!”

模型会根据这些人类的“好评”和“差评”,不断“反思”、“修正”自己的说话方式,让自己变得更“有用”、更“讨人喜欢”。

好,问题来了。

AI公司为了节省成本,肯定会把这种“打分”的工作外包出去。外包给谁呢?

答案是:那些生活成本较低,但又有大量英语流利人口的国家。

比如,OpenAI的主要RLHF团队,就设在非洲的肯尼亚和尼日利亚。

这就带来一个非常有意思的后果:

AI的“品味”,在很大程度上被这些非洲标注员的“英语方言”给塑造了。

一个最有名的例子,就是“delve”(深入研究)这个词。

你发现没?GPT-4特别爱用"delve"、"explore"(探索)、"tapestry"(挂毯,引申为“蓝图”或“画卷”)这类听起来有点“拽文”的花哨词汇。

这就是因为,在非洲英语(作为后殖民地国家的英语变体)中,使用这种稍微华丽的词汇被视为“有文化”和“语言能力强”的体现。

于是,肯尼亚的标注员们看到模型用了"delve",大喜:“哇,这个词用得好,地道!高分!”

结果,模型就get到了:哦,人类喜欢我用“delve”,那我以后就多用!

(这事儿还引发过一场大讨论,保罗·格雷厄姆曾吐槽过这个词,结果被很多印度和尼日利亚的学者给“教育”了,说他不懂文化差异。)

破折号,也是“非洲英语”的锅吗?

那问题来了:会不会破折号也是同样的情况?

是不是在尼日利亚英语里,大家平时说话就特爱用破折号,所以标注员们也更喜欢带破折号的回答?

这个猜测,简直太完美了,对吧?它解释了为什么“delve”和“破折号”会一起出现。

然而,原作者Sean Goedecke是个较真的人,他真的跑去查数据了。

他找到了一个“尼日利亚英语文本”的数据集,然后跑程序统计了里面破折号的出现频率。

结果你猜怎么着?

数据啪啪打脸。

数据显示,在那份尼日利亚英语数据集中,破折号的频率(占所有单词的比例)大约是 0.022%。

而一篇关于英语标点符号历史的论文指出,在当代通用英语文本中,破折号的频率波动范围在 0.25% 到 0.275% 之间。

看明白了吗?

尼日利亚英语(作为非洲英语的代表)使用破折号的频率,不仅不高,反而比通用英语 低得多!

所以,这条线索也断了。

“delve”的锅,RLHF和非洲标注员可能得背;但“破折号”的锅,还真甩不到他们身上。

真正的“嫌疑人”:19世纪的老书

好了,排除了这么多,我跟你说,下面这个解释,是我目前看到最靠谱、也最令人信服的。

它来自一个非常关键的观察:

你发现一个“华点”了吗?GPT-3.5 根本不怎么爱用破折号!

这个“怪癖”,是从GPT-4(以及GPT-4o)才开始集中爆发的。

包括Anthropic的Claude和Google的Gemini,也都有这个毛病。

这就把时间锁定在了2022年底(GPT-3.5发布)到2024年初(GPT-4o发布)这短短的一年多时间里。

从2022年到2024年,到底发生了什么?

答案只有一个:

训练数据的构成,发生了根本性的变化。

你想啊,2022年那会儿,OpenAI他们训练模型,用的数据主要是从互联网上抓取的公开文本(比如维基百科、Reddit帖子、新闻网站),再加上从LibGen、Z-Library这类网站“搞”来的海量盗版电子书。

但是,当大模型的能力在2023年震惊世界后,所有的AI公司都疯了。

他们立刻意识到,高质量的训练数据,就是未来的“石油”和“黄金”。

互联网上的“垃圾”已经喂不饱新一代的模型了。他们需要更多、更优质、更干净的文本。

他们把目光投向了哪里?

实体书。

AI公司们(OpenAI、Anthropic、Google等)开始了一场疯狂的“数据军备竞赛”,他们不惜重金,开始大规模地扫描、数字化人类历史上所有的纸质出版物。

(Anthropic的法庭文件就披露了,他们从2024年2月开始搞这个事。OpenAI虽然没明说,但业内普遍认为他们干得更早、更猛。)

好,关键的连接点来了。

这些新扫描的实体书,和以前LibGen上的盗版书,有啥核心区别?

区别就在于——年代。

盗版电子书网站上的内容,大多偏向于当代文学和流行读物(比如《哈利·波特》、各种畅销小说和现代教材),因为这是网民们真正想下载和阅读的。

而AI公司要去“抢救”数据,肯定会把人类历史上所有能弄到的书都扫一遍,尤其是那些早已进入“公有领域”(Public Domain)的旧书。

这些书,大多是什么年代的?

19世纪末,和20世纪初。

现在,让我们回到前面提到的那篇“标点符号历史研究论文”。

它里面有一个惊人的发现:

在英语写作中,破折号的使用率,恰恰在1860年左右达到了历史巅峰(约0.35%)

之后才慢慢回落,到1950年代后才稳定在0.25%-0.275%的水平。

你再品品:19世纪末和20世纪初的文学作品(比如狄更斯、梅尔维尔),他们使用破折号的频率,比当代英语高出了近30%!

举个栗子,著名的《白鲸记》(Moby-Dick)一本书里,统计下来居然有 1728个 破折号!

真相大白了,不是吗?

这可能是最合理的解释:

AI模型之所以疯狂使用破折号,不是因为它“聪明”地选择了什么万金油标点,也不是因为非洲标注员的偏爱。

仅仅是因为,在2023年这场“数据军备竞赛”中,它被强行“喂”下(预训练)了海量的、来自19世纪和20世纪初的“高质量”老书。

而那些书里——就TMD全都是破折号!

这个“写作习惯”,就像一种古老的“语法DNA”,被深深地刻进了模型的神经网络里。

总结,和几个没想通的“小疙瘩”

好,咱们来捋一捋这个“破案”思路:

1.  结构性解释(省Token、万金油):不太可能。GPT-3.5没这个问题,而且有反例(逗号)。

2.  RLHF解释(标注员偏好):不太可能。非洲英语数据反驳了方言理论。

3.  训练数据解释(老书污染):可能性最大。

它完美解释了为什么是从GPT-4开始爆发的(因为数据构成变了),也解释了为什么AI的用量会 高于 当代人类的平均水平(因为它的“教材”比我们的老)。

我个人(和原作者一样)最倾向于第三种:训练数据(特别是老书)的污染。

但是,这事儿还没完。

就算这个“老书理论”是真的,依然有几个“小疙瘩”,我还是没想通。

疙瘩一:《白鲸记》悖论

这是最大的一个困惑:

如果AI真的“饱读”了19世纪经典,为啥它写的东西读起来一点也不像《白鲸记》或《双城记》?

它只是“偷”了人家的标点符号,却没学会人家那套华丽、繁复、古老的文风?

这个问题,我倒有个自己的猜想。

这可能正是我前面说的“分层训练”导致的一个“缝合怪”结果。

你可以这么想象:

1.  “预训练”阶段(Pre-training): AI像个婴儿,被关在小黑屋里,强行“吞”下了《白鲸记》在内的数万亿Token。它在这个阶段学会了语法、词汇、事实,也顺便学会了“破折号”这个深入骨髓的“口头禅”。它此时的“灵魂”是19世纪的。

2.  “微调”阶段(SFT & RLHF):AI长大了,被放出来“岗前培训”。

成千上万的21世纪标注员(包括那些肯尼亚人)开始“掰”它的说话方式,强迫它用21世纪的、礼貌的、友好的、客服式的“当代风格”说话。(比如“我很高兴为你服务”、“作为一个大语言模型……”)

所以,你最终看到了一个“人格分裂”的AI:

它拥有一个“19世纪的语法之魂”(所以爱用破折号),却被迫披上了一件“21世纪的客服外衣”(所以说话像个AI助手)。

这事儿是不是还挺赛博朋克的?

疙瘩二:RLHF真的“无辜”吗?

另一个可能,也许RLHF也不是完全“无辜”的。

虽然“非洲方言”理论被否了,但有没有一种可能:破折号本身,就是让文字读起来更“口语化”?

你想,咱们聊天时,不就是经常“呃……”、“那个——”、“我意思是——”这样吗?

破折号在功能上,确实能模拟这种“停顿”和“补充”。

也许,标注员们(无论他们在哪)只是单纯地觉得:“哇,这个回答用了破折号,显得不那么死板,更像在‘聊天’,我喜欢!高分!”

OpenAI的CEO萨姆·奥特曼(Sam Altman)好像也在一次采访里模糊地提过,他们“(有意)加了更多破折号,因为用户们喜欢这种风格”。

如果是这样,那它可能和“老书理论”是共同作用的:

老书(预训练)给了AI使用破折号的“能力”和“高概率”;而标注员(RLHF)则“强化”并“奖励”了这种能力,让它变本加厉。

尾声:Hacker News上的“插曲”

原作者的文章发出去后,在Hacker News(一个程序员的“豆瓣”)上火了。

评论区里又冒出来一个有意思的理论,来自Medium(一个博客平台)的CEO。

这位CEO说:

“都别猜了,我告诉你们为啥!因为Medium是高质量的训练数据源。而在Medium上,我们系统会自动把用户输入的两个连字符(`--`)转换成一个标准的破折号(`—`)。肯定是这个原因!”

这个解释,恕我直言,简直离谱。

他(和很多技术宅一样)完全搞错重点了!

咱们讨论的不是AI用了哪个特定字符(是`—`还是`--`),咱们讨论的是它为什么要去使用这个标点的“功能”。

也就是那种“打断-补充-转折”的语法功能!

就算AI的训练数据里,把很多“连字符”(hyphen,如 "state-of-the-art")因为OCR错误或自动转换,都识别成了“破折号”(em-dash)。

那也只会让模型学会“错误地”在“state-of-the-art”这种地方用破折号,并不会让它学会在句末用破折号来代替“因此”啊!

这完全是两码事。

所以,绕了一大圈,我个人还是最站“19世纪老书”这个理论。

这事儿最有意思的地方在于,我们发现,AI这个看似“智能”的庞然大物,它的行为模式,很多时候可能源自一些我们意想不到的、甚至有点“蠢”的原因。

一个小小的标点符号,就像一块“数字考古”的化石。

它藏着AI大模型“进化”的秘密。

这个实在太有趣了,忍不住让AI重写了一篇文章。 破案了!AI 疯狂喜欢用破折号的真相竟然是⋯ AI写的文章,总透着一股“AI味儿”。 最明显的一个特征之一,尤其英文写作中,特别爱用破折号。 讲真,AI模型(尤其是GPT-4之后的版本)对破折号的滥用,已经到了让人发指的地步。 更逗的是,你还很难通过提示词(Prompt)去“纠正”它。 有网友在OpenAI的论坛上发帖,说他试了各种方法,比如“请不要使用破折号”、“请用更简洁的标点”,结果模型“好的,我明白了”,然后转头该用还是用。 这事儿就透着一股诡异。 按理说,AI就是个“复读机”,它的一切行为都应该来自它的训练数据。 但为什么偏偏是破折号——这个在现代英语里并不算最高频的标点——成了AI的“心头好”呢? 有意思的是,关于这个问题,业内目前居然**没有一个公认的、确定的答案**。 今天,咱们就来当一回侦探,结合一篇挺有意思的分析文章(来自Sean Goedecke),一起来扒一扒,AI这个“写作怪癖”到底是怎么来的。 几种“不太靠谱”的猜测 在揭晓那个最可能的答案之前,咱们先得“排雷”,把几个流传很广、但细想又站不住脚的理论给干掉。 猜测一:训练数据里本来就很多? 这是最直观的猜测:AI爱用,是不是因为它“学习”的材料——也就是整个互联网的英文文本里,破折号本来就用得很多? 这个解释,我第一个就不太信。 你想啊,如果破折号在人类写作中也这么普遍,那它就不应该成为一个扎眼的“槽点”,对吧? 我们之所以会觉得“AI味儿”冲,恰恰是因为我们凭直觉感知到,AI使用破折号的频率 远高于正常人类的平均水平。 如果AI用逗号的频率很高,你会在意吗?不会,因为我们也都这么用。 所以,这个解释直接回避了核心问题:为什么AI会“偏爱”它? 猜测二:破折号“功能万金油”,AI“偷懒”? 还有一种理论,听起来有点“拟人化”。 说的是,AI在吭哧吭哧预测下一个词(Token)的时候,它其实也很“纠结”。 用破折号,就像是给自己留了个“后门”。 你想啊,一个破折号——它既可以引出补充说明,也可以开启一个全新的观点,甚至可以表示转折。 所以,AI是不是“算计”过了,觉得扔出一个破折号最“安全”,最“万金油”,能让后面的句子怎么接都行? 这个我也不太信。 首先,其他标点(比如逗号、分号)在很多语境下也同样灵活。 其次,我总觉得用“偷懒”或“留后路”这种人类的思维方式,去套大语言模型的工作原理,有点……想当然了。模型只是在“预测下一个最可能的Token”,它并没有“耍滑头”的主观意识。 猜测三:为了“省钱”(Token效率)? 这个说法稍微技术一点,但也最容易被驳倒。 它扯到了一个概念,叫 Token效率。 简单科普一下:大语言模型处理文本,不是一个词一个词处理的,而是把词打碎成一个个“Token”(标记)。 比如 "unbelievable" 可能会被拆成 "un"、"believe"、"able" 三个Token。 AI的计算成本和它处理的Token数量直接相关。 这个理论是说,AI是不是发现,用一个破折号(占1个Token),可以替代掉一堆啰嗦的连接词(比如 ",therefore," 或 "which means" 这种可能占2-3个Token的短语)? 用破折号,能“省钱”啊! Emmm……这个解释还是不太对劲。 第一,在绝大多数情况下,那个破折号明明可以被一个逗号(同样只占1个Token)完美替换。 比如AI常写的:"It's not X — it's Y." 这完全可以写成:"It's not X, it's Y." 谁也没比谁更省Token啊。 第二,你真觉得GPT-4o这种“庞然大物”,会在标点符号上搞这种“微操”来优化成本吗? 它要是真想省Token,少说点那些翻来覆去的“车轱辘话”(waffle less)不就完了吗?那省下的Token才叫多。 所以,上面这三个“主流”猜测,基本都被排除了。 那“真凶”到底是谁? 深入扒一扒:会不会是RLHF的“锅”? 讲到这儿,咱们就得聊点更深的东西了,一个在AI圈大名鼎鼎的词:RLHF。 全称叫 Reinforcement Learning with Human Feedback(基于人类反馈的强化学习)。 这是啥玩意儿? 你可以把它粗暴地想象成AI的“岗前培训”和“绩效考核”阶段。 在模型(比如GPT-4)基本训练好之后,AI公司会雇佣成百上千的人类“标注员”(Raters),让他们去跟AI聊天,然后给AI的回答打分。 “这个回答太啰嗦了,差评!” “这个回答很友好,帮我解决了问题,好评!” 模型会根据这些人类的“好评”和“差评”,不断“反思”、“修正”自己的说话方式,让自己变得更“有用”、更“讨人喜欢”。 好,问题来了。 AI公司为了节省成本,肯定会把这种“打分”的工作外包出去。外包给谁呢? 答案是:那些生活成本较低,但又有大量英语流利人口的国家。 比如,OpenAI的主要RLHF团队,就设在非洲的肯尼亚和尼日利亚。 这就带来一个非常有意思的后果: AI的“品味”,在很大程度上被这些非洲标注员的“英语方言”给塑造了。 一个最有名的例子,就是“delve”(深入研究)这个词。 你发现没?GPT-4特别爱用"delve"、"explore"(探索)、"tapestry"(挂毯,引申为“蓝图”或“画卷”)这类听起来有点“拽文”的花哨词汇。 这就是因为,在非洲英语(作为后殖民地国家的英语变体)中,使用这种稍微华丽的词汇被视为“有文化”和“语言能力强”的体现。 于是,肯尼亚的标注员们看到模型用了"delve",大喜:“哇,这个词用得好,地道!高分!” 结果,模型就get到了:哦,人类喜欢我用“delve”,那我以后就多用! (这事儿还引发过一场大讨论,保罗·格雷厄姆曾吐槽过这个词,结果被很多印度和尼日利亚的学者给“教育”了,说他不懂文化差异。) 破折号,也是“非洲英语”的锅吗? 那问题来了:会不会破折号也是同样的情况? 是不是在尼日利亚英语里,大家平时说话就特爱用破折号,所以标注员们也更喜欢带破折号的回答? 这个猜测,简直太完美了,对吧?它解释了为什么“delve”和“破折号”会一起出现。 然而,原作者Sean Goedecke是个较真的人,他真的跑去查数据了。 他找到了一个“尼日利亚英语文本”的数据集,然后跑程序统计了里面破折号的出现频率。 结果你猜怎么着? 数据啪啪打脸。 数据显示,在那份尼日利亚英语数据集中,破折号的频率(占所有单词的比例)大约是 0.022%。 而一篇关于英语标点符号历史的论文指出,在当代通用英语文本中,破折号的频率波动范围在 0.25% 到 0.275% 之间。 看明白了吗? 尼日利亚英语(作为非洲英语的代表)使用破折号的频率,不仅不高,反而比通用英语 低得多! 所以,这条线索也断了。 “delve”的锅,RLHF和非洲标注员可能得背;但“破折号”的锅,还真甩不到他们身上。 真正的“嫌疑人”:19世纪的老书 好了,排除了这么多,我跟你说,下面这个解释,是我目前看到最靠谱、也最令人信服的。 它来自一个非常关键的观察: 你发现一个“华点”了吗?GPT-3.5 根本不怎么爱用破折号! 这个“怪癖”,是从GPT-4(以及GPT-4o)才开始集中爆发的。 包括Anthropic的Claude和Google的Gemini,也都有这个毛病。 这就把时间锁定在了2022年底(GPT-3.5发布)到2024年初(GPT-4o发布)这短短的一年多时间里。 从2022年到2024年,到底发生了什么? 答案只有一个: 训练数据的构成,发生了根本性的变化。 你想啊,2022年那会儿,OpenAI他们训练模型,用的数据主要是从互联网上抓取的公开文本(比如维基百科、Reddit帖子、新闻网站),再加上从LibGen、Z-Library这类网站“搞”来的海量盗版电子书。 但是,当大模型的能力在2023年震惊世界后,所有的AI公司都疯了。 他们立刻意识到,高质量的训练数据,就是未来的“石油”和“黄金”。 互联网上的“垃圾”已经喂不饱新一代的模型了。他们需要更多、更优质、更干净的文本。 他们把目光投向了哪里? 实体书。 AI公司们(OpenAI、Anthropic、Google等)开始了一场疯狂的“数据军备竞赛”,他们不惜重金,开始大规模地扫描、数字化人类历史上所有的纸质出版物。 (Anthropic的法庭文件就披露了,他们从2024年2月开始搞这个事。OpenAI虽然没明说,但业内普遍认为他们干得更早、更猛。) 好,关键的连接点来了。 这些新扫描的实体书,和以前LibGen上的盗版书,有啥核心区别? 区别就在于——年代。 盗版电子书网站上的内容,大多偏向于当代文学和流行读物(比如《哈利·波特》、各种畅销小说和现代教材),因为这是网民们真正想下载和阅读的。 而AI公司要去“抢救”数据,肯定会把人类历史上所有能弄到的书都扫一遍,尤其是那些早已进入“公有领域”(Public Domain)的旧书。 这些书,大多是什么年代的? 19世纪末,和20世纪初。 现在,让我们回到前面提到的那篇“标点符号历史研究论文”。 它里面有一个惊人的发现: 在英语写作中,破折号的使用率,恰恰在1860年左右达到了历史巅峰(约0.35%) 之后才慢慢回落,到1950年代后才稳定在0.25%-0.275%的水平。 你再品品:19世纪末和20世纪初的文学作品(比如狄更斯、梅尔维尔),他们使用破折号的频率,比当代英语高出了近30%! 举个栗子,著名的《白鲸记》(Moby-Dick)一本书里,统计下来居然有 1728个 破折号! 真相大白了,不是吗? 这可能是最合理的解释: AI模型之所以疯狂使用破折号,不是因为它“聪明”地选择了什么万金油标点,也不是因为非洲标注员的偏爱。 仅仅是因为,在2023年这场“数据军备竞赛”中,它被强行“喂”下(预训练)了海量的、来自19世纪和20世纪初的“高质量”老书。 而那些书里——就TMD全都是破折号! 这个“写作习惯”,就像一种古老的“语法DNA”,被深深地刻进了模型的神经网络里。 总结,和几个没想通的“小疙瘩” 好,咱们来捋一捋这个“破案”思路: 1. 结构性解释(省Token、万金油):不太可能。GPT-3.5没这个问题,而且有反例(逗号)。 2. RLHF解释(标注员偏好):不太可能。非洲英语数据反驳了方言理论。 3. 训练数据解释(老书污染):可能性最大。 它完美解释了为什么是从GPT-4开始爆发的(因为数据构成变了),也解释了为什么AI的用量会 高于 当代人类的平均水平(因为它的“教材”比我们的老)。 我个人(和原作者一样)最倾向于第三种:训练数据(特别是老书)的污染。 但是,这事儿还没完。 就算这个“老书理论”是真的,依然有几个“小疙瘩”,我还是没想通。 疙瘩一:《白鲸记》悖论 这是最大的一个困惑: 如果AI真的“饱读”了19世纪经典,为啥它写的东西读起来一点也不像《白鲸记》或《双城记》? 它只是“偷”了人家的标点符号,却没学会人家那套华丽、繁复、古老的文风? 这个问题,我倒有个自己的猜想。 这可能正是我前面说的“分层训练”导致的一个“缝合怪”结果。 你可以这么想象: 1. “预训练”阶段(Pre-training): AI像个婴儿,被关在小黑屋里,强行“吞”下了《白鲸记》在内的数万亿Token。它在这个阶段学会了语法、词汇、事实,也顺便学会了“破折号”这个深入骨髓的“口头禅”。它此时的“灵魂”是19世纪的。 2. “微调”阶段(SFT & RLHF):AI长大了,被放出来“岗前培训”。 成千上万的21世纪标注员(包括那些肯尼亚人)开始“掰”它的说话方式,强迫它用21世纪的、礼貌的、友好的、客服式的“当代风格”说话。(比如“我很高兴为你服务”、“作为一个大语言模型……”) 所以,你最终看到了一个“人格分裂”的AI: 它拥有一个“19世纪的语法之魂”(所以爱用破折号),却被迫披上了一件“21世纪的客服外衣”(所以说话像个AI助手)。 这事儿是不是还挺赛博朋克的? 疙瘩二:RLHF真的“无辜”吗? 另一个可能,也许RLHF也不是完全“无辜”的。 虽然“非洲方言”理论被否了,但有没有一种可能:破折号本身,就是让文字读起来更“口语化”? 你想,咱们聊天时,不就是经常“呃……”、“那个——”、“我意思是——”这样吗? 破折号在功能上,确实能模拟这种“停顿”和“补充”。 也许,标注员们(无论他们在哪)只是单纯地觉得:“哇,这个回答用了破折号,显得不那么死板,更像在‘聊天’,我喜欢!高分!” OpenAI的CEO萨姆·奥特曼(Sam Altman)好像也在一次采访里模糊地提过,他们“(有意)加了更多破折号,因为用户们喜欢这种风格”。 如果是这样,那它可能和“老书理论”是共同作用的: 老书(预训练)给了AI使用破折号的“能力”和“高概率”;而标注员(RLHF)则“强化”并“奖励”了这种能力,让它变本加厉。 尾声:Hacker News上的“插曲” 原作者的文章发出去后,在Hacker News(一个程序员的“豆瓣”)上火了。 评论区里又冒出来一个有意思的理论,来自Medium(一个博客平台)的CEO。 这位CEO说: “都别猜了,我告诉你们为啥!因为Medium是高质量的训练数据源。而在Medium上,我们系统会自动把用户输入的两个连字符(`--`)转换成一个标准的破折号(`—`)。肯定是这个原因!” 这个解释,恕我直言,简直离谱。 他(和很多技术宅一样)完全搞错重点了! 咱们讨论的不是AI用了哪个特定字符(是`—`还是`--`),咱们讨论的是它为什么要去使用这个标点的“功能”。 也就是那种“打断-补充-转折”的语法功能! 就算AI的训练数据里,把很多“连字符”(hyphen,如 "state-of-the-art")因为OCR错误或自动转换,都识别成了“破折号”(em-dash)。 那也只会让模型学会“错误地”在“state-of-the-art”这种地方用破折号,并不会让它学会在句末用破折号来代替“因此”啊! 这完全是两码事。 所以,绕了一大圈,我个人还是最站“19世纪老书”这个理论。 这事儿最有意思的地方在于,我们发现,AI这个看似“智能”的庞然大物,它的行为模式,很多时候可能源自一些我们意想不到的、甚至有点“蠢”的原因。 一个小小的标点符号,就像一块“数字考古”的化石。 它藏着AI大模型“进化”的秘密。

喜欢摇滚乐、爱钓鱼的PM 网站:https://t.co/vnUpLt752o

avatar for 向阳乔木
向阳乔木
Mon Nov 03 14:36:11
RT @janusch_patas: 3DGS, satellite imagery, and drones are game changers for disaster recovery and modern warfare.

Progress in real-time 3…

RT @janusch_patas: 3DGS, satellite imagery, and drones are game changers for disaster recovery and modern warfare. Progress in real-time 3…

Your guide to radiance fields | Host of the podcast @ViewDependent | Founder and CEO of https://t.co/5MjtfpwEU3 | FTP: 279 | discord: https://t.co/lrl64WGvlD

avatar for MrNeRF
MrNeRF
Mon Nov 03 14:33:31
  • Previous
  • 1
  • More pages
  • 1201
  • 1202
  • 1203
  • More pages
  • 2127
  • Next