這個實在太有趣了,忍不住讓AI重寫了一篇文章。 破案了! AI 瘋狂喜歡用破折號的真相竟然是… AI寫的文章,總透著一股「AI味兒」。 最明顯的一個特徵之一,尤其在英文寫作中,特別愛用破折號。 講真,AI模型(尤其是GPT-4之後的版本)對破折號的濫用,已經到了讓人髮指的地步。 更逗的是,你還很難透過提示詞(Prompt)去「糾正」它。 有網友在OpenAI的論壇上發帖,說他試了各種方法,比如“請不要使用破折號”、“請用更簡潔的標點”,結果模型“好的,我明白了”,然後轉頭該用還是用。 這事兒就透著一股詭異。 照理說,AI就是個“復讀機”,它的一切行為都應該來自它的訓練資料。 但為什麼偏偏是破折號——這個在現代英語裡不算最高頻的標點——成了AI的「心頭好」呢? 有趣的是,關於這個問題,業內目前居然**沒有一個公認的、確定的答案**。 今天,咱們就來當一回偵探,結合一篇挺有意思的分析文章(來自Sean Goedecke),一起來扒一扒,AI這個「寫作怪癖」到底是怎麼來的。 幾種「不太可靠」的猜測 在揭曉那個最可能的答案之前,咱們先得“排雷”,把幾個流傳很廣、但細想又站不住腳的理論給幹掉。 猜測一:訓練資料裡本來就很多? 這是最直觀的猜測:AI愛用,是不是因為它「學習」的材料──也就是整個網路的英文文本裡,破折號本來就用得很多? 這個解釋,我第一個就不太信。 你想啊,如果破折號在人類寫作中也這麼普遍,那它就不應該成為一個扎眼的“槽點”,對吧? 我們之所以會覺得「AI味兒」衝,正是因為我們憑直覺感知到,AI使用破折號的頻率遠高於正常人類的平均。 如果AI用逗號的頻率很高,你會在意嗎?不會,因為我們也都這麼用。 所以,這個解釋直接迴避了核心問題:為什麼AI會「偏愛」它? 猜測二:破折號“功能萬金油”,AI“偷懶”? 還有一種理論,聽起來有點「擬人化」。 說的是,AI在吭哧吭哧預測下一個字(Token)的時候,它其實也很「糾結」。 用破折號,就像是給自己留了個「後門」。 你想啊,一個破折號——它既可以引出補充說明,也可以開啟一個全新的觀點,甚至可以表示轉折。 所以,AI是不是“算計”過了,覺得扔出一個破折號最“安全”,最“萬金油”,能讓後面的句子怎麼接都行? 這個我也不太信。 首先,其他標點(如逗號、分號)在許多情境下也同樣靈活。 其次,我總覺得用「偷懶」或「留後路」這種人類的思考方式,去套大語言模型的工作原理,有點……想當然了。模型只是在“預測下一個最可能的Token”,它並沒有“耍滑頭”的主觀意識。 猜測三:為了「省錢」(Token效率)? 這個說法稍微技術一點,但也最容易被駁倒。 它扯到了一個概念,叫做Token效率。 簡單科普一下:大語言模型處理文本,不是一個字一個字處理的,而是把字打碎成一個個「Token」(標記)。 例如"unbelievable" 可能會被拆成"un"、"believe"、"able" 三個Token。 AI的計算成本和它處理的Token數量直接相關。 這個理論是說,AI是不是發現,用一個破折號(佔1個Token),可以替代掉一堆囉嗦的連接詞(比如",therefore," 或"which means" 這種可能佔2-3個Token的短語)? 用破折號,能「省錢」啊! Emmm……這個解釋還是不太對勁。 第一,在絕大多數情況下,那個破折號明明可以被一個逗號(同樣只佔1個Token)完美替換。 例如AI常寫的:"It's not X — it's Y." 這完全可以寫成:"It's not X, it's Y." 誰也沒比誰更省Token啊。 第二,你真覺得GPT-4o這種“龐然大物”,會在標點符號上搞這種“微操”來優化成本嗎? 它要是真想省Token,少說那些翻來覆去的「車遼輒話」(waffle less)不就完了嗎?那省下的Token才叫多。 所以,上面這三個「主流」猜測,基本上都被排除了。 那「真兇」到底是誰? 深入扒一扒:會不會是RLHF的「鍋」? 講到這兒,咱們就得聊點更深的東西了,一個在AI圈大名鼎鼎的詞:RLHF。 全名叫Reinforcement Learning with Human Feedback(基於人類回饋的強化學習)。 這是啥玩意兒? 你可以把它粗暴地想像成AI的「職前訓練」和「績效考核」階段。 在模型(例如GPT-4)基本訓練好之後,AI公司會僱用成百上千的人類「標註員」(Raters),讓他們去跟AI聊天,然後給AI的回答打分數。 “這個回答太囉嗦了,差評!” “這個回答很友好,幫我解決了問題,好評!” 模型會根據這些人類的“好評”和“差評”,不斷“反思”、“修正”自己的說話方式,讓自己變得更“有用”、更“討人喜歡”。 好,問題來了。 AI公司為了節省成本,一定會把這種「評分」的工作外包出去。外包給誰呢? 答案是:那些生活成本較低,但又有大量英語流利人口的國家。 例如,OpenAI的主要RLHF團隊,就設在非洲的肯亞和奈及利亞。 這就帶來一個非常有趣的後果: AI的“品味”,在很大程度上被這些非洲標註員的“英語方言”塑造了。 一個最有名的例子,就是「delve」(深入研究)這個字。 你發現沒? GPT-4特別愛用"delve"、"explore"(探索)、"tapestry"(掛毯,引申為「藍圖」或「畫卷」)這類聽起來有點「拽文」的花俏詞彙。 這就是因為,在非洲英語(作為後殖民國家的英語變體)中,使用這種稍微華麗的詞彙被視為「有文化」和「語言能力強」的體現。 於是,肯亞的標註員們看到模型用了"delve",大喜:“哇,這個詞用得好,地道!高分!” 結果,模型就get到了:哦,人類喜歡我用“delve”,那我以後就多用! (這事兒還引發過一場大討論,保羅·格雷厄姆曾吐槽過這個詞,結果被很多印度和尼日利亞的學者給“教育”了,說他不懂文化差異。) 破折號,也是「非洲英語」的鍋子嗎? 那問題來了:會不會破折號也是同樣的情況? 是不是在尼日利亞英語裡,大家平常說話就特愛用破折號,所以標註員們也比較喜歡帶破折號的回答? 這個猜測,簡直太完美了,對吧?它解釋了為什麼“delve”和“破折號”會一起出現。 然而,原作者Sean Goedecke是個較真的人,他真的跑去查數據了。 他找到了一個「尼日利亞英語文本」的資料集,然後跑程式統計了裡面破折號的出現頻率。 結果你猜怎麼著? 數據啪啪打臉。 數據顯示,在那份尼日利亞英語資料集中,破折號的頻率(佔所有單字的比例)大約是0.022%。 而一篇關於英語標點符號歷史的論文指出,在當代通用英語文本中,破折號的頻率波動範圍在0.25% 到0.275% 之間。 看明白了嗎? 尼日利亞英語(作為非洲英語的代表)使用破折號的頻率,不僅不高,反而比通用英語低得多! 所以,這條線索也斷了。 「delve」的鍋,RLHF和非洲標註員可能得背;但「破折號」的鍋,還真甩不到他們身上。 真正的「嫌疑犯」:19世紀的老書 好了,排除了這麼多,我跟你說,下面這個解釋,是我目前看到最可靠、最令人信服的。 它來自一個非常關鍵的觀察: 你發現一個「華點」了嗎? GPT-3.5 根本不怎麼愛用破折號! 這個“怪癖”,是從GPT-4(以及GPT-4o)才開始集中爆發的。 包括Anthropic的Claude和Google的Gemini,也都有這個毛病。 這就把時間鎖定在了2022年底(GPT-3.5發布)到2024年初(GPT-4o發布)這短短的一年多。 從2022年到2024年,到底發生了什麼事? 答案只有一個: 訓練資料的構成,發生了根本性的變化。 你想啊,2022年那會兒,OpenAI他們訓練模型,用的數據主要是從互聯網上抓取的公開文本(比如維基百科、Reddit帖子、新聞網站),再加上從LibGen、Z-Library這類網站“搞”來的海量盜版電子書。 但是,當大模型的能力在2023年震驚世界後,所有的AI公司都瘋了。 他們立刻意識到,高品質的訓練數據,就是未來的「石油」和「黃金」。 網路上的「垃圾」已經餵不飽新一代的模式了。他們需要更多、更優質、更乾淨的文字。 他們把目光投向了哪裡? 實體書。 AI公司(OpenAI、Anthropic、Google等)開始了一場瘋狂的“數據軍備競賽”,他們不惜重金,開始大規模地掃描、數位化人類歷史上所有的紙質出版物。 (Anthropic的法庭文件就披露了,他們從2024年2月開始搞這個事。OpenAI雖然沒明說,但業內普遍認為他們幹得更早、更猛。) 好,關鍵的連結點來了。 這些新掃描的實體書,和以前LibGen上的盜版書,有啥核心差異? 差別就在於——年代。 盜版電子書網站上的內容,大多偏向當代文學和流行讀物(例如《哈利波特》、各種暢銷小說和現代教材),因為這是網友真正想下載和閱讀的。 而AI公司要去「搶救」數據,肯定會把人類歷史上所有能弄到的書都掃一遍,尤其是那些早已進入「公有領域」(Public Domain)的舊書。 這些書,大多是什麼年代的? 19世紀末,和20世紀初。 現在,讓我們回到前面提到的「標點符號歷史研究論文」。 它裡面有一個驚人的發現: 在英語寫作中,破折號的使用率,正好在1860年左右達到了歷史巔峰(約0.35%) 之後才慢慢回落,到1950年代後才穩定在0.25%-0.275%的水準。 你再品品:19世紀末和20世紀初的文學作品(如狄更斯、梅爾維爾),他們使用破折號的頻率,比當代英語高出了近30%! 舉個栗子,著名的《白鯨記》(Moby-Dick)一本書裡,統計下來居然有1728個破折號! 真相大白了,不是嗎? 這可能是最合理的解釋: AI模型之所以瘋狂使用破折號,不是因為它「聰明」地選擇了什麼萬金油標點,也不是因為非洲標註員的偏好。 只是因為,在2023年這場「資料軍備競賽」中,它被強行「餵」下(預訓練)了海量的、來自19世紀和20世紀初的「高品質」老書。 而那些書裡──就TMD全都是破折號! 這個“寫作習慣”,就像一種古老的“語法DNA”,深深地刻進了模型的神經網路。 總結,和幾個沒想通的“小疙瘩” 好,咱們來捋一捋這個「破案」思路: 1. 結構性解釋(省Token、萬金油):不太可能。 GPT-3.5沒這個問題,而且有反例(逗號)。 2. RLHF解釋(標註員偏好):不太可能。非洲英語數據反駁了方言理論。 3. 訓練資料解釋(老書污染):可能性最大。 它完美地解釋了為什麼是從GPT-4開始爆發的(因為數據構成變了),也解釋了為什麼AI的用量會高於當代人類的平均水平(因為它的“教材”比我們的老)。 我個人(和原作者一樣)最傾向於第三種:訓練資料(特別是老書)的污染。 但是,這事兒還沒完。 就算這個“老書理論”是真的,依然有幾個“小疙瘩”,我還是沒想通。 疙瘩一:《白鯨記》悖論 這是最大的一個困惑: 如果AI真的「飽讀」了19世紀經典,為啥它寫的東西讀起來一點也不像《白鯨記》或《雙城記》? 它只是「偷」了人家的標點符號,卻沒學會人家那套華麗、繁複、古老的文風? 這個問題,我倒有個自己的猜想。 這可能正是我前面說的「分層訓練」導致的一個「縫合怪」結果。 你可以這麼想像: 1. 「預訓練」階段(Pre-training): AI像個嬰兒,被關在小黑屋裡,強行「吞」下了《白鯨記》在內的數萬億Token。它在這個階段學會了文法、詞彙、事實,也順便學會了「破折號」這個深入骨髓的「口頭禪」。它此時的「靈魂」是19世紀的。 2. 「微調」階段(SFT & RLHF):AI長大了,被放出來「崗前訓練」。 成千上萬的21世紀標註員(包括那些肯亞人)開始「掰」它的說話方式,強迫它用21世紀的、有禮貌的、友善的、客服式的「當代風格」說話。 (例如「我很高興為你服務」、「作為一個大語言模型…」) 所以,你最終看到了一個「人格分裂」的AI: 它擁有一個「19世紀的文法之魂」(所以愛用破折號),卻被迫披上了一件「21世紀的客服外衣」(所以說話像個AI助手)。 這事兒是不是還挺賽博龐克的? 疙瘩二:RLHF真的「無辜」嗎? 另一個可能,也許RLHF也不是完全「無辜」的。 雖然「非洲方言」理論被否了,但有沒有一種可能:破折號本身,就是讓文字讀起來更「口語化」? 你想,咱們聊天時,不就是常常「呃…」、「那個--」、「我意思是--」這樣嗎? 破折號在功能上,確實能模擬這種「停頓」和「補充」。 也許,標註員們(無論他們在哪裡)只是單純地覺得:“哇,這個回答用了破折號,顯得不那麼死板,更像在'聊天',我喜歡!高分!” OpenAI的CEO薩姆·奧特曼(Sam Altman)好像也在一次採訪裡模糊地提過,他們「(有意)加了更多破折號,因為用戶們喜歡這種風格」。 如果是這樣,那它可能和「老書理論」是共同作用的: 老書(預訓練)給了AI使用破折號的「能力」和「高機率」;而標註員(RLHF)則「強化」並「獎勵」了這種能力,讓它變本加厲。 尾聲:Hacker News上的“插曲” 原作者的文章發出去後,在Hacker News(一個程式設計師的「豆瓣」)上火了。 留言區又冒出來一個有趣的理論,來自Medium(一個部落格平台)的CEO。 這位CEO說: 「都別猜了,我告訴你們為啥!因為Medium是高品質的訓練資料來源。而在Medium上,我們系統會自動把使用者輸入的兩個連字符(`--`)轉換成一個標準的破折號(`—`)。肯定是這個原因!」 這個解釋,恕我直言,簡直離譜。 他(和很多科技宅一樣)完全搞錯重點了! 咱們討論的不是AI用了哪個特定字符(是`—`還是`--`),咱們討論的是它為什麼要去使用這個標點的「功能」。 也就是那種「打斷-補充-轉折」的語法功能! 就算AI的訓練資料裡,把很多「連字符」(hyphen,如"state-of-the-art")因為OCR錯誤或自動轉換,都識別成了「破折號」(em-dash)。 那也只會讓模型學會「錯誤地」在「state-of-the-art」這種地方用破折號,並不會讓它學會在句末用破折號來代替「因此」啊! 這完全是兩碼事。 所以,繞了一大圈,我個人還是最站「19世紀老書」這個理論。 這事兒最有趣的地方在於,我們發現,AI這個看似「智能」的龐然大物,它的行為模式,很多時候可能源自於一些我們意想不到的、甚至有點「蠢」的原因。 一個小小的標點符號,就像一塊「數位考古」的化石。 它藏著AI大模型「進化」的秘密。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。