關於ChatGPT 為什麼喜歡用破折號,這個問題的原因似乎現在還沒有定論,不過剛看到一篇部落格分析這個問題,還挺有趣。 先說一個有趣的問題是AI 特別喜歡用"delve"(深入探究)這個字。 這個現象的答案是已知的:RLHF(人類回饋強化學習)。 簡單說,AI 模型訓練的最後一步,是僱用大量的人類「導師」來給它的答案打分數。 OpenAI 僱用的導師很多在肯亞、奈及利亞等非洲國家。而在這些地區的「非洲英語」中,"delve" 是一個非常常用且得體的詞彙。 於是,當AI 用"delve" 時,非洲的導師們覺得“這話說得不錯”,就給了高分。 AI 就此學會了:“哦,客戶喜歡我用'delve'。” 那麼,破折號也是因為這個原因嗎? 作者順著這個思路去查證:是不是非洲英語裡也特別愛用破折號? 結果,並不是! 尼日利亞英語破折號的出現頻率(每字0.022%)遠低於一般英語的平均值(0.25% 到0.275%)。 這說明,「深入探究」(delve)和「破折號」(—)這兩個AI “口音”,來源並不相同。 作者最終發現了一個決定性的線索:時間。 大家回想一下,2022 年底的GPT-3.5,其實並沒有這個毛病。這個「破折號上癮症」是在GPT-4 和GPT-4o 身上才集中爆發的。 不只是OpenAI,Google和Anthropic 的模型,包括一些中國的大模型,都開始用破折號。 那麼,從2022 年到2024 年,所有AI 實驗室的訓練數據,到底發生了什麼共同的變化? 答案是:AI 公司的「資料荒」來了,它們開始瘋狂「餵」AI 吃書——特別是「舊書」。 在2022 年,AI 主要吃的是網路上的公開資料、盜版電子書(例如LibGen 上的)。但很快,這些數據就不夠用了,而且品質良莠不齊。 為了讓模型變得更“有文化”、更“高質量”,AI 公司們(法庭文件顯示Anthropic 在2024 年2 月開始了這項工作,OpenAI 只會更早)啟動了一個龐大的工程:大規模掃描實體書,把紙質書數字化,作為訓練數據。 好了,破案的最後一塊拼圖來了。 既然AI 吃了大量(可能是幾百萬冊)掃描的紙本書,那麼這些書是什麼年代的呢? 盜版電子書網站上的書,多是當代流行讀物。而AI 公司為了「填飽肚子」並繞過版權,掃描的書中,有很大一部分是更古老的、已進入公共領域的作品。 作者找到了一個關於英語標點符號使用頻率的研究,它顯示: 破折號在英語文學中的使用頻率,在1860 年左右達到了頂峰(約0.35%),在19 世紀末和20 世紀初的使用率,遠高於當代英語。 作者舉了一個例子:著名的《白鯨記》(Moby-Dick,1851年出版)一書中,破折號出現了1728 次! 真相至此水落石出: 我們現在使用的最先進的AI,它的「標點符號觀」並不是從2020 年的網路學來的,而是從1890 年的舊小說裡繼承來的。 AI 公司們為了獲取「高品質」的語料,把大量19 世紀末、20 世紀初的文學作品餵給了模型。 AI 忠實地學習了那個年代的寫作風格——其中就包括對「破折號」的狂熱喜愛。 當然,作者也承認,這仍然是一個基於證據的推測,還有一些小問題沒解決: 1. 為什麼AI 只學會了用破折號,卻沒有學會像《白鯨記》的船長那樣說話? 也許模型只是吸收了標點符號這種「潛意識」的風格,而沒有吸收具體的用詞? 2. 有沒有更簡單的解釋? 例如,Sam Altman 曾隨口提過,他們發現RLHF 的人類導師“似乎更喜歡”帶破折號的回答,覺得那樣更“口語化”,所以就“多加了點”。 不過,綜合來看,「掃描舊書」這個理論目前是最有說服力的。它完美地解釋了為什麼GPT-3.5 不會,而GPT-4 之後的模型(它們都大量訓練了新的書籍資料),然後集體對破折號「上癮」了。 有興趣可以看看原文:https://t.co/BxRnoWxsnS
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。