これがとても興味深いので、AI に記事を書き直してもらうことに抵抗できませんでした。 謎が解けた!AIがダッシュを多用する理由とは… AI によって書かれた記事には必ず「AI 風味」があります。 特に英語の文章で最も顕著な特徴の 1 つは、ダッシュが頻繁に使用されることです。 正直なところ、AI モデル (特に GPT-4 以降のバージョン) によるダッシュの乱用はとんでもないレベルに達しています。 さらに面白いのは、プロンプトを使用してそれを「修正」することがほとんどできないことです。 あるネットユーザーはOpenAIフォーラムに、「ダッシュを使わないでください」や「より簡潔な句読点を使用してください」など、さまざまな方法を試したが、モデルは「わかりました」と答え、態度を変えて以前と同じように句読点を使ったと投稿した。 この件全体に何か奇妙なところがある。 論理的に言えば、AI は「リピーター」であり、そのすべての動作はトレーニング データから生成されるはずです。 しかし、現代英語で最も頻繁に使用される句読点ではないダッシュが、なぜ AI の「お気に入り」になったのでしょうか? 興味深いことに、業界内ではこの質問に対する**普遍的に受け入れられている明確な答え**は現在存在しません。 今日は探偵役を演じて、興味深い分析 (Sean Goedecke 氏による) を参考に、AI の「文章作成の癖」の起源を明らかにしましょう。 いくつかの「信頼できない」推測 最も可能性の高い答えを明らかにする前に、私たちは「地雷を除去して」、詳しく調査すると支持できないとわかる、広く流布されているいくつかの理論を排除する必要があります。 推測 1: トレーニング データにはすでにたくさん含まれていたのでしょうか? これは最も直感的な推測です。AI がそれを好んで使うのは、それが「学習」する素材、つまりインターネット全体の英語のテキストがダッシュを多用しているからでしょうか。 最初はその説明をあまり信じませんでした。 考えてみてください。ダッシュが人間の書き言葉でそれほど一般的であれば、それほど目立つ「欠陥」にはならないのではないでしょうか。 私たちが「AI」が強いと感じる理由は、AIが平均的な人間よりもはるかに頻繁にダッシュを使用していることを直感的に認識しているからです。 AIがコンマを頻繁に使うとしたら、気にしますか?いいえ、私たちも同じように使っているので。 したがって、この説明は、「なぜ AI がそれを「好む」のか」という核心的な疑問を直接回避しています。 推測 2: ダッシュは「何でも屋」機能ですが、AI は「怠惰」ですか? 少し「擬人化的」に聞こえる別の理論もあります。 重要なのは、AI が次の単語 (トークン) を予測するのに苦労しているとき、実際にはかなり「苦労している」ということです。 ダッシュを使用するのは、自分自身に「裏口」を残すようなものです。 考えてみてください。ダッシュは、補足的な説明を導入したり、まったく新しい視点を提供したり、さらには転換点を示したりすることもできます。 では、AIは「計算」して、ダッシュを付けるのが最も「安全」で「汎用性が高い」方法で、次の文がどうにか機能すると判断したのでしょうか? 私もそれをあまり信じていません。 まず、他の句読点(カンマやセミコロンなど)も、多くのコンテキストで柔軟に使用できます。 第二に、人間の思考プロセスである「怠惰」や「抜け道を残す」といったものを、大規模言語モデルの動作原理に当てはめるのは、少々…おこがましいと感じています。このモデルは単に「次に最も可能性の高いトークンを予測している」だけであり、「トリックを仕掛ける」という主観的な意図はありません。 推測3: 「お金を節約するため」(トークンの効率を上げるため)? この議論は少し技術的ですが、反論するのが最も簡単です。 それはトークン効率と呼ばれる概念をもたらしました。 簡単に言うと、大規模言語モデルはテキストを単語ごとに処理するのではなく、単語を「トークン」に分解します。 たとえば、「unbelievable」は、「un」、「believe」、「able」の 3 つのトークンに分割される可能性があります。 AI の計算コストは、処理するトークンの数に直接関係します。 理論的には、AI は、1 つのダッシュ (1 トークン相当) で、一連の冗長な接続詞 (「したがって」や「つまり」などのフレーズなど、2 ~ 3 トークンかかる可能性がある) を置き換えることができることを発見したということです。 ダッシュを使用すると「お金を節約」できます! うーん...この説明はまだしっくりきません。 まず、ほとんどの場合、ダッシュはコンマ(これも 1 つのトークンのみを占有します)に完全に置き換えることができます。 たとえば、AI はよく「それは X ではなく、Y です」と書きます。 これは簡単に「それは X ではなく、Y です」と書くことができます。 誰よりも多くのトークンを貯めている人はいません。 第二に、GPT-4o のような巨大企業がコストを最適化するために句読点のそのような「マイクロマネジメント」を行うと本当に思えますか? 本当にトークンを節約したいのであれば、いつもの「無駄な言葉遣いをしない」というフレーズを繰り返すのをやめた方が良かったのではないでしょうか。そうすれば、たくさんのトークンを節約できたはずです。 したがって、上記の 3 つの「主流」の推測は基本的に除外されました。 それで、本当の犯人は誰ですか? もっと深く掘り下げてみましょう: これは RLHF のせいでしょうか? この時点で、AI コミュニティでよく知られている用語である RLHF について、さらに詳しく話す必要があります。 正式名称は「Reinforcement Learning with Human Feedback」です。 これは何ですか? 大まかに言えば、AIにおける「就業前研修」と「業績評価」の段階と考えることができます。 モデル(GPT-4など)が基本的にトレーニングされた後、AI企業は数百または数千人の人間の「評価者」を雇用し、AIとチャットしてAIの回答を採点します。 「この回答は言葉が多すぎるので、ダメです!」 「この回答は非常に役立ち、問題を解決しました。いいね!」 モデルは、人間による「肯定的なレビュー」と「否定的なレビュー」に基づいて、自分の話し方を継続的に「反映」および「修正」し、より「有用」かつより「好感度」の高いものになるよう努めます。 さて、質問です。 コスト削減のため、AI企業はこの「スコアリング」作業を必ずアウトソーシングするでしょう。しかし、誰にアウトソーシングするのでしょうか? 答えは、生活費は安いが英語を話す人口が多い国です。 たとえば、OpenAI の主要な RLHF チームは、アフリカのケニアとナイジェリアにあります。 これにより、非常に興味深い結果が生まれます。 AI の「好み」は、主にこれらのアフリカの注釈者の「英語方言」によって形作られています。 最も有名な例の 1 つは、「delve」(深く研究する)という言葉です。 気づきましたか? GPT-4 は、「delve(掘り下げる)」、「explore(探索する)」、「tapestry(タペストリー)」(「青写真」や「スクロール」とも解釈できます)など、少し「高尚」に聞こえる派手な言葉を特に好んで使います。 これは、アフリカ英語(植民地時代後の国の英語の変種)では、そのようなやや装飾的な語彙を使用することが、「教養がある」ことや「言語的に熟達している」ことの証しとみなされていたためです。 ケニアの注釈者たちは、モデルが「delve」という単語を使用しているのを見て大喜びしました。「わあ、素晴らしい単語ですね。本当に本物です!高得点です!」 その結果、モデルは次のように理解しました: ああ、人間は私が「delve」を使うのが好きなので、今後はもっと頻繁に使うことにします! (この問題は大きな議論も巻き起こした。ポール・グラハムはかつてこの用語を批判したが、インドやナイジェリアの多くの学者から、文化の違いを理解していないと「教育」されただけだった。) ダッシュは「アフリカ英語」でも問題になるのでしょうか? では、質問です。ダッシュでも同じことが起こるでしょうか? ナイジェリア英語圏の人々は日常会話でダッシュを多用する傾向があるため、注釈者もダッシュ付きの回答を好むのでしょうか? この推測はまさに完璧ですね。「delve」と「dash」が一緒に出てくる理由がこれで説明できます。 しかし、原作者のショーン・ゴーデック氏は几帳面な人物で、実際にデータの確認に行ったそうです。 彼は「ナイジェリアの英語テキスト」のデータセットを見つけ、その中のダッシュの頻度をカウントするプログラムを実行しました。 そして何が起こったと思いますか? そのデータは衝撃だ。 データによれば、ナイジェリア英語データセットでは、ダッシュの頻度(すべての単語の割合として)は約 0.022% です。 英語の句読法の歴史に関する論文では、現代の英語のテキストにおけるダッシュの頻度は 0.25% から 0.275% の間で変動していると指摘されています。 分かりましたか? ナイジェリア英語(アフリカ英語の代表)では、一般的な英語に比べてダッシュの使用頻度がはるかに低いです。 したがって、このリードも冷えてしまいました。 RLHF とアフリカのラベル作成者は、「delve」エラーの責任を負う必要があるかもしれませんが、「dash」エラーの責任は実際には彼らにはありません。 真の「容疑者」:19世紀の古い本 さて、多くの可能性を排除した後、次の説明が私がこれまでに見た中で最も信頼性が高く説得力のあるものであることをお伝えします。 それは非常に重要な観察から来ています: 何か面白いことに気づきましたか? GPT-3.5 ではダッシュはほとんど使用されません。 この「癖」は、GPT-4 (および GPT-4o) で初めて大量に出現し始めました。 Anthropic の Claude や Google の Gemini にもこの問題があります。 これにより、期間は 2022 年末 (GPT-3.5 リリース) から 2024 年初頭 (GPT-4o リリース) までの 1 年強に短縮されます。 2022年から2024年の間にいったい何が起こったのでしょうか? 答えは1つだけです。 トレーニング データの構成が根本的に変更されました。 考えてみてください。2022年にOpenAIがモデルをトレーニングしたとき、彼らが使用したデータは主にインターネットからスクレイピングされた公開テキスト(Wikipedia、Redditの投稿、ニュースWebサイトなど)と、LibGenやZ-LibraryなどのWebサイトから「取得」された大量の海賊版電子書籍でした。 しかし、2023年に大規模モデルの能力が世界に衝撃を与えると、すべてのAI企業は熱狂しました。 彼らはすぐに、高品質のトレーニング データが将来の「石油」と「金」であることを認識しました。 インターネット上の「ゴミ」は、もはや新世代のモデルを満足させることができません。彼らはより多くの、より高品質で、よりクリーンなテキストを求めています。 彼らはどこに目を向けたのでしょうか? 物理的な本。 AI企業(OpenAI、Anthropic、Googleなど)は、人類史上のすべての紙の出版物を大量にスキャンしデジタル化するために費用を惜しまず、熱狂的な「データ軍拡競争」を開始した。 (アントロピックの法廷文書によると、同社は2024年2月にこの取り組みを開始していた。OpenAIは明確には述べていないものの、業界では同社がもっと早く、より積極的に取り組みを開始していたと広く信じられている。) さて、ここで重要な接続ポイントが登場します。 新しくスキャンされた物理的な本と、以前に LibGen にあった海賊版本との主な違いは何ですか? 違いは時代にあります。 海賊版電子書籍ウェブサイトのコンテンツは、主に現代文学や人気の読み物(ハリー・ポッター、さまざまなベストセラー小説、現代の教科書など)に偏っています。なぜなら、ネットユーザーが実際にダウンロードして読みたいのはまさにこれだからです。 AI企業がデータを「救出」しようとするとき、彼らは間違いなく、人類史上のあらゆる書籍、特に長らく「パブリックドメイン」となっていた古い書籍を徹底的に調べるだろう。 これらの本のほとんどはどの時代のものですか? 19 世紀後半から 20 世紀初頭。 さて、先ほど触れた「句読点に関する歴史的研究論文」に戻りましょう。 そこには驚くべき発見がありました。 英語の文章におけるダッシュの使用は、1860 年頃に歴史的なピークに達しました (約 0.35%)。 その後徐々に低下し、1950年代以降は0.25%~0.275%の水準で安定しました。 もう一度見てみましょう。19 世紀後半から 20 世紀初頭の文学作品 (ディケンズやメルヴィルの作品など) では、現代英語よりもダッシュが 30% 近くも頻繁に使用されています。 たとえば、有名な本「白鯨」には、なんと 1,728 個のダッシュが含まれています。 真実は明らかになりましたね? おそらくこれが最も合理的な説明でしょう: AI モデルがダッシュを広範囲に使用する理由は、AI モデルが「賢く」何らかの世界共通の句読点を選択したからでも、アフリカの句読点使用者の好みによるものでもありません。 なぜなら、2023 年の「データ軍拡競争」において、19 世紀から 20 世紀初頭にかけての大量の「高品質」な古書が強制的に「投入」(事前トレーニング)されたからです。 そして、それらの本はすべてダッシュだけです! この「文章作成の習慣」は、古代の「文法 DNA」のように、モデルのニューラル ネットワークに深く根付いています。 要約すると、まだよく理解できていないいくつかの小さな問題があります。 さて、この「事件解決」プロセスの手順を見ていきましょう。 1. 構造的説明(トークン節約、汎用性):ありそうにありません。GPT-3.5にはこの問題はなく、反例(コンマ)があります。 2. RLHF解釈(注釈者の好み):可能性は低い。アフリカ系英語のデータは方言説を否定している。 3. トレーニング データの解釈 (古い書籍の混入): 最も可能性が高い。 これは、GPT-4 で爆発的な増加が始まった理由 (データ構成が変化したため) を完璧に説明し、AI の使用が現代人の平均的なレベルよりも高い理由 (その「教科書」が私たちのものよりも古いため) も説明します。 個人的には (原作者と同様に)、3 番目の可能性、つまりトレーニング データの汚染 (特に古い本) を最も強く信じています。 しかし、この問題はまだ終わっていません。 この「古い本の理論」が真実だとしても、まだ理解できない「小さな問題」がいくつかあります。 問題1:白鯨のパラドックス これが最大の混乱の原因です: AI が本当に 19 世紀の古典を「読んだ」のであれば、その文章が『白鯨』や『二都物語』のように読めないのはなぜでしょうか。 単に他人の句読点を「盗んだ」だけで、華麗で複雑、そして古代の文体を学ぶことはできなかった。 これについては私なりの推測があります。 これは、先ほど述べた「階層的トレーニング」によって生じた「フランケンシュタインの怪物」のような結果なのかもしれません。 次のように想像できます。 1. 事前学習段階:AIはまるで暗い部屋に閉じ込められた幼児のように、白鯨を含む数兆個のトークンを無理やり「飲み込む」。この段階では、文法、語彙、事実、そしてついでに深く根付いたキャッチフレーズ「ダッシュ」を学習する。この時点で、AIの「魂」は19世紀のものとなっている。 2. 「微調整」フェーズ(SFT および RLHF): AI が成長し、「事前ジョブトレーニング」用にリリースされます。 21 世紀の言語編集者数千人 (ケニア人を含む) が、その話し方のパターンを「再形成」し始め、21 世紀の丁寧でフレンドリー、顧客中心の「現代的なスタイル」で話すように強制しました (「喜んでお手伝いいたします」や「大規模な言語モデルとして...」など)。 つまり、最終的に目にするのは「二重人格」を持つ AI です。 それは「19世紀の文法の魂」を持っている(したがってダッシュを好む)が、同時に「21世紀の顧客サービスのマント」を着ることを余儀なくされている(したがってAIアシスタントのような話し方をする)。 これはサイバーパンクではないでしょうか? 2 番目の問題: RLHF は本当に「無実」なのでしょうか? もう一つの可能性は、RLHF も完全に「無実」ではないかもしれないということです。 「アフリカ方言」説は反駁されているが、ダッシュ自体がテキストをより「口語的」に読ませる可能性はあるだろうか? 考えてみてください。私たちは会話をしているとき、「えーと…」や「あれは…」、あるいは「つまり…」のようなことをよく言いませんか? 機能面では、ダッシュは確かにこの「一時停止」と「補足」をシミュレートできます。 おそらく、注釈者たちは(どこにいても)単に「わあ、この回答はダッシュを使っているので、堅苦しくなくて『チャット』っぽくていいですね。いいね!高得点!」と思っただけでしょう。 OpenAIのCEOサム・アルトマン氏もインタビューで「ユーザーがこのスタイルを好むため、(意図的に)ダッシュを追加した」と漠然と言及した。 もしそうなら、それは「古い本理論」と連携して機能するかもしれません。 古い本(事前トレーニング)は AI にダッシュを使用する「能力」と「高い確率」を与えましたが、ラベラー(RLHF)はこの能力を「強化」し「報酬」を与えて、さらに顕著にしました。 エピローグ:Hacker Newsの「幕間」 元の著者が記事を公開した後、その記事は Hacker News (プログラマー版の Douban) で話題になりました。 コメント欄に、Medium(ブログプラットフォーム)のCEOによるもう一つの興味深い理論が浮かび上がりました。 CEOは次のように述べた。 推測するのはやめてください。理由をお教えしましょう!Mediumは高品質なトレーニングデータソースだからです。そしてMediumでは、ユーザーが入力した2つのハイフン(`--`)を、システムが標準のダッシュ(`—`)に自動的に変換します。きっとこれが理由でしょう! 率直に言って、この説明は全くばかげています。 彼は(多くの技術オタクと同様に)要点を完全に見逃していました。 私たちが議論しているのは、AI が使用した特定の文字 (「—」か「--」か) ではなく、なぜその句読点を「機能」に使用したかということです。 つまり、「中断-補足-遷移」という文法機能です! AIのトレーニングデータがOCRエラーや自動変換により多くのハイフン(「state-of-the-art」など)をダッシュとして認識したとしても、 これでは、モデルに「最先端」などの場所で「誤って」ダッシュを使用するように教えるだけで、「したがって」の代わりに文末のダッシュを使用するように教えることはできません。 これらは全く異なるものです。 ということで、ぐるぐる回った後、私は個人的にはやはり「19世紀の古い本」説に傾いています。 最も興味深いのは、一見「知的な」巨大生物である AI の行動パターンが、予期せぬ、いくぶん「愚かな」理由から生じていることが多いことがわかったことです。 小さな句読点は、「デジタル考古学」における化石のようなものです。 大規模 AI モデルの「進化」の秘密を握っています。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。