ChatGPT がダッシュを使用する理由は現時点では不明のようですが、この問題を分析したブログ記事を見たばかりで、非常に興味深いものでした。 興味深い点は、AI が特に「delve」(深く探る)という言葉を好むことです。 この現象に対する答えはわかっています: RLHF (Human Feedback Reinforcement Learning)。 簡単に言えば、AIモデルの学習における最終段階は、回答の採点を行う多数の人間の「メンター」を雇うことです。OpenAIのメンターの多くは、ケニアやナイジェリアなどのアフリカ諸国にいます。これらの地域で話されている「アフリカ英語」では、「delve」は非常に一般的で適切な単語です。 AIが「delve」を使ったとき、アフリカのメンターたちは「いい言い方だ」と思い、高得点をつけました。するとAIは「ああ、顧客は私が『delve』を使うのを気に入っているんだ」と学習しました。 それで、ダッシュもこのためですか? この考え方に従って、著者は、ダッシュがアフリカ英語でも頻繁に使用されているかどうかを調査しました。 しかし、そうではありませんでした! ナイジェリア英語におけるダッシュの頻度(単語あたり 0.022%)は、一般的な英語の平均レベル(0.25% ~ 0.275%)よりもはるかに低いです。 これは、2 つの AI「アコーディオン」である「delve」と「dash」(—) が異なる起源を持っていることを示しています。 著者は最終的に決定的な手がかり、つまり時間を発見した。 ご存知の通り、2022年末のGPT-3.5ではこの問題は発生しませんでした。この「ダッシュ依存」は、GPT-4とGPT-4oでのみ顕著に現れました。 OpenAIだけではありません。GoogleやAnthropicのモデル(一部の大規模な中国モデルを含む)もダッシュを使い始めています。 では、2022 年から 2024 年にかけて、すべての AI ラボのトレーニング データにはどのような共通の変化が生じたのでしょうか? 答えは、AI 企業が「データ不足」に直面しており、必死になって AI に本、特に「古い本」を「与えている」ということです。 2022年当時、AIは主にインターネット上で公開されているデータや海賊版電子書籍(LibGenなど)に依存していました。しかし、これらのデータは急速に不足し、品質も不安定になっていました。 モデルをより「文化的」かつ「高品質」にするために、AI企業(裁判資料によると、Anthropicは2024年2月にこの作業を開始し、OpenAIはさらに以前に開始していた)は、物理的な書籍を大規模にスキャンしてデジタル化し、トレーニングデータとして使用するという大規模なプロジェクトを立ち上げた。 さて、事件を解決するためのパズルの最後のピースがここにあります。 AI は大量(おそらく数百万冊)のスキャンされた紙の本を消費していますが、これらの本はいつの時代のものでしょうか? 海賊版電子書籍サイトに掲載されている書籍は、主に現代の人気作品です。しかし、AI企業は著作権を回避し「腹を満たす」ために、既にパブリックドメインとなっている古い作品を大量にスキャンしています。 著者は英語の句読点の使用頻度に関する研究を見つけました。その研究は次のような結果を示しています。 英語文学におけるダッシュの使用頻度は 1860 年頃にピークに達し (約 0.35%)、19 世紀後半から 20 世紀初頭にかけては現代英語よりもはるかに使用頻度が高まりました。 著者は例を挙げています。有名な本「白鯨」(1851 年出版)では、ダッシュが 1728 回登場します。 真実は今や明らかになった。 私たちが現在使用している最も高度な AI は、2020 年のインターネットからではなく、1890 年の古い小説から「句読点の概念」を学習します。 「高品質」なコーパスを得るために、AI企業は19世紀後半から20世紀初頭にかけての膨大な文学作品をモデルに入力しました。AIは、ダッシュへの強いこだわりを含め、当時の文体を忠実に学習しました。 もちろん、著者はこれがまだ証拠に基づく推測であり、いくつかの小さな疑問が未解決のままであることを認めています。 1. AIはなぜダッシュの使い方は学習したのに、白鯨の船長のような話し方は学習しなかったのでしょうか?おそらく、AIモデルは特定の語彙を吸収せずに、句読点の「潜在意識」的なスタイルを吸収しただけなのでしょう。 2. もっと簡単な説明はあるでしょうか?例えば、サム・アルトマンはかつて、RLHFの人間の講師はダッシュ付きの回答を「好むようだ」、より「口語的」だと感じたので「ダッシュを追加した」と何気なく言っていました。 しかし、あらゆることを考慮すると、「古書をスキャンする」という理論が現時点で最も説得力があります。これは、GPT-3.5がダッシュに依存できなかったのに対し、GPT-4以降のモデル(いずれも大量の新書データで学習済み)がダッシュに「依存」するようになった理由を完璧に説明しています。 ご興味がございましたら、元の記事をご覧ください: https://t.co/BxRnoWxsnS
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。