X (Twitter)

王冠氏の発言によると、OpenAIの研究者は以前スタンフォード大学で、AIにわかりやすい記事を書かせることについて語ったことがある。 GPT トレーニングでは具体的に何をするのでしょうか? ほとんどの人は「言語のルールを学ぶ」または「次の単語を予測する」と言うでしょう。これらはすべて正しいですが、十分に深い意味はありません。 OpenAI の Jack Rae 氏はスタンフォードで新しい視点を提案しました。それは、大規模な言語モデルのトレーニングは本質的にロスレス圧縮を実行することであるというものです。それは直感に反することですよね？ 175 個のパラメータを持つモデルを「圧縮」するにはどうすればよいでしょうか? しかし、この観点を理解すれば、多くの混乱が突然解消されるでしょう。まずは哲学について話しましょう。紀元前 4 世紀にはすでに、アリストテレスは「より少ない仮定から導き出された議論の方が優れていることが多い」と述べています。「シンプルさは美しさである」というこの考えは、後に 14 世紀にオッカムによって有名な「オッカムの剃刀」の原理にまとめられました。つまり、最も単純な説明が正しい場合が多いということです。しかし、これらの哲学的思索は、1964年にレイ・ソロモンオフによって証明可能な数学的定理に変換されました。データセットが特定のアルゴリズムによって生成される場合、このデータセットを予測する最良の方法は、データセットの最小の実行可能圧縮ファイルを見つけることです。この定理は非常に独創的で、データを圧縮すればするほど、その本質をより深く理解できると述べています。古典的な思考実験「中国語の部屋」を思い出してください。ある人が巨大なルールブックを持っていました。そこには、考えられるすべての英語の文章とそれに対応する中国語の翻訳が載っていました。この人は本当に翻訳を「理解」しているのでしょうか？圧縮の観点から見ると、答えは明らかです。このマニュアルは大きすぎるため、理解するには最悪の方法です。新しい単語や表現が出てくると、システムはただ表を参照しているだけで、言語のルールを本当に理解していないため、すぐにクラッシュしてしまいます。しかし、このマニュアルを簡潔な文法規則と基本語彙のセットに凝縮できるとしたら、それは別の話です。圧縮率が高いほど、抽出されるパターンはより基本的なものとなり、一般化能力も強くなります。大規模言語モデルは最高の圧縮器であるまずは驚くべき数字を見てみましょう。 Meta の Llama モデル、バージョン 65B は、1 エポックで 1.4 兆トークンにわたってトレーニングされました。元のデータサイズは 5.6 TB でしたが、このモデルを使用して「圧縮」すると、最終的に必要なスペースは約 400 GB になります。圧縮比14倍。これと比較すると、これまでで最も優れた従来のテキスト圧縮アルゴリズム (Hutter 賞受賞) は、8.7 倍の圧縮率を達成しています。大規模言語モデルは、すでに最も先進的なロスレステキスト圧縮ツールです。「え、65Bモデル自体は260GBじゃないの？圧縮後だと400GBしかないってどういうこと？」と思うかもしれません。ここが一番面白い部分です。モデルの重みを転送する必要はありません。重要なのは、「圧縮」の真の意味を理解することです。 Wikipedia の全コンテンツを友人に送信したいが、帯域幅が非常に低いとします。従来の方法は gzip 圧縮を使用することですが、よりスマートな方法があります。友達に次の 2 つのものを送信しました。 1. Transformer をトレーニングするためのコード (わずか 1MB) 2. このモデルを使用して圧縮されたデータシーケンス（400GB）コードを受け取った後、友人はそれを使用して同一のモデルを最初からトレーニングしました。予測されたトークンごとに、圧縮されたデータが「デコード」されて実際のトークンが明らかにされ、その後、次のトークンを予測するトレーニングが続行されます。このプロセスを繰り返すことで、元の 5.6TB のデータを完全に復元できます。わかりましたか？モデルの重みを転送する必要はありません。 10 層の Transformer をトレーニングする場合でも、1000 層の Transformer をトレーニングする場合でも、初期化コードの複雑さはほぼ同じです。実際にスペースを消費するデータは「圧縮データ」であり、そのサイズはモデルの予測の精度によって異なります。これが、実際には大きなモデルの方が圧縮率が高い理由です。「シンプルさ」を再定義しましょう。従来の機械学習では、「モデルが小さいほど、より単純であるため、より一般化しやすい」と言われています。ただし、ここでの「シンプル」とは、パラメータの数が少ないことを意味します。圧縮の観点から見ると、真のシンプルさとはパラメータの数が少ないことではなく、データをより簡潔に記述することであることがわかります。 Llama 33B と 65B は同じ「コードの複雑さ」を持ちますが (両方とも 1MB のトレーニングコードを持ちます)、65B はデータを圧縮して小さくします。したがって、基本的に、65B は「よりシンプルな」モデルであり、よりスマートなモデルでもあります。これが、大規模モデルが過剰適合しない理由であり、スケーリング則が効果的である理由です。モデルがデータをより適切に圧縮できる限り、モデルはより基本的なルールを学習し、より強力な一般化能力を持つことになります。圧縮された視点は私たちに特別な贈り物も与えてくれます。それは、ゲームに依存しない唯一のトレーニング目標です。テストセットの汚染は、大規模モデルの評価における大きな問題です。ただし、圧縮で測定するとこの問題は発生しません。テストセット全体をトレーニングセットに詰め込み、モデルがそれを完全に記憶できるようにしたとします。このように、モデルの予測精度は 100% となり、圧縮されたデータ部分は確かに 0 になります。しかし、コストはどれくらいでしょうか？データセット全体を「モデル記述の長さ」に含める必要があります。全体的な圧縮効果は実際に悪化しました。これが圧縮の優れた点です。あらゆる不正行為は数学的に明らかにされます。基本的な原理を真に理解することによってのみ、より優れた圧縮を実現できます。この観点から、AGI への道は明らかになります。有用な知覚情報をすべて収集し、それを可能な限り圧縮します。圧縮率を改善できる方法はどれも研究する価値があります。 • より良いアーキテクチャ（S4、スパースアテンション） • スケーリングを継続する（モデルが大きく、データが増える） • ツールの使用（電卓、検索エンジン） • 合成データ • マルチモーダル融合「圧縮後の合計サイズ」を削減できれば、AGIに向かって進んでいます。歴史を振り返ると、AI におけるあらゆるパラダイムシフトは、本質的には圧縮された飛躍でした。 • n-gramは基本的な音声認識を可能にします。 • RNNは一貫性のある段落を生成し、機械翻訳を実行します。 • 大規模なTransformerは長い文書を理解し、複雑な推論を実行します。私たちは毎回、世界の情報をよりコンパクトに圧縮し、より深く理解します。もちろん、この視点にも限界はあります。画像やビデオなどの高次元データの場合、ピクセル単位のモデリングは正しいかもしれませんが、実用的ではありません。計算負荷は爆発的に増大するでしょう。最初に何らかの意味フィルタリングを実行する必要があるかもしれません。さらに重要なことは、世の中の多くの有用な情報は観察できないということです。たとえば、囲碁の達人の「探索木」では、実行された動きしか見えず、考慮されている分岐は見えません。これが、AlphaZero が自分自身と対戦する必要がある理由です。AlphaZero は観測不可能なデータを生成します。したがって、観測可能なデータを圧縮することは必要ですが、それだけでは十分ではありません。強化学習と積極的な探索は依然として重要な方法です。しかし、いずれにせよ、圧縮は私たちに知性を理解するための新たな視点を与えてくれます。モデルに新しい機能が「出現した」と言う場合、それは本質的に圧縮率が特定の臨界点を超えたことを意味するのでしょうか? モデルが概念を「理解する」と言うとき、それはモデルが関連情報をエンコードするためのより簡潔な方法を見つけたことを意味するのでしょうか? AGI を追求するとき、私たちは宇宙における情報の最小記述長を探しているのでしょうか? これらの質問に対する標準的な答えはありません。しかし、まさにそれこそがこの分野をとても魅力的なものにしているのです。私たちは数学と工学を使って知性の本質を探究しているのです。知性の本質は圧縮にあるのかもしれない。私たちが今やっていることは、最も単純で最もエレガントな答えに向かって、この道に沿って歩みを進めることです。

元動画アドレスyoutube.com/watch?v=dO4TPJ…mc

向阳乔木（@vista8）のスレッド

作者情報

スレッド内容