Ilya は少し前に、教師なし学習の本質は「圧縮」であり、圧縮は学習であると話していましたが、これは非常に洞察に富んだ話でした。 圧縮とは学習である:より簡単な説明 次の 2 つのフォルダーがあるとします。 ① フォルダX: ラベル付けされていない写真の束(教師なしデータ) ② フォルダY:猫や犬の識別(タグ付けされたデータ付き)など、実際に実行する必要があるタスク。 次に、圧縮ソフトウェアを使用して、これら 2 つのフォルダーをパッケージ化します。 驚くべきことが起こりました。 圧縮ソフトウェアが十分に高性能であれば、X と Y の共通パターン (「ぼやけたエッジ」や「4 本の脚」などの特徴など) を見つけ、これらの共通パターンを使用してより小さなサイズに圧縮します。 これがまさに教師なし学習が行うことです。 教師あり学習は非常に明確です。 機械に「これは猫、あれは犬」と伝えます。 機械が学習した結果、トレーニング精度とテスト精度が高まりました。 - これを保証する数式があります。 しかし、教師なし学習は奇妙です。 - 機械に「次のピクセルは何になるか」を予測するように依頼します。 - しかし、あなたが本当に望んでいるのは「猫と犬を識別すること」です。 この2つのタスクは全く違います!ピクセルの予測は、猫と犬の識別にどのように役立つのでしょうか? これまでは、教師なし学習が「確かに有用である」ということしかわかっていませんでしたが、なぜそれが必ずしも有用であるかを説明することはできませんでした。 Ilya 氏は、教師なし学習を圧縮問題として考えればそれが明らかになると言います。 優れた圧縮 = データ内のパターンを見つけること - 画像にランダムノイズがたくさんある場合は、圧縮できません。 - 画像にパターンがある場合(空がすべて青く、草がすべて緑であるなど)、それを圧縮できます。 それで: 次のピクセルを予測する = ピクセル間のパターンを見つける = 画像を圧縮する 見つけたパターンが優れているほど、圧縮が強力になり、学習内容がより有用になります。 2020年に、イリヤチームは次のような実験を行いました。 1. 画像をピクセルの文字列に変換します: ピクセル 1、ピクセル 2、ピクセル 3... 2. 予測モデルのトレーニング: 前のピクセルを見て、次のピクセルが何であるかを推測します。 3. モデルが大きくなるほど、予測の精度が高まります。 4. 驚くべきことが起こりました。モデルの予測が正確になればなるほど、画像分類の精度も高くなったのです。 これは、強力な圧縮能力が強力な学習能力に等しいことを証明しています。 古い混乱: 「次の単語を予測する」ことを教えたのに、どうして「エッセイを書く」方法を知っているのですか?これらは同じではありません。 イリヤの説明: 正確な予測を行うには、言語のより深いルールを理解する必要があります。 これらの原則はエッセイを書くときにも役立ちます。 要するに: 小説を編纂するには、あらすじ、登場人物、文法を理解する必要があります。 こうした理解自体が「学習」を構成します。 圧縮が良ければ、理解も深まります。 この視点はなぜ素晴らしいのでしょうか? 数学的な保証を提供するからです。 モデルがデータを十分に圧縮できる限り、必ず何か有用なものを学習するでしょう。 簡単な一文バージョン: データを圧縮することはパターンを見つけることと同じです。パターンが多ければ多いほど、より有用な情報が得られます。 GPT は次の単語を予測し、本質的にはテキストを圧縮して言語を学習します。 https://t.co/digeAJm2D7
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。