ヤン・ルカンとランドール・バレストリエロによる新しいLeJEPA論文を読みました。ヤンが最近どんな研究をしているのか、特に法学修士課程(LLM)に対する批判ばかりしていることを考えると、ずっと気になっていました(私はLLMは今後も進歩を続け、近いうちにASI(法学修士課程)に到達すると考えているので、これには同意できません)。 いずれにせよ、この論文とその内容については、Xに既にいくつかのスレッドが立てられています。簡単に言うと、これは自己教師学習に対する、原理に基づいた、理論的に正当化された、そして簡潔なアプローチであり、自己教師学習の悩みの種であるモード崩壊を防ぐための、アドホックでハックなヒューリスティックの寄せ集めに代わるものです。 ここでモデルが失敗し、すべての入力をほぼ同一の埋め込み、または埋め込みの狭いサブスペースにマッピングし始め、問題の豊かさがすべて病的に単純で間違った対応に崩壊してしまいます。 新しいアプローチの最初の柱は、等方性ガウス分布が、最悪のケースの下流予測リスクを一意に最小化するという証明です。 それを読んですぐに、私は CMA-ES を思い浮かべました。これは、最小化しようとしている関数の勾配にアクセスできず、(コストが高く/遅い)関数評価しか実行できない場合に利用できる最良のブラック ボックス最適化アルゴリズムです。 Nikolaus Hansen 氏は、1996 年に CMA-ES を発表して以来、この研究に取り組んでいます。私は常にこのアプローチに魅了されており、2011 年には、非効率的なグリッド検索を行う代わりに、このアプローチを使用してディープ ニューラル ネットのハイパーパラメータを効率的に探索することに成功しました。 とにかく、私がこのことを取り上げた理由は、このアプローチと LeJEPA の中核の間には驚くべき類似点と深いつながりがあるからです。 CMA-ES では、分散制約のみを与えられた場合、エントロピーが最大となる(バイアスが最も少ない)分布である等方性ガウス分布から始めます。次に、共分散を調整して問題の形状を学習します。 LeJEPA 氏のコメント: 将来の未知のタスクに対してエントロピーが最大になる (偏りが最も少ない) 分布であるため、等方性ガウス分布を維持します。 両者とも、次の 3 つの理由から、不確実性の下では等方性が最適であると認識しています。 最大エントロピー原理: 固定分散を持つすべての分布の中で、等方性ガウス分布は最大エントロピーを持ちます。つまり、仮定の数が最も少なくなります。 方向性の偏りはありません。すべての方向で均等な分散は、特定の問題構造に事前にコミットしていないことを意味します。 最悪のケースの最適性が得られ、すべての可能な問題の形状にわたって最大の後悔を最小化します。 では、違いは何でしょうか?それは適応のタイミングに関係しています。CMA-ESは最適化中に適応することができます。最初は等方性ですが、特定の最適化ランドスケープを学習するにつれて異方性になります。 対照的に、LeJEPA は、まだ見ぬ未知の下流タスクに備えているため、等方性を維持する必要があります。 この類似点は、LeJEPAが最適化理論の基本原理を表現学習に適用していることを示唆しています。つまり、本質的には次のことを意味します。 「ブラックボックス最適化のための最適な探索分布は、転移学習のための最適な埋め込み分布でもあります。」 これは、両方の問題とも未知のランドスケープをナビゲートする必要があるため、理にかなっています。CMA-ES の場合、これは未知の最適化ランドスケープであり、LeJEPA の場合、これは下流のタスクの未知の空間です。 この違いから、次のような疑問が湧きます。CMA-ESが最適化中に適応するのと同様に、最初は等方性で始まり、下流のタスクが分かれば埋め込み分布を適応させる「適応型LeJEPA」は実現できるのでしょうか?これは、特定のタスク群に適した異方性をメタ学習するようなものです。 とにかく、この件について私の考えを共有したいと思います。これらの異なる分野間のつながりを見るのは興味深いですね。ブラックボックス最適化のコミュニティは、ディープラーニングのコミュニティとは常にかなり独立しており、相互に影響し合うことはほとんどありません。 これは理にかなっています。グラデーションがあるなら、それを使わないのは愚かですから。しかし、強いつながりがあります。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
