X (Twitter)

剛讀完 Yann LeCun 和 Randall Balestriero 發表在 LeJEPA 上的新論文。我一直很好奇 Yann 最近在研究什麼，尤其是考慮到他對法學碩士（LLM）的種種批評（我並不認同他的觀點，我認為法學碩士會不斷改進，很快就能帶領我們走向高級科學研究所）。總之，X 論壇上已經有好幾個貼文在討論這篇論文及其提出的內容了。簡而言之，它提出了一種原則性強、理論合理且簡潔的自監督學習方法，取代了先前用於防止模式崩潰的複雜且臨時拼湊的啟發式方法——模式崩潰正是自監督學習的一大弊病。這就是模型出錯的地方，它開始將所有輸入映射到幾乎相同的嵌入或一個狹窄的嵌入子空間，將問題的所有豐富性簡化為病態的簡單和錯誤的對應。新方法的第一個支柱是他們證明了各向同性高斯分佈能夠唯一地最小化最壞情況下的下游預測風險。我一讀到那句話，就立刻想到了 CMA-ES，它是目前最好的黑盒優化演算法，適用於無法獲取要最小化的函數的梯度，而只能進行（代價高昂/速度緩慢的）函數評估的情況。 Nikolaus Hansen 自 1996 年提出 CMA-ES 以來，就一直在研究它。我一直對這種方法很感興趣，並在 2011 年成功地使用它來有效地探索深度神經網路的超參數，而不是進行低效的網格搜尋。總之，我之所以提起這件事，是因為這種方法與 LeJEPA 的核心有著驚人的相似之處和深刻的連結。 CMA-ES建議：首先使用各向同性高斯分佈，因為它是在僅考慮方差約束的情況下熵最大（偏差最小）的分佈。然後調整協方差以學習問題的幾何形狀。 LeJEPA 表示：維持各向同性高斯分佈，因為它是未知未來任務的最大熵（最小偏差）分佈。兩者都認為，在不確定性條件下，各向同性是最優的，原因有三：最大熵原理；在所有固定變異數的分佈中，各向同性高斯分佈具有最大熵；也就是說，它所做的假設最少。沒有方向性偏差；所有方向的變異數相等意味著你沒有預先設定任何特定的問題結構。獲得最壞情況下的最優解；在所有可能的問題幾何形狀中最小化最大遺憾。那麼差別究竟在哪裡呢？關鍵在於適應時機。 CMA-ES 可以在最佳化過程中進行適應；它最初是各向同性的，但隨著對特定最佳化環境的學習，會逐漸轉變為各向異性。相比之下，LeJEPA 必須保持各向同性，因為它正在為尚未出現的未知下游任務做準備。這種類比表明，LeJEPA正在將最佳化理論中的一個基本原理應用於表徵學習。它本質上是在說： “黑盒優化的最優搜尋分佈也是遷移學習的最優嵌入分佈。” 這是有道理的，因為這兩個問題都涉及探索未知領域；對於 CMA-ES 來說，這是未知的最佳化領域；對於 LeJEPA 來說，這是未知的下游任務空間。這種差異讓我不禁思考：我們能否實現“自適應 LeJEPA”，它初始狀態是各向同性的，但一旦我們了解下游任務，就會調整其嵌入分佈，類似於 CMA-ES 在優化過程中的自適應方式？這相當於對特定任務族進行元學習，從而找到合適的各向異性。總之，我想分享一下我的看法。看到這些不同領域之間的連結真是令人著迷。黑盒優化社群一直以來都與深度學習社群相當獨立，兩者之間幾乎沒有交叉融合。這很有道理，因為如果你有了漸變效果卻不用它，那就太傻了。但它們之間確實存在著很強的關聯性。

來自 Jeffrey Emanuel（@doodlestein）的推文串

作者資訊

推文串內容