X (Twitter)

刚读完 Yann LeCun 和 Randall Balestriero 发表在 LeJEPA 上的新论文。我一直很好奇 Yann 最近在研究什么，尤其是考虑到他对法学硕士（LLM）的种种批评（我并不认同他的观点，我认为法学硕士会不断改进，很快就能带领我们走向高级科学研究所）。总之，X 论坛上已经有好几个帖子在讨论这篇论文及其提出的内容了。简而言之，它提出了一种原则性强、理论合理且简洁的自监督学习方法，取代了之前用于防止模式崩溃的复杂且临时拼凑的启发式方法——模式崩溃正是自监督学习的一大弊病。这就是模型出错的地方，它开始将所有输入映射到几乎相同的嵌入或一个狭窄的嵌入子空间，将问题的所有丰富性简化为病态的简单和错误的对应关系。新方法的第一个支柱是他们证明了各向同性高斯分布能够唯一地最小化最坏情况下的下游预测风险。我一读到那句话，就立刻想到了 CMA-ES，它是目前最好的黑盒优化算法，适用于无法获取要最小化的函数的梯度，而只能进行（代价高昂/速度缓慢的）函数评估的情况。 Nikolaus Hansen 自 1996 年提出 CMA-ES 以来，就一直在研究它。我一直对这种方法很感兴趣，并在 2011 年成功地使用它来高效地探索深度神经网络的超参数，而不是进行低效的网格搜索。总之，我之所以提起这件事，是因为这种方法与 LeJEPA 的核心有着惊人的相似之处和深刻的联系。 CMA-ES建议：首先使用各向同性高斯分布，因为它是在仅考虑方差约束的情况下熵最大（偏差最小）的分布。然后调整协方差以学习问题的几何形状。 LeJEPA 表示：保持各向同性高斯分布，因为它是未知未来任务的最大熵（最小偏差）分布。两者都认为，在不确定性条件下，各向同性是最优的，原因有三：最大熵原理；在所有具有固定方差的分布中，各向同性高斯分布具有最大熵；也就是说，它所做的假设最少。没有方向性偏差；所有方向的方差相等意味着你没有预先设定任何特定的问题结构。获得最坏情况下的最优解；在所有可能的问题几何形状中最小化最大遗憾。那么区别究竟在哪里呢？关键在于适应时机。CMA-ES 可以在优化过程中进行适应；它最初是各向同性的，但随着对特定优化环境的学习，会逐渐转变为各向异性。相比之下，LeJEPA 必须保持各向同性，因为它正在为尚未出现的未知下游任务做准备。这种类比表明，LeJEPA正在将优化理论中的一个基本原理应用于表征学习。它本质上是在说： “黑盒优化的最优搜索分布也是迁移学习的最优嵌入分布。” 这是有道理的，因为这两个问题都涉及探索未知领域；对于 CMA-ES 来说，这是未知的优化领域；对于 LeJEPA 来说，这是未知的下游任务空间。这种差异让我不禁思考：我们能否实现“自适应 LeJEPA”，它初始状态是各向同性的，但一旦我们了解下游任务，就会调整其嵌入分布，类似于 CMA-ES 在优化过程中的自适应方式？这相当于对特定任务族进行元学习，从而找到合适的各向异性。总之，我想分享一下我的看法。看到这些不同领域之间的联系真是令人着迷。黑盒优化社区一直以来都与深度学习社区相当独立，两者之间几乎没有交叉融合。这很有道理，因为如果你有了渐变效果却不用它，那就太傻了。但它们之间确实存在很强的关联性。

来自 Jeffrey Emanuel（@doodlestein）的推文线程

作者信息

线程正文