X (Twitter)

你经常会从机器学习领域之外的人或新手那里听到这种说法，我经常会提到伊利亚几年前的一次演讲： 1）可以将任何拥有足够内存和顺序操作能力的优秀深度神经网络视为一台大型并行计算机。 2）训练这个神经网络就是搜索能够最大化目标函数的计算机程序。 3)除非你遇到一些大的瓶颈（并且假设你能成功优化这个系统），否则你会发现这些并行计算机对架构变化具有很强的鲁棒性。 4）这是因为计算机非常擅长相互模拟。你的新架构通常可以直接在旧架构“内部”进行模拟。 5) 架构并非不重要，但它主要在以下方面很重要：(1) 并行计算机的基本瓶颈；(2) 使模型更容易优化的修改，因为只有在优化良好的情况下，此论点才成立；(3) 计算效率/系统效率的提高，使学习更容易或更快。 6）新的架构很可能带来机器学习的突破，但我们首先应该着手解决瓶颈问题，而不是凭直觉去理解人工智能应该采取的“形式”。在你理解这一点之前，你会觉得以下现象令人惊讶：训练时间更长的小型模型比训练不足的大型模型更好；深度和宽度可以互换；使用 MoE、稀疏注意力或线性注意力机制的模型在相同评估次数下性能大致相同。

来自 will depue（@willdepue）的推文线程

作者信息

线程正文