X (Twitter)

现代人工智能基于“深度学习”。为什么深度学习起源于1965年的乌克兰（苏联）？当时，苏联在许多重要的科学技术领域处于领先地位，尤其是在航天领域：第一颗人造卫星（1957年）、第一个人造物体登陆天体（1959年）、第一位宇航员进入太空（1961年）、第一位女性宇航员进入太空（1962年）、第一个机器人登陆天体（1965年）、第一个机器人登陆其他行星（1970年）。苏联还引爆了世界上威力最大的原子弹（1961年），并且拥有众多顶尖数学家，为基础数学研究提供了充足的资金。这些研究的巨大意义直到几十年后计算成本降低数十亿倍时才显现出来。请参阅 Ivakhnenko 于 1971 年发表的英文综述（IEEE Transactions on Systems, Man and Cybernetics, (4):364-378）。该综述描述了一个 8 层的深度学习网络，即使在 21 世纪初，这个层数也算是相当深的。给定一个包含输入向量及其对应目标输出向量的训练集，网络层通过回归分析逐步增长并进行训练。在微调阶段，借助独立的验证集，通过正则化剪枝去除多余的隐藏单元。这简化了网络，并提高了其在未见过的测试数据上的泛化能力。网络层数和每层单元数是根据具体问题进行学习的。甚至当时的实验也与今天的实验类似：根据序列中的前几个元素预测下一个元素。这正是 ChatGPT 的功能！也就是说，伊瓦赫年科在“连接主义”这个名称在 20 世纪 80 年代流行起来的二十年前就提出了带有自适应隐藏层的连接主义，在“深度学习”这个名称在 21 世纪初流行起来的四十年前就提出了“深度学习”。他还证明，仅使用局部可用信息即可学习隐藏单元的适当权重，而无需进行生物学上不合理的反向传播（反向传播技术于 1970 年在邻国芬兰发表）。更多内容请参见：谁发明了深度学习？技术说明 IDSIA-16-25，IDSIA，2025 年 11 月。

来自 Jürgen Schmidhuber（@SchmidhuberAI）的推文线程

作者信息

线程正文