斯坦福30万次实验揭AI黑箱!神经网络先学特征后记噪声铁证曝光
本文为深度编译,仅供交流学习,不代表智子说观点
现代神经网络通过拥有数十亿个参数,构建起庞大的计算架构。这种程度的“过度参数化”(Overparameterization)在理论上甚至足以让模型对毫无规律的随机数据进行“过拟合”(Overfitting)。然而,在实际应用中,当训练数据具备内在结构时,这些庞然大物却能有效地学习到底层特征。

理解这种过度参数化为何不会破坏模型的有效性,一直是人工智能领域面临的基础性挑战。来自斯坦福大学(Stanford University)的安德烈亚·蒙塔纳里(Andrea Montanari)与理论物理研究所(IPhT)的皮尔弗朗切斯科·乌尔巴尼(Pierfrancesco Urbani)提出了一项新理论:特征学习与过拟合在训练过程中虽然并存,但它们发生在完全不同的时间尺度上。

为了直观展示这一发现,研究人员分析了含 $$ 个隐藏神经元的两层神经网络的学习过程。在一项涉及 $$ 维空间中 $$ 个样本(假设 $n$、$m$、$d$ 均为大数且 $n/(m \cdot d) = 0.3$)的实验中,数据的演变呈现出三种动态状态:平均场(MF)、特征学习、以及特征学习与过拟合/遗忘并存。
蓝色的测试误差曲线(代表泛化能力)、紫色的训练误差曲线以及红色的模型复杂度曲线(通过第二层权重的 $l^$ 范数衡量)共同揭示了一个关键现象:模型在“死记硬背”数据噪声之前,就已经学会了有用的特征。
机器学习的演进
现代计算机科学的基石,奠定于艾伦·图灵(Alan Turing)那极具开创性的工作之中。他构想出一种通用的可编程机器,能够根据初始输入自动评估并执行复杂的函数。至关重要的是,在这种架构下,操作指令(即算法或软件)必须由外部提供,且每当任务或计算需求变更时,这些指令也需同步更新。这种“机器”硬件与“指令”软件的分离架构,正是今日笔记本电脑、智能手机及各类数字设备通过代码、程序和应用程序运行的核心机制。
而在大约五十年前,一场范式转移悄然发生:研究者们开始提出构建开放式的计算框架,使其能够直接从海量的训练数据集中“学习”必要的指令,而非依赖人工编写。

以自动驾驶汽车为例:系统不再需要程序员为所有可能遇到的路况(如雨天路滑、行人横穿等)编写详尽的决策代码,而是通过数以万计的真实驾驶场景与解决方案进行训练。机器能够自主习得实现安全实时驾驶决策所需的底层函数,这在实质上实现了某种程度的“自编程”。 这正是机器学习与神经网络技术的核心理念所在。
理解神经网络与过度参数化
人工神经网络(ANN)本质上是一个通过训练自动调整(即“拟合”)海量可调参数(称为权重)的计算系统,旨在学习并执行特定任务所需的复杂数学函数。简单神经网络的理论基础,长期以来源于经典的统计学习理论。
该理论的一个核心支柱在于:当网络的拟合复杂度(例如权重的数量)相对于训练数据的数量保持较低水平时,网络便能高效运作。这意味系统倾向于选择最简明且有效的模型,本质上是“奥卡姆剃刀”(Occam's Razor)原则在计算领域的体现。

然而,约十五年前,当深度神经网络——一类极其复杂的拟合函数——被实证证明即使在看似简单的任务上也能表现出卓越性能时,理论界陷入了一场重大危机。
这种现象令人震惊且费解,因为这类现代模型往往拥有远远超过训练样本数量的权重参数。在这种典型的“过度参数化”状态下,其复杂程度理论上甚至足以完美拟合完全无特征的随机噪声数据。 尽管如此,这些模型在实践中仍能精准地剥离噪声,学习到有意义数据的潜在特征(即特征学习),从而展现出良好的泛化能力。
理解过度参数化为何不影响现代神经网络的性能,甚至可能对其有益,已成为当今人工智能基础理论与学习范式研究中最核心的问题。
关于训练时间尺度的最新研究
在近期发表于2025年神经信息处理系统年会(NeurIPS 2025)并作口头报告的研究中,安德烈亚·蒙塔纳里与皮尔弗朗切斯科·乌尔巴尼提出了解决此难题的全新方案。

通过结合创新的理论物理技术与严谨的统计分析,他们证明在过度参数化的神经网络中,过拟合与特征学习虽然同时存在于潜在的可能性中,却在训练动态的“时间轴”上错峰出现——即所谓的“时间尺度分离现象”。
这种特征学习与过拟合之间的动态解耦,源于训练算法与网络架构之间复杂的交互作用。研究发现,模型规模越大,这种时间尺度的分离程度就越显著。鉴于特征学习在时间顺序上先于过拟合发生,该模型揭示了超参数化神经网络能够高效运作的稳健机制:它们在开始记忆噪声之前,已经学会了规律。

更多信息请参阅:Andrea Montanari 与 Pierfrancesco Urbani (2025) 发表的论文《大型双层网络中泛化与过拟合的动态解耦》(Dynamic decoupling of generalization and overfitting in large two-layer networks),该论文收录于第三十九届神经信息处理系统年会论文集。
作者介绍
本文基于理论物理研究所(IPhT)提供的研究成果,由 Science X 编辑团队整理发布。理论物理研究所致力于物理学各领域的理论研究,并积极探索物理学方法在计算机科学与人工智能领域的交叉应用。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
