[Paper] 通过深度神经网络对得分函数及其导数的同步近似
发布: (2025年12月30日 GMT+8 01:54)
7 min read
原文: arXiv
Source: arXiv - 2512.23643v1
概述
本文提出了一种用于训练深度神经网络(DNN)的新理论框架,该框架能够 同时近似概率分布的得分函数及其任意高阶导数。通过放宽常见的“有界支撑”假设,作者展示了即使对于延伸至无穷的分布,也能够实现精确近似,同时仍然避免了令人头疼的维度灾难。
关键贡献
- 统一的近似理论,适用于得分函数 及其所有导数(不仅仅是一阶梯度)。
- 误差界 与文献中已知的最佳速率相匹配,且不要求数据分布具有有界支撑。
- 维度无关的保证:界限不会随环境维度的增大而爆炸,使得结果适用于具有低维内在结构的高维数据。
- 对任意导数阶的扩展,为更高阶的基于得分的方法打开了大门(例如 Stein 算子、更高阶 Langevin 动力学)。
- 构造性证明技术,提供实现所述精度所需的明确网络结构(深度、宽度、激活函数选择)。
方法论
- 问题设定 – 密度 (p(x)) 的 得分函数 为 (\nabla \log p(x))。作者考虑一族目标密度,这些密度可能具有无限支撑,但呈现低维流形结构(例如,数据位于子空间附近)。
- 网络设计 – 他们使用标准的前馈 ReLU(或平滑)网络,并仔细控制权重的增长,使网络输出在分布的尾部仍保持良好行为。
- 近似策略
- 用神经网络 (f_\theta(x)) 近似对数密度 (\log p(x))。
- 证明同一网络同时近似其梯度 (\nabla f_\theta(x)) 和更高阶导数 (\nabla^{(k)} f_\theta(x))。
- 分析利用了最近关于 DNN 对 Sobolev 函数近似的结果,并结合一种新颖的分解方法,将数据的低维成分隔离出来。
- 误差分析 – 通过在 Sobolev 范数(捕获函数值和导数误差)中衡量误差,他们推导出仅依赖于内在维度和目标对数密度平滑性的界限,而与环境维度无关。
结果与发现
- 近似误差 对得分及其第(k)阶导数的误差规模为 (\mathcal{O}(N^{-s/d_{\text{intr}}})),其中 (N) 为网络参数数量,(s) 为平滑度阶数,(d_{\text{intr}}) 为内在维度。
- 不存在维度灾难:该速率不包含环境维度 (d)。
- 推导的界限是紧的:它们在有界支撑假设下与现有的一阶得分近似下界相匹配。
- 该理论适用于任意指定的导数阶数 (k),表明更深的网络可以忠实捕获更高阶得分信息,而不会在样本复杂度上受到惩罚。
实际意义
- 基于分数的生成模型(例如扩散模型、分数匹配 GAN)现在可以在数据位于流形或具有重尾分布的情况下得到理论支持,扩大了其在物理仿真、金融或高分辨率图像合成等领域的适用性。
- 高阶 Stein 方法:实践者可以设计利用二阶或三阶分数信息的估计量,用于方差降低、假设检验或贝叶斯推断,并且知道单个深度神经网络能够提供所有所需的导数。
- 高效训练:由于同一网络可以产生多阶导数,开发者可以避免为每个阶数单独训练模型,从而节省计算资源和内存。
- 对分布外尾部的鲁棒性:无界支持的保证意味着模型在遇到罕见但极端的输入时不太可能出现灾难性失效——这在安全关键系统中是常见的担忧。
- 低维数据处理:维度无关的收敛速率表明,只要底层结构是低维的,即使是非常高维的数据集(例如 3D 点云、基因组学)也可以被处理,从而鼓励在这些领域使用基于分数的技术。
限制与未来工作
- 结果是理论性的;论文未在真实数据集上提供实证验证,因此实际性能仍有待证明。
- 该构造假设已知内在维度和光滑度参数,而这些在实践中可能难以估计。
- 分析聚焦于ReLU‑类激活函数;将其扩展到其他架构(例如 transformer、卷积网络)仍是一个未解决的问题。
- 未来研究可以探索能够自动发现低维结构的自适应网络设计,以及直接最小化推导出的 Sobolev 范数误差而非标准似然或得分匹配损失的训练算法。
作者
- Konstantin Yakovlev
- Nikita Puchkin
论文信息
- arXiv ID: 2512.23643v1
- 类别: math.NA, cs.LG, math.ST, stat.ML
- 出版时间: 2025年12月29日
- PDF: 下载 PDF