[Paper] 强制等变性的缺点及其通过表达能力视角的补偿

发布: 2个月前 (2025年12月10日 GMT+8 22:18)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.09673v1

概览

等变神经网络——能够保持旋转、置换等对称变换的模型——已成为从三维视觉到图学习等任务的首选工具。本文聚焦于一个基本问题：强制网络保持等变性会削弱其表示复杂函数的能力吗？ 通过剖析两层 ReLU 网络，作者展示了等变性确实会限制表达能力，但通过扩大网络规模可以恢复这种损失——同时仍能获得更好的泛化性能。

主要贡献

表达能力损失的理论证明： 构造了一个具体例子，说明严格等变的两层 ReLU 网络无法表示一个非等变网络能够实现的函数。
通过模型规模补偿： 证明增加隐藏单元（或通道）的数量可以恢复缺失的表达能力。
复杂度分析： 即使在放大网络后，等变模型的假设空间的 Rademacher 复杂度 仍低于同等规模的非受限网络，暗示其泛化能力更佳。
层级等变 vs. 全局等变： 提供了细致比较，揭示在每一层强制等变比仅在输出层强制等变更具限制性。
实用指南： 给出了一条经验法则，说明针对常见对称群（如循环群、置换群）需要增加多少隐藏单元以抵消表达能力惩罚。

方法论

模型设定： 作者聚焦于最简单却仍具表达力的类别——两层全连接 ReLU 网络。每个隐藏单元由一个权重向量（“通道”）和一个偏置定义；输出是 ReLU 激活的线性组合。
等变形式化： 对于在输入空间上作用的对称群 (G)，若网络 (f) 满足 (f(g\cdot x)=g\cdot f(x)) 对所有 (g\in G) 成立，则称其为等变的。本文研究两种强制策略：
- 全局等变：整个网络满足上述条件。
- 层级等变：每个线性层都被约束为与群作用对易。
表达能力分析： 通过考察决策边界（ReLU 单元开启/关闭的超平面）以及通道向量的取向，作者构造了一个函数 在等变约束下无法实现，除非网络规模被扩大。
补偿证明： 随后证明，增加 (|G|)（对称群的大小）倍的隐藏单元即可复制任何非受限网络能够表达的函数。
复杂度界限： 利用 Rademacher 复杂度工具，比较放大后的等变网络与参数数量相同的标准网络的容量，显示前者在统计上更“简单”。

结果与发现

方面	非等变两层 ReLU	等变（全局）	等变（层级）
表示目标函数所需的最少隐藏单元数	4	8（示例）	12（更受限制）
每参数的 Rademacher 复杂度	较高	较低	最低
实验测试（合成对称结构数据）	用 4 单元即可完美拟合	需要 8 单元才能达到相同误差	需要 12 单元

要点： 强制等变可能会使完成同一任务所需的隐藏单元预算翻倍（甚至更多），但得到的模型在统计上更“温顺”，这通常会在数据有限或噪声较大的环境下转化为更好的性能。

实际意义

对称感知架构的模型规模设定： 在设计等变 CNN、GNN 或遵循置换/旋转不变性的 Transformer 变体时，隐藏通道数大致需要是普通模型的 (|G|) 倍。
资源高效的泛化： 即使参数量增多，复杂度下降意味着可以用更少的训练轮次或更小的数据集仍达到相当的准确率。
硬件考量： 额外的通道是 结构化 的——它们通常在对称轨道上共享权重，因此可以通过权重绑定或分组卷积来降低内存开销。
调试表达瓶颈： 若等变模型在训练早期停滞，本文的分析建议检查隐藏单元数是否相对于对称群规模足够。
迁移学习： 预训练一个大规模等变骨干网络并在下游任务上微调，可能比同等规模的非等变模型拥有更好的分布外鲁棒性。

局限性与未来工作

仅限于两层 ReLU 网络： 虽然洞见可能推广到更深的结构，但对多层或其他非线性激活函数（如 Swish、GELU）的正式证明仍缺失。
假设精确对称性： 真实数据往往只近似满足某个群；软等变约束的影响尚未探讨。
大规模基准的实证验证： 论文在合成任务上验证了理论；将这些发现应用于 ImageNet 级别的视觉模型或大规模图数据仍是开放方向。
自动化规模启发式： 未来工作可将本文推导的尺度规则集成到架构搜索工具中，实现对给定对称群的表达能力与复杂度自动平衡。

作者

陈宇竹
秦天
田新梅
何丰翔
陶大庆

论文信息

arXiv ID: 2512.09673v1
分类: cs.LG, cs.AI, cs.NE, stat.ML
发表时间: 2025 年 12 月 10 日
PDF: Download PDF

[Paper] 强制等变性的缺点及其通过表达能力视角的补偿

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型