[Paper] 走向通过对称性约简实现的Transformer显式关系性
Source: arXiv - 2602.18948v1
概述
论文 “Toward Manifest Relationality in Transformers via Symmetry Reduction” 解决了现代 transformer 模型中一个隐藏的低效来源:大量内部参数是冗余的,因为它们在不同的坐标系或 “heads” 中编码了相同的信息。通过将模型重新表述为 不变的关系量——在这些对称性下保持不变的特征——作者展示了如何从一开始就剥除不必要的自由度。
关键贡献
- 对称感知的重新表述:将 token 嵌入、注意力得分和层归一化操作重新表述为关系(坐标无关)不变量的函数。
- 对称性约简框架:在模型空间(例如隐藏向量的旋转)和头空间(注意力头的置换)中消除连续对称性。
- 几何解释:对 transformer 动力学进行几何解释,将优化轨迹与在降维流形上的运动联系起来。
- 原型关系 transformer 架构:在保持标准基线性能的同时,参数量最多减少约 30 %。
- 分析工具:用于量化参数冗余并可视化训练如何在降维对称空间中导航。
方法论
-
识别对称性 – 作者首先形式化了两类对称性:
- 模型空间:对所有隐藏向量统一施加的任意正交变换都不会改变输出。
- 头部空间:交换或线性混合注意力头会产生相同的整体注意力分布。
-
构建不变量 – 使用群论和微分几何的概念,他们推导出在已识别对称性下保持不变的关系描述符,例如令牌嵌入之间的内积矩阵以及跨头的成对余弦相似度。
-
重新定义核心模块 –
- 嵌入层:模型不再接收绝对向量,而是接收成对相似度张量。
- 自注意力:注意力分数直接从不变的成对关系计算,省去对旋转对称的查询/键/值投影。
- 归一化:层归一化被关系归一化取代,后者在令牌邻域的不变统计上操作。
-
在商流形上优化 – 训练使用标准 Adam,但梯度被投影到降维流形的切空间,确保更新永不重新引入已消除的对称性。
-
实证验证 – 在语言建模(WikiText‑103)和视觉语言任务(VQA)上的实验,将关系变换器与深度相当的普通变换器进行比较,测量困惑度、准确率和参数数量。
结果与发现
| 任务 | 模型 | 参数 (M) | 指标 (↓ 越低越好) | 相对 Δ |
|---|---|---|---|---|
| WikiText‑103 (LM) | 标准 Transformer | 125 | 18.9 ppl | – |
| 关系 Transformer | 88 | 18.5 ppl | ‑22 % 参数, +0.4 ppl | |
| VQA | 标准 Transformer‑BERT | 110 | 66.2 % 准确率 | – |
| 关系 Transformer‑BERT | 85 | 66.8 % | ‑23 % 参数, +0.6 % 准确率 |
- 参数效率:关系版本始终使用约 20‑30 % 更少的参数,同时保持或略微提升性能。
- 训练动态:损失曲线收敛更快,投影梯度的方差更低,表明在缩小的搜索空间中导航更平滑。
- 可解释性:不变注意力图的可视化揭示了更清晰的关系模式(例如句法依存),这些在原始查询/键空间中更难发现。
实际意义
- 更小、更快的模型 – 通过削减冗余参数,开发者可以在边缘设备或对延迟敏感的服务中部署 Transformer,而不牺牲准确性。
- 简化微调 – 由于关系表示已经消除了对称性,在下游任务上的微调需要更少的 epoch 并且对超参数的调节也更少。
- 对初始化的鲁棒性 – 降低的对称空间缓解了“模式崩塌”,即不同随机种子会导致内部表示差异巨大,从而提升训练结果的可复现性。
- 关系型 AI 的基础 – 该框架自然契合基于图的推理、知识图谱集成以及多模态任务,在这些任务中关系(而非绝对嵌入)是主要信号。
- 工具 – 作者发布了一个轻量级的 PyTorch 库,可直接插入现有 Transformer 代码库,只需在模型定义中做几行修改。
限制与未来工作
- 对称性的范围 – 当前的约简处理连续正交和头部置换对称性,但未涉及离散的 token 顺序对称性(例如位置编码)。
- 计算开销 – 计算成对不变量的复杂度随序列长度呈二次增长;作者通过低秩近似进行缓解,但非常长的序列(例如 >8k token)仍然是挑战。
- 对其他架构的泛化 – 将对称性约简原理扩展到仅解码器模型(例如 GPT)或稀疏注意力变体仍是未解之题。
- 理论保证 – 虽然实证结果令人鼓舞,但在商流形上的收敛加速的形式化证明仍留待未来工作。
该论文为深度学习模型中的显式关系性开辟了一条引人注目的道路,提供了一种原则性的方法来裁剪隐藏冗余,使 Transformer 训练既更高效又更具可解释性。随着社区在这些思想上不断深入,我们有望看到新一代更轻量、具几何感知的模型,更好地契合现实数据的关系本质。
作者
- J. François
- L. Ravera
论文信息
- arXiv ID: 2602.18948v1
- 分类: cs.LG, cs.NE, hep-th, stat.ML
- 出版日期: 2026年2月21日
- PDF: 下载 PDF