[Paper] 走向通过对称性约简实现的Transformer显式关系性

发布: 3天前 (2026年2月22日 GMT+8 03:43)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.18948v1

概述

论文 “Toward Manifest Relationality in Transformers via Symmetry Reduction” 解决了现代 transformer 模型中一个隐藏的低效来源：大量内部参数是冗余的，因为它们在不同的坐标系或 “heads” 中编码了相同的信息。通过将模型重新表述为 不变的关系量——在这些对称性下保持不变的特征——作者展示了如何从一开始就剥除不必要的自由度。

关键贡献

对称感知的重新表述：将 token 嵌入、注意力得分和层归一化操作重新表述为关系（坐标无关）不变量的函数。
对称性约简框架：在模型空间（例如隐藏向量的旋转）和头空间（注意力头的置换）中消除连续对称性。
几何解释：对 transformer 动力学进行几何解释，将优化轨迹与在降维流形上的运动联系起来。
原型关系 transformer 架构：在保持标准基线性能的同时，参数量最多减少约 30 %。
分析工具：用于量化参数冗余并可视化训练如何在降维对称空间中导航。

方法论

识别对称性 – 作者首先形式化了两类对称性：
- 模型空间：对所有隐藏向量统一施加的任意正交变换都不会改变输出。
- 头部空间：交换或线性混合注意力头会产生相同的整体注意力分布。
构建不变量 – 使用群论和微分几何的概念，他们推导出在已识别对称性下保持不变的关系描述符，例如令牌嵌入之间的内积矩阵以及跨头的成对余弦相似度。
重新定义核心模块 –
- 嵌入层：模型不再接收绝对向量，而是接收成对相似度张量。
- 自注意力：注意力分数直接从不变的成对关系计算，省去对旋转对称的查询/键/值投影。
- 归一化：层归一化被关系归一化取代，后者在令牌邻域的不变统计上操作。
在商流形上优化 – 训练使用标准 Adam，但梯度被投影到降维流形的切空间，确保更新永不重新引入已消除的对称性。
实证验证 – 在语言建模（WikiText‑103）和视觉语言任务（VQA）上的实验，将关系变换器与深度相当的普通变换器进行比较，测量困惑度、准确率和参数数量。

结果与发现

任务	模型	参数 (M)	指标 (↓ 越低越好)	相对 Δ
WikiText‑103 (LM)	标准 Transformer	125	18.9 ppl	–
	关系 Transformer	88	18.5 ppl	‑22 % 参数, +0.4 ppl
VQA	标准 Transformer‑BERT	110	66.2 % 准确率	–
	关系 Transformer‑BERT	85	66.8 %	‑23 % 参数, +0.6 % 准确率

参数效率：关系版本始终使用约 20‑30 % 更少的参数，同时保持或略微提升性能。
训练动态：损失曲线收敛更快，投影梯度的方差更低，表明在缩小的搜索空间中导航更平滑。
可解释性：不变注意力图的可视化揭示了更清晰的关系模式（例如句法依存），这些在原始查询/键空间中更难发现。

实际意义

更小、更快的模型 – 通过削减冗余参数，开发者可以在边缘设备或对延迟敏感的服务中部署 Transformer，而不牺牲准确性。
简化微调 – 由于关系表示已经消除了对称性，在下游任务上的微调需要更少的 epoch 并且对超参数的调节也更少。
对初始化的鲁棒性 – 降低的对称空间缓解了“模式崩塌”，即不同随机种子会导致内部表示差异巨大，从而提升训练结果的可复现性。
关系型 AI 的基础 – 该框架自然契合基于图的推理、知识图谱集成以及多模态任务，在这些任务中关系（而非绝对嵌入）是主要信号。
工具 – 作者发布了一个轻量级的 PyTorch 库，可直接插入现有 Transformer 代码库，只需在模型定义中做几行修改。

限制与未来工作

对称性的范围 – 当前的约简处理连续正交和头部置换对称性，但未涉及离散的 token 顺序对称性（例如位置编码）。
计算开销 – 计算成对不变量的复杂度随序列长度呈二次增长；作者通过低秩近似进行缓解，但非常长的序列（例如 >8k token）仍然是挑战。
对其他架构的泛化 – 将对称性约简原理扩展到仅解码器模型（例如 GPT）或稀疏注意力变体仍是未解之题。
理论保证 – 虽然实证结果令人鼓舞，但在商流形上的收敛加速的形式化证明仍留待未来工作。

该论文为深度学习模型中的显式关系性开辟了一条引人注目的道路，提供了一种原则性的方法来裁剪隐藏冗余，使 Transformer 训练既更高效又更具可解释性。随着社区在这些思想上不断深入，我们有望看到新一代更轻量、具几何感知的模型，更好地契合现实数据的关系本质。

作者

J. François
L. Ravera

论文信息

arXiv ID: 2602.18948v1
分类: cs.LG, cs.NE, hep-th, stat.ML
出版日期: 2026年2月21日
PDF: 下载 PDF

[Paper] 走向通过对称性约简实现的Transformer显式关系性

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Skill-Inject：衡量智能体对 Skill 文件攻击的脆弱性

[Paper] JUCAL：在分类任务中联合校准Aleatoric和Epistemic不确定性

[Paper] 循环结构策略梯度用于部分可观测均值场博弈

[Paper] KNIGHT：基于知识图谱的多项选择题生成与自适应难度校准