[Paper] 走向通过对称性约简实现的Transformer显式关系性

发布: (2026年2月22日 GMT+8 03:43)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.18948v1

概述

论文 “Toward Manifest Relationality in Transformers via Symmetry Reduction” 解决了现代 transformer 模型中一个隐藏的低效来源:大量内部参数是冗余的,因为它们在不同的坐标系或 “heads” 中编码了相同的信息。通过将模型重新表述为 不变的关系量——在这些对称性下保持不变的特征——作者展示了如何从一开始就剥除不必要的自由度。

关键贡献

  • 对称感知的重新表述:将 token 嵌入、注意力得分和层归一化操作重新表述为关系(坐标无关)不变量的函数。
  • 对称性约简框架:在模型空间(例如隐藏向量的旋转)和头空间(注意力头的置换)中消除连续对称性。
  • 几何解释:对 transformer 动力学进行几何解释,将优化轨迹与在降维流形上的运动联系起来。
  • 原型关系 transformer 架构:在保持标准基线性能的同时,参数量最多减少约 30 %。
  • 分析工具:用于量化参数冗余并可视化训练如何在降维对称空间中导航。

方法论

  1. 识别对称性 – 作者首先形式化了两类对称性:

    • 模型空间:对所有隐藏向量统一施加的任意正交变换都不会改变输出。
    • 头部空间:交换或线性混合注意力头会产生相同的整体注意力分布。
  2. 构建不变量 – 使用群论和微分几何的概念,他们推导出在已识别对称性下保持不变的关系描述符,例如令牌嵌入之间的内积矩阵以及跨头的成对余弦相似度。

  3. 重新定义核心模块

    • 嵌入层:模型不再接收绝对向量,而是接收成对相似度张量。
    • 自注意力:注意力分数直接从不变的成对关系计算,省去对旋转对称的查询/键/值投影。
    • 归一化:层归一化被关系归一化取代,后者在令牌邻域的不变统计上操作。
  4. 在商流形上优化 – 训练使用标准 Adam,但梯度被投影到降维流形的切空间,确保更新永不重新引入已消除的对称性。

  5. 实证验证 – 在语言建模(WikiText‑103)和视觉语言任务(VQA)上的实验,将关系变换器与深度相当的普通变换器进行比较,测量困惑度、准确率和参数数量。

结果与发现

任务模型参数 (M)指标 (↓ 越低越好)相对 Δ
WikiText‑103 (LM)标准 Transformer12518.9 ppl
关系 Transformer8818.5 ppl‑22 % 参数, +0.4 ppl
VQA标准 Transformer‑BERT11066.2 % 准确率
关系 Transformer‑BERT8566.8 %‑23 % 参数, +0.6 % 准确率
  • 参数效率:关系版本始终使用约 20‑30 % 更少的参数,同时保持或略微提升性能。
  • 训练动态:损失曲线收敛更快,投影梯度的方差更低,表明在缩小的搜索空间中导航更平滑。
  • 可解释性:不变注意力图的可视化揭示了更清晰的关系模式(例如句法依存),这些在原始查询/键空间中更难发现。

实际意义

  • 更小、更快的模型 – 通过削减冗余参数,开发者可以在边缘设备或对延迟敏感的服务中部署 Transformer,而不牺牲准确性。
  • 简化微调 – 由于关系表示已经消除了对称性,在下游任务上的微调需要更少的 epoch 并且对超参数的调节也更少。
  • 对初始化的鲁棒性 – 降低的对称空间缓解了“模式崩塌”,即不同随机种子会导致内部表示差异巨大,从而提升训练结果的可复现性。
  • 关系型 AI 的基础 – 该框架自然契合基于图的推理、知识图谱集成以及多模态任务,在这些任务中关系(而非绝对嵌入)是主要信号。
  • 工具 – 作者发布了一个轻量级的 PyTorch 库,可直接插入现有 Transformer 代码库,只需在模型定义中做几行修改。

限制与未来工作

  • 对称性的范围 – 当前的约简处理连续正交和头部置换对称性,但未涉及离散的 token 顺序对称性(例如位置编码)。
  • 计算开销 – 计算成对不变量的复杂度随序列长度呈二次增长;作者通过低秩近似进行缓解,但非常长的序列(例如 >8k token)仍然是挑战。
  • 对其他架构的泛化 – 将对称性约简原理扩展到仅解码器模型(例如 GPT)或稀疏注意力变体仍是未解之题。
  • 理论保证 – 虽然实证结果令人鼓舞,但在商流形上的收敛加速的形式化证明仍留待未来工作。

该论文为深度学习模型中的显式关系性开辟了一条引人注目的道路,提供了一种原则性的方法来裁剪隐藏冗余,使 Transformer 训练既更高效又更具可解释性。随着社区在这些思想上不断深入,我们有望看到新一代更轻量、具几何感知的模型,更好地契合现实数据的关系本质。

作者

  • J. François
  • L. Ravera

论文信息

  • arXiv ID: 2602.18948v1
  • 分类: cs.LG, cs.NE, hep-th, stat.ML
  • 出版日期: 2026年2月21日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »