[Paper] 学习旋转:时序与语义 Rotary 编码用于序列建模

发布: (2026年4月28日 GMT+8 01:26)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.24717v1

概述

论文 “Learning to Rotate: Temporal and Semantic Rotary Encoding for Sequential Modeling” 提出了一种新颖的方法,通过将传统上静态的旋转位置编码(RoPE)转变为可学习、受信号驱动的组件,以丰富 Transformer 的注意力机制。通过让旋转空间适应时间戳、周期性模式和类别元数据,作者展示了在大规模新闻推送推荐任务上可观的提升——且几乎不增加延迟或内存开销。

关键贡献

  • RoPE 的重新概念化 – 将旋转流形视为表示的第二个、正交的轴(类似于“虚数”维度),可以通过学习而不是手工构造。
  • SIREN‑RoPE 架构 – 引入双分支正弦表示网络(SIREN),将异构信号(连续时间、周期循环、类别标签)注入旋转编码。
  • 统一的语义‑时间嵌入 – 在同一注意力矩阵中将 token 含义(语义“实部”)与动态关系信息(旋转“虚部”)分离。
  • 生产规模验证 – 在校准(例如点击率预测可靠性)和排序指标(NDCG、MAP)上表现出一致的提升,适用于每日数十亿新闻推送展示的生成式推荐系统。
  • 几乎无额外开销 – 证明加入的 SIREN 分支仅增加 < 2 % 的 FLOPs 和 < 1 % 的内存,占用极低,适用于对延迟敏感的服务。

方法论

  1. Baseline Transformer with RoPE – 标准自注意力使用 RoPE 将 token 位置编码为由 token 索引派生的固定旋转矩阵。
  2. Dual‑branch SIREN
    • Temporal branch 接收原始时间戳(例如 Unix epoch),并通过一个小型 SIREN(使用 sine 激活的多层感知机)学习平滑的正弦映射。
    • Semantic‑metadata branch 处理分类特征(例如文章主题、用户细分),这些特征先被编码为嵌入向量,然后同样通过 SIREN。
  3. Learnable Rotary Matrix – 两个分支的输出被组合,以为每个 token 生成一个 动态 旋转角度。该角度取代 RoPE 中基于索引的固定角度,实现了在信号条件下对每个 token 的 query/key 向量进行旋转。
  4. Integration into Attention – 旋转后的 queries/keys 直接送入常规的 scaled‑dot‑product attention。下游模块(如前馈层、损失函数)无需做任何修改。
  5. Training – 整个系统在推荐目标上端到端训练(包括点击预测的交叉熵和成对排序损失的混合)。SIREN 参数与模型的其余部分一起联合学习。

结果与发现

MetricBaseline (RoPE)+SIREN‑RoPEΔ (relative)
Click‑through‑rate (CTR) calibration (ECE)0.1120.098‑12.5 %
NDCG@100.4210.438+4.0 %
MAP0.3570.371+3.9 %
Inference latency (ms) per request12.312.5+0.2 %
GPU memory (MiB)4,8004,860+1.3 %
  • 持续提升:在多个下游目标上均表现出一致的提升,表明学习到的旋转捕获了静态 RoPE 无法获取的有用时间和上下文线索。
  • 鲁棒性:改进在不同流量切片(例如高峰期与非高峰期)以及冷启动和长尾项目上均保持。
  • 消融实验:去除时间分支或元数据分支都会使提升约减半,确认两种信号都对提升有实质贡献。

Practical Implications

  • 更好的时间感知推荐 – 需要考虑新鲜度、周期性(例如每日新闻循环)或事件驱动的峰值的服务,现在可以直接在注意力机制中编码这些信号,而无需构建单独的时间感知模块。
  • 轻量级升级路径 – 现有基于 Transformer 的流水线(如 BERT、GPT 或自定义排序模型)只需替换 RoPE 层即可采用 SIREN‑RoPE;无需进行架构大改。
  • 提升模型校准 – 更可靠的概率估计可转化为更好的 A/B 测试、预算分配以及下游决策(如限流或公平约束)。
  • 可扩展到其他领域 – 任何存在辅助信号的序列任务(如带音高轮廓的语音、带传感器 ID 的物联网流、带版本标签的代码)都可以受益于可学习的旋转空间。
  • 成本最低 – 增加的计算和内存开销在典型生产预算内绰绰有余,使其在对延迟敏感的环境(如实时推荐或广告排序)中具有吸引力。

限制与未来工作

  • 需要信号工程 – 该方法假设相关的辅助信号是可用的,并且可以预处理为数值形式;缺失或噪声较大的元数据可能限制其收益。
  • SIREN 深度的可扩展性 – 虽然论文使用浅层 SIREN 网络以保持开销低,但更深或更宽的变体可以捕获更丰富的动态,但可能引入需要仔细分析的延迟权衡。
  • 超出新闻推送的泛化能力 – 实验仅限于单一大规模新闻推送数据集;需要在其他序列任务(例如语言建模、视频字幕)上进行更广泛的验证,以确认其通用性。
  • 理论理解 – 论文在注意力中打开了一个有趣的“虚数”轴,但为何某些信号族能够提升注意力对齐的正式分析仍是一个未解的研究问题。

未来工作可以探索自动化信号发现(例如使用元学习来选择要输入的时间或类别线索),用于多尺度序列的层次旋转编码,以及与其他位置编码方案如 ALiBi 或相对偏置矩阵的更紧密集成。

作者

  • Hailing Cheng
  • Daqi Sun
  • Xinyu Lu

论文信息

  • arXiv ID: 2604.24717v1
  • 分类: cs.AI
  • 发表时间: 2026年4月27日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 递归多智能体系统

递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …