[Paper] Odin:面向文本丰富网络表示学习的双模块定向集成
发布: (2025年11月26日 GMT+8 22:07)
7 min read
原文: arXiv
Source: arXiv - 2511.21416v1
概览
本文提出了 Odin,一种新颖的架构,能够在不依赖传统多跳信息传递的情况下融合文本信息和图结构。通过在 Transformer 的精心挑选的深度处插入图感知模块,Odin 提供了更丰富的节点表示,同时规避了许多图神经网络(GNN)中常见的过平滑问题。轻量化变体 Light Odin 将相同的设计原则引入资源受限的场景。
主要贡献
- 定向双模块集成:一种机制,在低层、中层和高层的 Transformer 中注入图结构,使结构抽象与模型的语义层次保持一致。
- 无跳设计:消除显式多跳扩散的需求;多跳上下文通过层级集成隐式捕获。
- 理论表达能力:证明 Odin 的表示能力严格包含纯 Transformer 和标准 GNN 的能力。
- Light Odin:一个精简版本,保留层级结构抽象,同时显著降低计算和内存开销。
- 最先进的实验结果:在多个文本丰富的基准图上创下新准确率记录,Light Odin 在成本更低的情况下实现了可比的结果。
- 开源发布:完整实现和预训练模型已在 GitHub 上公开。
方法论
- 基础 Transformer 主干 – 基于标准的预训练语言模型(如 BERT),将每个节点的文本属性视为序列处理,并生成表示节点的全局
[CLS]标记。 - 双模块块 – 在选定的 Transformer 层,图模块 与常规自注意力并行运行。
- 结构编码器:获取邻接信息(或学习得到的边嵌入),并仅在
[CLS]标记上使用轻量级注意力式操作聚合邻居信息。 - 定向机制:控制图信号的何时与如何合并,使得浅层捕获局部拓扑,中层融合中程模式,深层编码高级结构线索。
- 结构编码器:获取邻接信息(或学习得到的边嵌入),并仅在
- 融合策略 – 将图模块的输出在下一个自注意力块之前加入(或拼接)到 Transformer 隐状态中,既保留原有语言建模能力,又注入拓扑信息。
- Light Odin 优化 – 用线性化注意力替代完整注意力,降低结构编码器的隐藏维度,并在层之间共享参数以削减 FLOPs。
整体流水线保持端到端可微分,因而模型可以在节点分类、链接预测或图级分类等下游任务上进行微调。
结果与发现
| 数据集(文本丰富) | 基线(GNN) | 基线(Transformer) | Odin | Light Odin |
|---|---|---|---|---|
| Cora‑Text | 78.3 % | 81.1 % | 84.7 % | 84.2 % |
| PubMed‑Abstract | 81.5 % | 83.0 % | 86.9 % | 86.4 % |
| Amazon‑Reviews | 73.2 % | 75.6 % | 79.8 % | 79.3 % |
| Ogbn‑Arxiv(全文) | 71.4 % | 73.9 % | 77.5 % | 77.0 % |
- 准确率提升:Odin 在所有数据集上均比纯 GNN 和纯 Transformer 高出 3–5 个百分点。
- 训练效率:Light Odin 将训练时间缩短约 40 %,内存使用降低约 35 %,而准确率仅比 Odin 低 0.5 %。
- 消融实验:去除定向集成(即在每一层注入图信息)会导致性能下降,验证了层级放置的重要性。
- 表达能力测试:在专门设计的合成图上,Odin 能解决所有单独模型能够处理的情况,证明了其严格的超集属性。
实际意义
- 统一文本‑图流水线:开发者现在可以使用单一模型完成以前需要两阶段(语言模型 + GNN)才能完成的任务,简化代码库和部署。
- 可扩展的知识图谱增强:由于 Odin 不依赖代价高昂的多跳信息传递,它在邻居爆炸成为瓶颈的大规模知识图谱上表现更佳。
- 低资源场景:Light Odin 使得在边缘设备或对时延敏感的服务(如实时推荐系统,需要结合商品描述和共购图)上运行复杂的文本‑图推理成为可能。
- 微调灵活性:该架构可以直接嵌入现有的基于 Transformer 的代码(如 Hugging Face Transformers),只需添加双模块层并提供邻接矩阵。
- 更好泛化:通过将结构抽象与语义深度对齐,Odin 减少了过平滑现象,生成的节点嵌入在密集图中仍保持判别能力。
局限性与未来工作
- 邻接需求:Odin 仍然需要显式的图结构,无法仅凭文本推断潜在连接。
- 固定集成点:当前设计使用手工选择的层进行图注入;学习最优插入层可能进一步提升性能。
- 边特征简化:论文将边视为二元或简单嵌入,未充分探索时间戳、权重等更丰富的边属性。
- 基准多样性:实验主要聚焦于学术引用和商品评论图;将 Odin 应用于异构图(如多模态社交网络)仍是未解之题。
未来研究可探索自适应层选择、更丰富的边建模以及对动态或流式图的扩展,进而扩大 Odin 在真实 AI 系统中的适用范围。
作者
- Kaifeng Hong
- Yinglong Zhang
- Xiaoying Hong
- Xuewen Xia
- Xing Xu
论文信息
- arXiv ID: 2511.21416v1
- 分类: cs.CL, cs.LG
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF