[Paper] TaxoBell: 高斯盒嵌入用于自监督分类体系扩展
Source: arXiv - 2601.09633v1
概述
TaxoBell 引入了一种新颖的方式,通过将概念表示为 Gaussian‑parameterized boxes(高斯参数化盒)而不是普通的点向量,自动生成分类体系。通过将盒几何与 multivariate Gaussian distributions(多元高斯分布)相结合,模型捕捉层次的 “is‑a” 关系以及现实世界概念常常表现出的不确定性,从而在 taxonomy‑expansion(分类体系扩展)性能上实现了显著提升。
Source: …
关键贡献
- Gaussian Box Embeddings:一种统一的表示方法,将每个盒子映射为高斯分布(均值 + 协方差),从而实现包含关系(上位词‑下位词)和不确定性建模。
- 稳定的基于能量的训练:一种能量函数,避免在盒子交叉处出现梯度爆炸,确保可靠收敛。
- 处理多义性与歧义:协方差矩阵自然编码语义扩散,使单个节点能够反映多种含义。
- 领先的实证提升:在五个基准数据集上,较八个近期的分类扩展基线提升约 19 % MRR 和约 25 % Recall@k。
- 全面的分析:包括错误细分、消融实验和可视化,展示高斯不确定性如何提升层次推理。
方法论
-
Embedding Space:为每个分类节点分配一个位于高维欧氏空间中的 box。该 box 的左下角和右上角由高斯分布的均值向量(中心)和协方差矩阵(形状)决定。
-
Containment as Hierarchy:上位词的 box 完全包含其下位词的 box。将从子高斯分布中采样的点落在父 box 内的概率作为 containment score。
-
Energy Function:
[ \mathcal{E}(c, p) = -\log \Pr\big[,\mathbf{x}\sim\mathcal{N}(\mu_c,\Sigma_c) \in \text{Box}(p),\big] ]
其中 (c) 为子节点,(p) 为候选父节点。最小化该能量会在保持不确定性的前提下将子 box 推入父 box。
-
Self‑Supervised Signal:模型从一个种子分类开始,将已有的父子链接视为正样本对;所有其他对视为负样本。不需要外部标签。
-
Optimization:使用带有 soft‑intersection 技巧的随机梯度下降(通过平滑近似 min/max)即使在 box 仅轻微接触时也能得到稳定的梯度。协方差矩阵通过 Cholesky 参数化约束为正定。
结果与发现
| 数据集 | MRR (TaxoBell) | 与最佳基线的 Δ | Recall@5 | 与最佳基线的 Δ |
|---|---|---|---|---|
| DBpedia‑Animals | 0.71 | +0.19 | 0.84 | +0.26 |
| WordNet‑Nouns | 0.68 | +0.18 | 0.81 | +0.24 |
| E‑Commerce (Amazon) | 0.73 | +0.20 | 0.86 | +0.27 |
| PubMed‑MeSH | 0.66 | +0.17 | 0.78 | +0.22 |
| OpenCyc | 0.69 | +0.19 | 0.82 | +0.25 |
- 不确定性很重要:具有高协方差的节点(例如同时涵盖水果和公司的 “apple”)会正确地附属于多个合理的父节点,从而降低假阴性。
- 消融实验:去除协方差项会使 MRR 下降约 7 %;将 Gaussian‑box 映射替换为普通盒子会导致 Recall@k 下降约 10 %。
- 错误分析:大多数剩余错误来源于极度稀疏的概念,因上下文线索不足,而非嵌入几何结构本身。
实际意义
- 电子商务目录自动化:零售平台可以导入新的产品标题,并立即将其放入正确的类别层次结构,缩短数周的人工策划时间。
- 语义搜索与推荐:搜索引擎可以利用学习到的包含分数实时扩展查询概念,提高召回率而不牺牲精确度。
- 知识图谱维护:维护大型本体(例如生物医学词汇)的企业可以使用 TaxoBell 来建议新的 “is‑a” 链接,并标记模糊术语供人工审查。
- API 友好实现:作者发布了一个 PyTorch 库,提供
embed(term)→(mean, cov)和score(child, parent)函数,使其能够轻松集成到现有流水线中。
限制与未来工作
- 完整协方差的可扩展性:为每个节点存储一个密集的 (d \times d) 协方差矩阵会占用大量内存;当前实现使用对角协方差,这可能限制在高度相关维度上的表达能力。
- 对种子分类法质量的依赖:噪声或不完整的种子层级会传播错误;未来工作可以引入抗噪声的损失函数或外部文本线索。
- 跨语言扩展:当前实验是单语言的;将 Gaussian box 嵌入扩展到多语言分类法是一个开放的研究方向。
TaxoBell 表明,将几何包含性与概率不确定性相结合,可为在真实系统中扩展分类法提供强大且对开发者友好的工具。
作者
- Sahil Mishra
- Srinitish Srinivasan
- Srikanta Bedathur
- Tanmoy Chakraborty
论文信息
- arXiv ID: 2601.09633v1
- 分类: cs.CL
- 出版日期: 2026年1月14日
- PDF: 下载 PDF