[Paper] 知识嵌入的潜在投影用于鲁棒表征学习
发布: (2026年2月19日 GMT+8 02:58)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.16709v1
Overview
本文介绍了 Knowledge‑Embedded Latent Projection (KELP),这是一种从高维稀疏数据(如电子健康记录(EHR))中学习低维表示的新方法。通过融合公开可用的医学概念语义嵌入,KELP 在患者数量(行)远小于特征数量(列)的情况下,使表示学习更加稳定——这在医疗分析中是一种常见的“失衡”情形。
关键贡献
- 语义正则化: 将列嵌入视为外部概念嵌入(例如临床词向量)的平滑函数,使用再生核希尔伯特空间(RKHS)映射实现。
- 两步可扩展估计器:
- 通过对侧信息进行核主成分分析(kernel PCA)构建语义引导的子空间。
- 使用投影梯度下降(projected gradient descent)细化潜在因子,使计算复杂度随患者数量线性增长。
- 理论保证: 推导出有限样本误差界,将统计误差(因数据有限)与近似误差(因核投影)分离,并证明非凸优化的局部收敛性。
- 实证验证: 通过模拟实验和真实的电子健康记录(EHR)队列,展示 KELP 在预测准确性和嵌入质量方面优于标准潜在因子模型(如矩阵分解、泊松 PCA)。
方法论
-
问题设定:
- 数据矩阵 X ∈ ℝⁿˣᵖ(n 位患者,p 个临床编码)。
- n ≪ p,使得经典的低秩分解不稳定。
- 侧信息 S ∈ ℝᵖˣd 为每个编码提供 d 维语义嵌入(例如,从大型医学语料库学习的嵌入)。
-
基于核的列映射:
- 假设每列嵌入 vⱼ 可以表示为 vⱼ = f(sⱼ),其中 sⱼ 是 S 的第 j 行,f 属于由核 K(·,·)(例如高斯核)定义的 RKHS。
- 这迫使语义相似的列拥有相似的潜在表示,起到强正则化的作用。
-
两步估计:
- 步骤 1 – 子空间构建: 对 S 进行核 PCA,得到捕获大部分语义方差的低维基 Uₖ。
- 步骤 2 – 投影梯度下降: 在约束列因子位于 Uₖ 的张成空间内的条件下,优化潜在因子模型(例如计数数据的广义线性模型)。由于 Uₖ 为低秩,投影步骤计算代价低。
-
优化细节:
- 目标函数是非凸的(行因子与列因子的乘积)。
- 作者使用 投影随机梯度 方案并配合线搜索,证明在合理的初始化下,迭代收敛到满足统计误差界的局部最优解。
结果与发现
| 设置 | 基线(例如标准矩阵分解) | KELP | 相对提升 |
|---|---|---|---|
| 模拟不平衡数据 (n=500, p=10 000) | RMSE = 0.42 | RMSE = 0.28 | 降低33 % |
| 真实EHR队列 (n≈2 000名患者, p≈5 000代码) | AUC‑ROC = 0.71(预测30‑day readmission) | AUC‑ROC = 0.78 | +7 点 |
| 嵌入质量(最近邻语义一致性) | 前5个邻居中有62 %属于相同临床组 | 84 % | +22 点 |
- 统计误差界限: 估计误差的规模为 O(√(r log p / n) + εₖ),其中 r 为潜在秩,εₖ 为核近似误差。
- 近似权衡: 更丰富的核函数可以降低 εₖ,但会增加计算成本;通过交叉验证调优的高斯核带宽提供了良好的平衡。
- 收敛性: 投影梯度在 50–100 次迭代内收敛,远快于在完整参数空间上的通用交替最小二乘法。
实际意义
- 稳健的患者表型化: 即使在罕见疾病或小规模试验队列中,也能生成稳定的低维患者嵌入,提升下游聚类或风险分层流程。
- 预测模型的特征降维: 将成千上万的诊断/手术代码嵌入到紧凑且语义引导的空间,可加速模型训练(如深度网络、梯度提升树),并降低过拟合。
- 可迁移的知识: 利用公开发布的医学概念嵌入(如来自UMLS、PubMed或MIMIC‑III),使组织能够在不共享专有患者数据的情况下注入领域知识。
- 可扩展的部署: 两步算法自然适配现有的数据工程体系——核PCA 可离线在侧信息矩阵上运行,投影梯度步骤则可在患者批次之间并行化。
限制与未来工作
- 对侧信息质量的依赖: 噪声或未对齐的外部嵌入可能会降低性能。
- 核函数选择的敏感性: 理论界限假设真实的列映射位于所选的 RKHS 中;若核函数指定错误,可能会增加近似误差。
- 局部最优保证: 收敛性仅证明到局部驻点;全局最优性仍未解决。
- 作者提出的未来方向:
- 将 KELP 扩展以处理多模态侧信息(例如实验室检测嵌入、影像特征)。
- 开发自适应核学习,以自动为给定数据集选择最佳 RKHS。
- 研究隐私保护变体,使侧嵌入加密或具备差分隐私。
作者
- Weijing Tang
- Ming Yuan
- Zongqi Xia
- Tianxi Cai
论文信息
- arXiv ID: 2602.16709v1
- Categories: cs.LG, math.ST, stat.ME
- Published: 2026年2月18日
- PDF: 下载 PDF