[Paper] 知识嵌入的潜在投影用于鲁棒表征学习

发布: 3天前 (2026年2月19日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.16709v1

Overview

本文介绍了 Knowledge‑Embedded Latent Projection (KELP)，这是一种从高维稀疏数据（如电子健康记录（EHR））中学习低维表示的新方法。通过融合公开可用的医学概念语义嵌入，KELP 在患者数量（行）远小于特征数量（列）的情况下，使表示学习更加稳定——这在医疗分析中是一种常见的“失衡”情形。

关键贡献

语义正则化： 将列嵌入视为外部概念嵌入（例如临床词向量）的平滑函数，使用再生核希尔伯特空间（RKHS）映射实现。
两步可扩展估计器：
1. 通过对侧信息进行核主成分分析（kernel PCA）构建语义引导的子空间。
2. 使用投影梯度下降（projected gradient descent）细化潜在因子，使计算复杂度随患者数量线性增长。
理论保证： 推导出有限样本误差界，将统计误差（因数据有限）与近似误差（因核投影）分离，并证明非凸优化的局部收敛性。
实证验证： 通过模拟实验和真实的电子健康记录（EHR）队列，展示 KELP 在预测准确性和嵌入质量方面优于标准潜在因子模型（如矩阵分解、泊松 PCA）。

方法论

问题设定：
- 数据矩阵 X ∈ ℝⁿˣᵖ（n 位患者，p 个临床编码）。
- n ≪ p，使得经典的低秩分解不稳定。
- 侧信息 S ∈ ℝᵖˣd 为每个编码提供 d 维语义嵌入（例如，从大型医学语料库学习的嵌入）。
基于核的列映射：
- 假设每列嵌入 vⱼ 可以表示为 vⱼ = f(sⱼ)，其中 sⱼ 是 S 的第 j 行，f 属于由核 K(·,·)（例如高斯核）定义的 RKHS。
- 这迫使语义相似的列拥有相似的潜在表示，起到强正则化的作用。
两步估计：
- 步骤 1 – 子空间构建： 对 S 进行核 PCA，得到捕获大部分语义方差的低维基 Uₖ。
- 步骤 2 – 投影梯度下降： 在约束列因子位于 Uₖ 的张成空间内的条件下，优化潜在因子模型（例如计数数据的广义线性模型）。由于 Uₖ 为低秩，投影步骤计算代价低。
优化细节：
- 目标函数是非凸的（行因子与列因子的乘积）。
- 作者使用 投影随机梯度 方案并配合线搜索，证明在合理的初始化下，迭代收敛到满足统计误差界的局部最优解。

结果与发现

设置	基线（例如标准矩阵分解）	KELP	相对提升
模拟不平衡数据 (n=500, p=10 000)	RMSE = 0.42	RMSE = 0.28	降低33 %
真实EHR队列 (n≈2 000名患者, p≈5 000代码)	AUC‑ROC = 0.71（预测30‑day readmission）	AUC‑ROC = 0.78	+7 点
嵌入质量（最近邻语义一致性）	前5个邻居中有62 %属于相同临床组	84 %	+22 点

统计误差界限： 估计误差的规模为 O(√(r log p / n) + εₖ)，其中 r 为潜在秩，εₖ 为核近似误差。
近似权衡： 更丰富的核函数可以降低 εₖ，但会增加计算成本；通过交叉验证调优的高斯核带宽提供了良好的平衡。
收敛性： 投影梯度在 50–100 次迭代内收敛，远快于在完整参数空间上的通用交替最小二乘法。

实际意义

稳健的患者表型化: 即使在罕见疾病或小规模试验队列中，也能生成稳定的低维患者嵌入，提升下游聚类或风险分层流程。
预测模型的特征降维: 将成千上万的诊断/手术代码嵌入到紧凑且语义引导的空间，可加速模型训练（如深度网络、梯度提升树），并降低过拟合。
可迁移的知识: 利用公开发布的医学概念嵌入（如来自UMLS、PubMed或MIMIC‑III），使组织能够在不共享专有患者数据的情况下注入领域知识。
可扩展的部署: 两步算法自然适配现有的数据工程体系——核PCA 可离线在侧信息矩阵上运行，投影梯度步骤则可在患者批次之间并行化。

限制与未来工作

对侧信息质量的依赖： 噪声或未对齐的外部嵌入可能会降低性能。
核函数选择的敏感性： 理论界限假设真实的列映射位于所选的 RKHS 中；若核函数指定错误，可能会增加近似误差。
局部最优保证： 收敛性仅证明到局部驻点；全局最优性仍未解决。
作者提出的未来方向：
- 将 KELP 扩展以处理多模态侧信息（例如实验室检测嵌入、影像特征）。
- 开发自适应核学习，以自动为给定数据集选择最佳 RKHS。
- 研究隐私保护变体，使侧嵌入加密或具备差分隐私。

作者

Weijing Tang
Ming Yuan
Zongqi Xia
Tianxi Cai

论文信息

arXiv ID: 2602.16709v1
Categories: cs.LG, math.ST, stat.ME
Published: 2026年2月18日
PDF: 下载 PDF

[Paper] 知识嵌入的潜在投影用于鲁棒表征学习

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

[Paper] 多轮人机协作与用户指定需求