[Paper] 部分因果结构学习用于在干预下的有效选择性共形推断

发布: (2026年3月3日 GMT+8 02:58)
9 分钟阅读
原文: arXiv

Source: arXiv - 2603.02204v1

Overview

选择性共形预测承诺提供更紧凑、基于数据的不确定性估计——但前提是校准点确实与测试点相似。在许多科学和工程场景(例如基因扰动实验)中,这种“可交换性”仅在保持目标变量不变的干预子集内成立。本文处理了一个更为现实的情形:底层因果不变性结构未知,必须从数据中自行推断,并提供了一种稳健的方法,即使在学习到的结构不完美的情况下,也能保持共形覆盖保证。

关键贡献

  • 抗污染覆盖定理 – 推导出一个有限样本下的保守覆盖下界,显式考虑误识别的校准点比例 δ,通过函数 (g(δ,n)) 表示。该下界对任何污染分布均成立。
  • 部分因果学习框架 – 作者不再重建完整的因果图,而是仅学习选择性校准所需的二元后代指示器 (Z_{a,i} = \mathbf{1}{i \in \text{desc}(a)})。
  • 后代发现算法
    1. 扰动交叉方法:利用不同干预影响的变量集合的重叠来推断后代关系。
    2. 局部不变因果预测(ICP)估计器:为每个变量提供近似的“距离干预”得分。
  • 理论恢复条件 – 在对干预设计的温和假设下,保证学习得到的后代集合的误分类率保持在可控的 δ 以下。
  • 实证验证 – 合成线性 SEM 实验表明,校正后的选择性保守过程在 30 % 污染情况下仍能保持 ≥ 95 % 覆盖率,而朴素方法下降至约 86 %。在真实 CRISPRi 干预数据(Replogle K562)上的概念验证显示该方法在高维基因组筛选中同样有效。

方法论

  1. 问题框定 – 在一个干预数据集中,每个实验 (a) 对一组变量进行干预。对于目标变量 (Y),只有来自不影响 (Y) 的干预(即 (Y) 不是被干预节点的后代)的校准点,才与在相同干预下抽取的测试点可交换。
  2. 部分因果学习 – 与其学习完整的有向无环图(DAG),该方法学习一个 二进制矩阵 (Z),其中每个条目指示变量 (i) 是否是干预 (a) 的后代。这足以决定保留哪些校准样本。
  3. 通过交集模式发现后代
    • 对每个干预,记录分布发生变化的变量集合(通过简单的两样本检验检测)。
    • 多个干预的“受影响”集合的交集揭示共同的后代,从而可以基于规则构造 (Z)。
  4. 局部 ICP 用于距离干预的度量 – 将每个变量视为潜在的“目标”,在干预子集上运行不变因果预测(Invariant Causal Prediction)。得到的 p 值分布提供一个软分数,指示该变量距离干预源的远近。
  5. 考虑污染的保守推断 – 在选定的校准集合上应用标准的拆分保守预测(split‑conformal prediction),随后使用界限 (g(δ,n)) 调整预测区间,以在可能的误分类情况下仍保证所需的覆盖率。

所有步骤计算量轻量(线性时间集合操作、标准假设检验以及现成的 ICP 实现),使得该流水线能够在大规模扰动研究中实际运行。

结果与发现

设置污染度 (δ)朴素选择性 CP 覆盖率使用 (g(δ,n)) 校正后的覆盖率
合成线性结构方程模型 (n=500)0.00.950.95
合成线性结构方程模型0.300.867≥ 0.95
实际 CRISPRi K562 数据(≈ 10k 基因,200 次干预)在保持名义 95 % 覆盖率的前提下,展示了基因表达预测的更紧凑区间(通过留出干预实验实证验证)。

关键要点

  • 覆盖率界限紧致:即使有高达 30 % 的校准点被错误包含,校正后的区间仍能满足名义保证。
  • 学得的后代矩阵 (Z) 在实际中足够准确,能够实现选择性校准,相比使用全部校准池显著缩小预测集合的宽度。

实际意义

  • 基因组学与药物发现 – 研究人员可以进行高通量扰动筛选(CRISPR、RNAi、化学敲除),并在不牺牲统计保证的前提下获得下游预测(例如基因表达响应、表型可能性)的可靠置信区间。
  • A/B 测试与在线实验 – 在干预(功能标记、界面更改)仅影响部分下游指标的平台上,该方法可以隔离“未受影响”的校准数据,从而为关键绩效指标提供更紧的不确定性界限。
  • 稳健的机器学习流水线 – 考虑污染的共形校正可以作为预处理过滤器直接嵌入任何现有的共形预测库(例如 mapieconformal‑inference),便于开发者采用。
  • 资源效率 – 通过仅学习二元后代指示器,该方法避免了完整因果发现的组合爆炸,能够在拥有数千个变量和数百个干预的数据集上部署。

限制与未来工作

  • 可识别受影响集合的假设 – 基于交叉的方法依赖于能够检测每个干预的分布变化;噪声测量或弱效应可能导致更高的 δ。
  • 实验中对线性结构方程模型的关注 – 合成验证使用线性结构方程模型;将保证扩展到非线性或非高斯情形仍是一个未解之问。
  • 局部 ICP 的可扩展性 – 虽然在中等维度下可行,但对于数万变量,ICP 可能变得成本高昂;未来工作可以探索近似或基于神经网络的不变性检验。
  • 动态干预 – 当前框架假设干预集合是静态的;处理随时间变化或自适应的干预(例如强化学习策略)将扩大适用范围。

总体而言,本文将因果推断与保守预测相结合,提供了一个务实的工具,帮助需要在干预丰富的环境中获得可靠不确定性量化的开发者。

作者

  • Amir Asiaee
  • Kavey Aryan
  • James P. Long

论文信息

  • arXiv ID: 2603.02204v1
  • 分类: cs.LG, stat.ML
  • 发表时间: 2026年3月2日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 多头低秩注意力

大语言模型的长上下文推理在解码阶段受到键值(KV)缓存加载的瓶颈限制,因为生成的顺序性……