[论文] 基于合成的多重检验与FDR控制
发布: (2026年2月19日 GMT+8 02:36)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.16690v1
概述
本文提出了 SynthBH,一种全新的多重检验框架,能够安全地将 synthetic(或辅助)数据——例如模拟、历史实验或生成模型的输出——纳入经典的错误发现率(FDR)控制流程。通过这种方式,当合成数据具有信息量时,它可以提升统计功效;即使这些数据噪声较大或模型设定有误,也仍能保证严格的 FDR 控制。
关键贡献
- 合成驱动的 BH 程序:将经典的 Benjamini–Hochberg (BH) 方法扩展为融合真实和合成 p 值,同时不牺牲有限样本、分布无关的 FDR 保证。
- 对合成质量的鲁棒性:算法会自动适应;当合成数据质量高时提升检验功效,质量低时回退到标准 BH 行为,且永不超过目标 FDR。
- 温和的依赖假设:保证在 PRDS 类型(对子集的正回归依赖)条件下成立,这比许多现有方法所需的独立性假设要弱得多。
- FDR 控制的理论证明:提供严格的有限样本界限,且不依赖合成 p 值在原假设下有效。
- 实证验证:展示了在表格数据中对异常值的更佳检测,以及在基因组研究中对药物‑癌症敏感性关联的更强发现,并辅以大量模拟研究。
方法论
-
数据设置
- 真实数据: 一组包含 (m) 个假设检验及其对应 p‑值 (p_1,\dots,p_m)。
- 合成数据: 对每个假设,生成一个合成 p‑值 (\tilde p_i),来源于辅助渠道(例如预训练生成模型、相关实验)。
-
加权组合
- 计算一个 合成权重 (w_i\in[0,1]),反映合成 p‑值对假设 (i) 的可信程度。该权重来源于简单的校准步骤(例如使用小的验证集比较 (\tilde p_i) 在原假设与备择假设下的分布)。
-
合成驱动的 BH(SynthBH)
- 构造 组合 p‑值 (q_i = w_i \tilde p_i + (1-w_i) p_i)。
- 对排序后的 (q_i) 应用标准 BH 上升程序:找到最大的 (k) 使得 (q_{(k)} \le \frac{k}{m}\alpha),并拒绝所有满足 (q_i \le q_{(k)}) 的假设。
-
理论保证
- 在 ((p_i,\tilde p_i)) 的联合分布满足 PRDS 条件下,作者证明期望的错误发现比例不超过名义水平 (\alpha)。
- 不需要假设 (\tilde p_i) 在原假设下均匀分布;它们可以任意偏倚,权重方案会相应降低其影响。
-
自适应性
- 加权步骤是数据驱动的,因此算法能够“实时学习”合成数据的质量。如果合成信号弱,(w_i) 会趋向于零,方法退化为普通的 BH。
结果与发现
| 实验 | 基线 (BH) | SynthBH(高质量合成) | SynthBH(低质量合成) |
|---|---|---|---|
| 表格异常检测(10‑K 样本) | 0.62 功效 @ FDR = 0.1 | 0.78 功效 (≈ 25 % 增益) | 0.61 功效 (无损失) |
| 药物‑癌症敏感性(TCGA + GDSC) | 312 个显著配对 | 398 个配对 (≈ 27 % 增多) | 315 个配对 |
| 模拟高斯检验(相关性变化) | FDR ≈ 0.099 | FDR ≤ 0.101 (保持不变) | FDR ≤ 0.100 |
- 功效提升:当合成数据捕获真实信号(例如,从相同生成模型模拟时),SynthBH 能持续发现更多真实备择假设。
- FDR 安全性:在所有设置下,经验假发现率保持在目标 (\alpha=0.1) 或以下,验证了理论保证。
- 优雅降级:在故意损坏的合成 p 值情况下,SynthBH 的性能退化至普通 BH 的水平,而不会导致假发现率上升。
实际意义
- 加速发现流程:在药物筛选或基因组学中,研究人员可以重用历史测定数据或体外模拟,以补充当前实验,从而在保持相同统计功效的前提下,减少所需的湿实验次数。
- 与机器学习流水线的集成:由深度生成模型(GAN、扩散模型)生成的合成数据可以直接输入 SynthBH,使机器学习工程师能够在模型驱动的假设检验中嵌入统计严谨性。
- 生产系统中的异常检测:监控服务可以将实时遥测数据与合成的“正常行为”模拟相结合,更快地标记异常,同时控制误报率。
- 工具:该方法实现简单(一个加权步骤 + 标准 BH),可作为现有 FDR 库(例如
statsmodels.stats.multitest)的即插即用替代方案。
限制与未来工作
- 依赖假设:虽然 PRDS 条件相对温和,但在高度结构化的数据(例如空间相关的基因组学)中仍可能被违反。将保证扩展到任意依赖结构仍是一个未解决的挑战。
- 权重估计:当前的校准程序是启发式的;更为复杂的、可能基于贝叶斯的方法或许能够得到更紧的权重并进一步提升统计功效。
- 可扩展性至数百万个检验:尽管每个检验的计算成本低廉,但在超大规模场景(例如全基因组扫描)中的表现仍需进行性能分析并可能需要并行化策略。
- 更广泛的合成来源:未来的工作可以探索多模态合成输入(文本、图像),以及如何在 SynthBH 框架中融合异构的证据流。
作者
- Yonghoon Lee
- Meshi Bashari
- Edgar Dobriban
- Yaniv Romano
论文信息
- arXiv 编号: 2602.16690v1
- 分类: stat.ME, cs.LG, stat.ML
- 发布时间: 2026年2月18日
- PDF: 下载 PDF