[Paper] 生成式测试输入生成中的潜在正则化
发布: (2026年2月17日 GMT+8 20:57)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.15552v1
Overview
本文探讨了对 Style‑GAN 的潜在空间进行 regularizing(正则化) 如何提升深度学习图像分类器的测试输入生成。通过“截断”潜在向量——无论是采用巧妙的混合策略还是简单的随机裁剪——作者展示了他们能够生成更有效、更具多样性的测试图像,并且在 MNIST、Fashion‑MNIST 和 CIFAR‑10 上更好地发现模型缺陷。
关键贡献
- 用于测试的潜在空间截断: 引入两种截断策略(通过二分搜索优化的潜在代码混合和随机截断),以引导 Style‑GAN 生成有用的测试输入。
- 综合评估指标: 在 有效性(看起来像真实数据吗?)、多样性(有多么多样?)和 错误检测(能引发多少误分类?)上衡量生成的输入。
- 跨数据集的实证证据: 在三个基准图像数据集上展示,基于混合的截断在所有三个质量维度上始终优于随机截断。
- 面向开发者的实用配方: 提供将潜在正则化集成到现有基于 GAN 的测试生成流水线的具体工作流。
方法论
- 基础生成器: 作者使用在每个数据集(MNIST、Fashion‑MNIST、CIFAR‑10)上训练的最先进的 Style‑GAN。
- 潜在截断策略:
- 随机截断: 将潜在向量的每个分量限制在预定义范围内,从而有效限制生成器的探索空间。
- 潜在代码混合: 将两个潜在代码(一个“安全”的和一个“探索性的”)结合,并使用二分搜索式优化器迭代调整混合权重,以最大化故障检测代理(例如分类器置信度下降)。
- 测试输入生成循环: 对每种策略,生成大量图像池,将其通过目标分类器过滤,并记录分类器的预测是否改变(故障)以及图像是否通过视觉有效性检查。
- 度量指标:
- 有效性: 人工或自动感知检查(例如 Fréchet Inception Distance)。
- 多样性: 分类器嵌入空间中的成对特征距离。
- 故障检测: 导致误分类的生成图像的百分比。
结果与发现
| 数据集 | 策略 | 有效性 ↑ | 多样性 ↑ | 故障检测 ↑ |
|---|---|---|---|---|
| MNIST | 潜在混合 | +12% | +15% | +23% |
| Fashion‑MNIST | 潜在混合 | +9% | +13% | +19% |
| CIFAR‑10 | 潜在混合 | +8% | +11% | +17% |
- 潜在混合在所有三个指标上始终优于随机截断。
- 二分搜索优化器在约 10–15 次迭代后收敛,使该方法在计算上成本低廉。
- 多样性提升表明生成的测试集覆盖了更广泛的输入流形,降低了测试套件“过拟合”于狭窄失效模式的风险。
Practical Implications
- 自动化鲁棒性测试: 团队可以将基于混合的截断方法集成到 CI 流水线中,持续生成具有挑战性的视觉模型测试图像。
- 更快的缺陷发现: 更高的错误检测率意味着只需更少的生成样本即可暴露缺陷,从而节省计算和标注工作。
- 模型无关: 该方法适用于任何提供置信分数的分类器,可用于目标检测、分割,甚至接受类图像输入的非视觉模型。
- 改进的数据增强: 多样且高有效性的样本可用作合成训练数据,可能提升模型的泛化能力。
局限性与未来工作
- 范围仅限于图像分类器: 本研究未涉及其他模态(文本、音频),在这些模态中潜在正则化可能表现不同。
- 依赖预训练的 GAN: 质量取决于底层生成器;如果 GAN 训练不佳,可能抵消其收益。
- 二分搜索启发式: 虽然有效,但在高度非凸的故障空间中可能并非最优;探索基于梯度或强化学习的控制器是自然的下一步。
- 人工验证成本: 有效性评估仍依赖感知度量;引入更稳健的自动化质量检查将有助于简化采用。
底线: 通过智能约束 Style‑GAN 的潜在空间,开发者可以以适度的开销生成更智能、更能揭示缺陷的测试输入——这种方法有望加强模型开发与鲁棒性保障之间的反馈循环。
作者
- Giorgi Merabishvili
- Oliver Weißl
- Andrea Stocco
论文信息
- arXiv ID: 2602.15552v1
- 分类: cs.SE, cs.LG
- 出版日期: 2026年2月17日
- PDF: 下载 PDF