[论文] 对抗注入下的可靠弃权：紧下界与新上界

发布: 3天前 (2026年2月24日 GMT+8 02:30)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.20111v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概述

本文研究了一种现实的在线学习场景，其中大多数数据点来自未知分布，但对手可以插入恶意构造的样本。学习者必须决定 何时预测 与 何时弃权，并且在错误预测以及在干净的（i.i.d.）轮次中弃权时都会受到惩罚。作者弥合了长期存在的“分布感知”（distribution‑aware）与“分布无关”（distribution‑agnostic）算法之间的差距，证明即使对于最简单的假设类，后者也无法突破 √T 的误差项。

关键贡献

紧的下界: 证明对任何 VC 维度为 1 的算法都有 Ω(√T) 的组合误差下界，表明 √T 障碍是分布无关学习者固有的。
鲁棒见证框架: 引入一种基于势能的分析方法，依赖于 鲁棒见证——即使在对抗性注入下也能证明预测正确的少量标记样本子集。
两种新的组合维度:
1. 推理维度 – 对于推理维度为 (k) 的类，给出通用上界 (\tilde{O}(T^{1-1/k}))。
2. 证书维度 – 一种新颖的放宽，可为特定假设族提供更紧的界。
具体算法结果: 表明二维半空间的证书维度为 3，首次为该类提供 (\tilde{O}(T^{2/3})) 组合误差的分布无关保证。
信息范式的分离: 展示能够查询底层分布的算法（实现 (O(d^2\log T)) 误差）与不能查询的算法（受限于 √T）之间的鲜明对比。

方法论

对抗性注入模型 – 数据流由来自未知分布 (\mathcal{D}) 的干净 i.i.d. 示例和对抗性插入的点混合而成。标签始终与隐藏的目标概念保持一致（干净标签设置）。
弃权机制 – 学习者可以输出 “我不知道”。错误计数方式如下：
- 错误（Mistake）：在干净轮次中预测了错误的标签。
- 错误弃权（Incorrect abstention）：在干净轮次中选择弃权（对抗性轮次不计入弃权惩罚）。
稳健见证 – 对于任何预测，算法维护一小组过去的示例，这些示例证明该标签的正确性。该集合的构造方式保证，即使对手注入最多一定比例的恶意点，见证仍然强制相同的预测。
基于势能的分析 – 全局势能函数跟踪剩余见证的 “预算”。每一次错误或弃权都会以有界的量降低势能，从而得到推导出的错误界限。
组合维度 –
- 推断维度（Inference dimension）衡量通过见证推断新点标签所需的示例数量。
- 证书维度（Certificate dimension）是一个放宽的版本，允许稍大的见证集合，但对某些几何类（例如二维半空间）可获得更好的界限。

作者使用这些维度实例化了该框架，并为各种假设族推导出具体的错误率。

结果与发现

设置	假设类	组合维度	组合误差的上界
General VC‑d	VC‑dimension d	–	(O(d^2 \log T)) with distribution oracle
Distribution‑agnostic	VC‑dimension 1	–	Ω(√T) lower bound (tight)
Inference‑dimension k	Any class with inference dimension k	k	(\tilde{O}(T^{1-1/k}))
Certificate dimension c	Classes with certificate dimension c (e.g., 2‑D half‑spaces, c = 3)	c	(\tilde{O}(T^{1-1/c}) = \tilde{O}(T^{2/3}))

关键要点

即使是最简单的非平凡假设类，也不存在能够突破 √T 障碍的分布无关算法。
通过利用推理维度或证书维度等结构属性，可以为更丰富的类获得亚 √T 的速率。
新的证书维度弥补了早期工作留下的空白，后者表明在没有弃权的情况下，半空间不可稳健学习。

实际意义

稳健的在线服务：必须实时做出决策的系统（垃圾邮件过滤、入侵检测、推荐引擎）现在可以采用一种有原则的拒绝策略，即使攻击者注入了中毒数据，也能保证误差有界。
模型无关的安全网：该框架不依赖于已知数据分布，因而适用于边缘设备或联邦学习场景，在这些场景下分布假设并不现实。
算法模板：稳健见证潜力方法可以包装在现有的在线学习器（例如感知机、决策树）之上，为其添加具有可证明保证的拒绝层。
几何学习：对于涉及低维线性分类器的应用（计算机视觉边界框过滤、二维传感器融合），证书维度结果提供了具体的性能目标——开发者可以追求 (\tilde{O}(T^{2/3})) 的误差，而不是通用的 (\sqrt{T})。
安全即设计：下界告诉安全工程师，在没有分布知识的情况下，任何系统都必须接受 (\sqrt{T}) 的“安全成本”。这为威胁模型和监控或人工在环验证的预算分配提供了依据。

限制与未来工作

仅针对 VC = 1 的紧致性：Ω(√T) 下界已在最简单的情况中证明；将紧致的下界扩展到更高的 VC 维度仍是未解决的问题。
计算开销：在大规模数据流中维护鲁棒见证并更新潜在函数可能代价高昂；实际实现需要高效的数据结构或近似方法。
证书维度表征：虽然论文表明 ℝ² 中的半空间的证书维度为 3，但更高维度或更复杂假设类的维度尚未确定。
对抗预算：模型假设学习者不知道哪些轮次是对抗性的，但并未限制注入的总次数；研究对手能力受限时的权衡可能带来更强的保证。
向多类和回归的扩展：当前分析聚焦于带有干净标签的二分类；将框架适配到多标签或连续输出是自然的下一步。

作者

Ezra Edelman
Surbhi Goel

论文信息

arXiv ID: 2602.20111v1
分类: cs.LG
发表时间: 2026年2月23日
PDF: Download PDF

[论文] 对抗注入下的可靠弃权：紧下界与新上界

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL

[Paper] 代理模型用于岩石-流体相互作用：网格尺寸不变方法