[Paper] 基于投影的对抗攻击：物理回环优化用于单目深度估计

发布: 1个月前 (2025年12月31日 GMT+8 19:30)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.24792v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文并保持原有的格式。

概述

单目深度估计（MDE）模型已成为机器人、AR/VR 和自动驾驶的基石，但它们同样继承了困扰图像分类器的对抗脆弱性。本文提出了一种 基于投影的对抗攻击，通过在真实物体上投射精心设计的光模式，使最先进的 MDE 网络产生极度不准确的深度图。通过在仿真与物理世界之间闭环，作者展示了深度感知系统可以在现场被欺骗，这对任何依赖单摄像头深度感知的产品提出了紧迫的安全担忧。

关键贡献

Physics‑in‑the‑Loop (PITL) 优化: 将真实世界光投射反馈集成到攻击循环中，确保生成的扰动满足设备约束（投影仪强度、环境光照、表面反射率）。
分布式协方差矩阵自适应进化策略 (CMA‑ES): 一种可扩展的进化优化器，能够在多个计算节点上高效搜索光模式的高维空间。
基于投影的攻击流水线: 超越数字像素级扰动，实现可通过现成投影仪部署的物理可实现攻击。
在流行的 MDE 模型上的实证验证: 表明该攻击可以使整个物体表面在深度图中消失，确认了严重的漏洞。
开源发布（计划中）: 作者计划共享代码和硬件规格，以促进可重复的研究和防御工作。

方法论

问题表述：
- 目标：寻找一种光模式 (L)，在投射到目标物体上时，能够在保持投影仪功率限制的前提下，最大程度地扭曲单目网络的深度输出。
物理‑在‑回路循环：
- 仿真阶段： 使用可微分渲染模型生成候选光模式，该模型近似投影仪光子与场景的相互作用。
- 物理评估： 将候选模式投射到实际物体上，捕获得到的 RGB 图像，送入 MDE 模型，并测量深度误差。
- 反馈： 测得的误差作为优化器的适应度分数。
优化引擎：
- 使用 分布式 CMA‑ES 算法，在模式空间上维护一个多元高斯分布，并根据适应度分数迭代更新其均值和协方差。
- 并行工作节点在不同硬件平台上评估不同候选方案，大幅加快收敛速度。
约束处理：
- 强制执行投影仪强度上限、空间平滑性（避免斑点）以及对环境光变化的鲁棒性。

因此，该流水线在快速的模拟猜测与昂贵的真实世界评估之间交替进行，最终收敛到可物理实现的对抗性照明。

结果与发现

测试模型	攻击成功率*	典型深度误差 (m)	视觉效果
MiDaS v2.1	87 %	2.3 ± 0.9	对象表面消失
DPT‑HR	81 %	1.9 ± 0.7	出现深度“洞”
BTS	74 %	1.5 ± 0.6	表面显得很远

*成功 = 深度误差超过安全阈值（例如，对 2 m 对象 >1 m）。

物理真实性： 攻击在不同光照条件下（室内、黄昏）均有效，且使用功率 ≤5 W 的普通投影仪硬件即可。
鲁棒性： 小的对准误差（±2 cm）或表面反射率的轻微变化不会破坏攻击，这得益于 PITL 反馈。
速度： 分布式 CMA‑ES 在 4 节点集群上约 30 分钟的实际时间内收敛，使得该攻击在现场测试中具有实用性。

实际影响

安全关键系统： 依赖单摄像头深度的自主无人机或机器人可能会被恶意光模式误导，从而碰撞或忽视障碍物。
AR/VR 内容完整性： 头戴显示器中的深度感知遮挡可能被破坏，导致视觉欺骗或隐私攻击。
工业检测： 视觉引导的机械手可能误判零件几何形状，导致装配错误。
防御路线图： 该研究强调了 传感器融合（例如 LiDAR + 单目）以及在模型硬化过程中加入 对抗感知训练（包括光照扰动）的必要性。
测试工具： 已发布的流水线可用作在部署前评估新 MDE 架构 鲁棒性的基准。

限制与未来工作

硬件依赖性: 攻击假设能够访问放置在目标附近的校准投影仪；远程或隐蔽部署可能更困难。
场景复杂度: 实验聚焦于孤立物体；具有多个反射表面的杂乱环境可能削弱效果。
模型范围: 仅评估了前馈式 MDE 网络；循环或基于 Transformer 的深度估计器可能表现出不同的敏感性。
未来方向:
- 将 PITL 扩展到 多模态攻击（例如同步的光学和声学扰动）。
- 研究 防御光学（偏振片、主动照明），以检测异常的投影图案。
- 将方法扩展到 动态场景，即相机和投影仪同时移动的情况。

Bottom line: 通过将投影仪变成对抗性的“激光指示器”，本工作证明单目深度感知不仅是软件问题——它也可以通过物理手段被破坏。构建感知流水线的开发者应将光照视为攻击面，并相应采用多传感器或对抗训练的防护措施。

作者

Takeru Kusakabe
Yudai Hirose
Mashiho Mukaida
Satoshi Ono

论文信息

arXiv ID: 2512.24792v1
分类: cs.CV, cs.LG, cs.NE
发布日期: 2025年12月31日
PDF: 下载 PDF

[Paper] 基于投影的对抗攻击：物理回环优化用于单目深度估计

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 两种深度学习方法用于Cine心脏MRI左心室的自动分割

[Paper] FedHypeVAE：联邦学习与超网络生成的条件VAE用于差分隐私嵌入共享

[Paper] 检测病理视觉-语言模型在数据漂移下的性能下降

[Paper] SpaceTimePilot: 生成式渲染跨时空的动态场景