[Paper] 基于投影的对抗攻击:物理回环优化用于单目深度估计

发布: (2025年12月31日 GMT+8 19:30)
8 min read
原文: arXiv

Source: arXiv - 2512.24792v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式。

概述

单目深度估计(MDE)模型已成为机器人、AR/VR 和自动驾驶的基石,但它们同样继承了困扰图像分类器的对抗脆弱性。本文提出了一种 基于投影的对抗攻击,通过在真实物体上投射精心设计的光模式,使最先进的 MDE 网络产生极度不准确的深度图。通过在仿真与物理世界之间闭环,作者展示了深度感知系统可以在现场被欺骗,这对任何依赖单摄像头深度感知的产品提出了紧迫的安全担忧。

关键贡献

  • Physics‑in‑the‑Loop (PITL) 优化: 将真实世界光投射反馈集成到攻击循环中,确保生成的扰动满足设备约束(投影仪强度、环境光照、表面反射率)。
  • 分布式协方差矩阵自适应进化策略 (CMA‑ES): 一种可扩展的进化优化器,能够在多个计算节点上高效搜索光模式的高维空间。
  • 基于投影的攻击流水线: 超越数字像素级扰动,实现可通过现成投影仪部署的物理可实现攻击。
  • 在流行的 MDE 模型上的实证验证: 表明该攻击可以使整个物体表面在深度图中消失,确认了严重的漏洞。
  • 开源发布(计划中): 作者计划共享代码和硬件规格,以促进可重复的研究和防御工作。

方法论

  1. 问题表述:
    • 目标:寻找一种光模式 (L),在投射到目标物体上时,能够在保持投影仪功率限制的前提下,最大程度地扭曲单目网络的深度输出。
  2. 物理‑在‑回路循环:
    • 仿真阶段: 使用可微分渲染模型生成候选光模式,该模型近似投影仪光子与场景的相互作用。
    • 物理评估: 将候选模式投射到实际物体上,捕获得到的 RGB 图像,送入 MDE 模型,并测量深度误差。
    • 反馈: 测得的误差作为优化器的适应度分数。
  3. 优化引擎:
    • 使用 分布式 CMA‑ES 算法,在模式空间上维护一个多元高斯分布,并根据适应度分数迭代更新其均值和协方差。
    • 并行工作节点在不同硬件平台上评估不同候选方案,大幅加快收敛速度。
  4. 约束处理:
    • 强制执行投影仪强度上限、空间平滑性(避免斑点)以及对环境光变化的鲁棒性。

因此,该流水线在快速的模拟猜测与昂贵的真实世界评估之间交替进行,最终收敛到可物理实现的对抗性照明。

结果与发现

测试模型攻击成功率*典型深度误差 (m)视觉效果
MiDaS v2.187 %2.3 ± 0.9对象表面消失
DPT‑HR81 %1.9 ± 0.7出现深度“洞”
BTS74 %1.5 ± 0.6表面显得很远

*成功 = 深度误差超过安全阈值(例如,对 2 m 对象 >1 m)。

  • 物理真实性: 攻击在不同光照条件下(室内、黄昏)均有效,且使用功率 ≤5 W 的普通投影仪硬件即可。
  • 鲁棒性: 小的对准误差(±2 cm)或表面反射率的轻微变化不会破坏攻击,这得益于 PITL 反馈。
  • 速度: 分布式 CMA‑ES 在 4 节点集群上约 30 分钟的实际时间内收敛,使得该攻击在现场测试中具有实用性。

实际影响

  • 安全关键系统: 依赖单摄像头深度的自主无人机或机器人可能会被恶意光模式误导,从而碰撞或忽视障碍物。
  • AR/VR 内容完整性: 头戴显示器中的深度感知遮挡可能被破坏,导致视觉欺骗或隐私攻击。
  • 工业检测: 视觉引导的机械手可能误判零件几何形状,导致装配错误。
  • 防御路线图: 该研究强调了 传感器融合(例如 LiDAR + 单目)以及在模型硬化过程中加入 对抗感知训练(包括光照扰动)的必要性。
  • 测试工具: 已发布的流水线可用作在部署前评估新 MDE 架构 鲁棒性的基准。

限制与未来工作

  • 硬件依赖性: 攻击假设能够访问放置在目标附近的校准投影仪;远程或隐蔽部署可能更困难。
  • 场景复杂度: 实验聚焦于孤立物体;具有多个反射表面的杂乱环境可能削弱效果。
  • 模型范围: 仅评估了前馈式 MDE 网络;循环或基于 Transformer 的深度估计器可能表现出不同的敏感性。
  • 未来方向:
    • 将 PITL 扩展到 多模态攻击(例如同步的光学和声学扰动)。
    • 研究 防御光学(偏振片、主动照明),以检测异常的投影图案。
    • 将方法扩展到 动态场景,即相机和投影仪同时移动的情况。

Bottom line: 通过将投影仪变成对抗性的“激光指示器”,本工作证明单目深度感知不仅是软件问题——它也可以通过物理手段被破坏。构建感知流水线的开发者应将光照视为攻击面,并相应采用多传感器或对抗训练的防护措施。

作者

  • Takeru Kusakabe
  • Yudai Hirose
  • Mashiho Mukaida
  • Satoshi Ono

论文信息

  • arXiv ID: 2512.24792v1
  • 分类: cs.CV, cs.LG, cs.NE
  • 发布日期: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

【论文】Web World Models

语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...