[Paper] 面向对象的数据合成用于类别级目标检测

发布: (2025年11月29日 GMT+8 02:41)
6 min read
原文: arXiv

Source: arXiv - 2511.23450v1

概览

当拥有大量标注图像时,目标检测模型表现优异,但为每个新类别收集此类数据成本高昂——尤其是对于稀有或“长尾”类别。本文针对 以对象为中心的数据设置,即仅有少量干净的多视角照片或 3D 模型可用的情形。通过从这些有限输入合成逼真的训练图像,作者展示了如何在无需常规数据收集的情况下,快速将检测模型扩展到新类别。

主要贡献

  • 定义对象中心数据场景,并阐述其在将检测系统扩展到新类别时的重要性。
  • 系统性评估四种合成管线
    1. 基础图像合成(剪切‑粘贴 + 背景混合)。
    2. 将 CAD/网格模型渲染到多样化场景中。
    3. 基于扩散的图像生成,条件为对象中心输入。
    4. 将渲染与扩散细化相结合的混合方法。
  • 量化上下文真实感(杂乱、光照、遮挡)对下游检测性能的影响。
  • 展示显著的 mAP 提升(最高约 15 % 绝对值),在真实世界基准上仅使用合成数据微调检测器即可实现。
  • 提供开源工具包,用于复现这些管线并对新合成方法进行基准测试。

方法论

  1. 数据收集 – 对每个新类别,作者收集少量(≈5–10 张)多视角 RGB 图像或一个 3D 网格。无需边界框标注。
  2. 合成管线
    • 剪切‑粘贴:使用现成的掩码对对象进行分割,然后粘贴到随机背景图像上,并进行简单的颜色匹配。
    • 3D 渲染:利用多视角照片对网格进行纹理化,并在物理渲染引擎中在不同相机姿态、光照和场景几何下渲染。
    • 扩散:使用文本到图像的扩散模型(如 Stable Diffusion),以对象名称为提示并以有限视图为条件,生成新场景。
    • 混合:将渲染图像再次输入扩散模型进行风格迁移和额外杂乱添加。
  3. 训练 – 将在 COCO 上预训练的标准 Faster‑RCNN / YOLO‑X 检测器仅在合成图像上进行微调。新类别不使用任何真实标注。
  4. 评估 – 在包含新类别的保留真实数据集上测试微调后的模型,测量平均精度均值(mAP)和召回率。

结果与发现

管线mAP(仅合成)相较基线的变化(无新数据)
剪切‑粘贴22.3 %+6.8 %
3D 渲染27.9 %+12.4 %
扩散25.1 %+9.6 %
混合(渲染 + 扩散)31.5 %+15.0 %
  • 上下文重要:加入真实感杂乱和多变光照始终优于干净、孤立的合成。
  • 混合方法获胜:渲染提供准确的几何信息,扩散则补充光照真实感和背景复杂度。
  • 收益递减:每类约 20 张合成图像后提升趋于平缓,说明适度的合成预算已足够。
  • 跨类别迁移:在一种新类上使用合成数据微调的模型,同样提升了对视觉相似未见类的检测,暗示了类别层面的泛化能力。

实际意义

  • 快速上新产品:电商平台可仅凭少量商品照片为新 SKU 生成检测数据,显著降低标注成本。
  • 机器人与 AR:服务机器人可通过少量 CAD 文件即时学习识别新工具或物体,无需大量场景采集。
  • 边缘部署:合成管线轻量(尤其是剪切‑粘贴和渲染),团队可在本地运行,保护专有对象模型的隐私。
  • 数据集增强:通过为长尾检测数据集中的不足类别合成样本,可实现类别平衡,提升公平性与鲁棒性。

局限性与未来工作

  • 域差距:即使是最好的合成图像仍与真实传感器噪声、运动模糊和极端光照存在差异,可能需要进一步的域适应技术。
  • 3D 资产质量:方法假设网格相对准确;劣质几何会对检测产生负面影响。
  • 扩散的可扩展性:高分辨率扩散生成计算成本高,限制了大规模批量合成。
  • 未来方向:作者计划探索在未标注真实图像上进行自监督微调,结合神经辐射场(NeRF)实现更丰富的视图合成,并自动化扩散模型的提示工程。

作者

  • Vikhyat Agarwal
  • Jiayi Cora Guo
  • Declan Hoban
  • Sissi Zhang
  • Nicholas Moran
  • Peter Cho
  • Srilakshmi Pattabiraman
  • Shantanu Joshi

论文信息

  • arXiv ID: 2511.23450v1
  • 分类: cs.CV
  • 发表时间: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »