[Paper] 面向对象的数据合成用于类别级目标检测
发布: (2025年11月29日 GMT+8 02:41)
6 min read
原文: arXiv
Source: arXiv - 2511.23450v1
概览
当拥有大量标注图像时,目标检测模型表现优异,但为每个新类别收集此类数据成本高昂——尤其是对于稀有或“长尾”类别。本文针对 以对象为中心的数据设置,即仅有少量干净的多视角照片或 3D 模型可用的情形。通过从这些有限输入合成逼真的训练图像,作者展示了如何在无需常规数据收集的情况下,快速将检测模型扩展到新类别。
主要贡献
- 定义对象中心数据场景,并阐述其在将检测系统扩展到新类别时的重要性。
- 系统性评估四种合成管线:
- 基础图像合成(剪切‑粘贴 + 背景混合)。
- 将 CAD/网格模型渲染到多样化场景中。
- 基于扩散的图像生成,条件为对象中心输入。
- 将渲染与扩散细化相结合的混合方法。
- 量化上下文真实感(杂乱、光照、遮挡)对下游检测性能的影响。
- 展示显著的 mAP 提升(最高约 15 % 绝对值),在真实世界基准上仅使用合成数据微调检测器即可实现。
- 提供开源工具包,用于复现这些管线并对新合成方法进行基准测试。
方法论
- 数据收集 – 对每个新类别,作者收集少量(≈5–10 张)多视角 RGB 图像或一个 3D 网格。无需边界框标注。
- 合成管线 –
- 剪切‑粘贴:使用现成的掩码对对象进行分割,然后粘贴到随机背景图像上,并进行简单的颜色匹配。
- 3D 渲染:利用多视角照片对网格进行纹理化,并在物理渲染引擎中在不同相机姿态、光照和场景几何下渲染。
- 扩散:使用文本到图像的扩散模型(如 Stable Diffusion),以对象名称为提示并以有限视图为条件,生成新场景。
- 混合:将渲染图像再次输入扩散模型进行风格迁移和额外杂乱添加。
- 训练 – 将在 COCO 上预训练的标准 Faster‑RCNN / YOLO‑X 检测器仅在合成图像上进行微调。新类别不使用任何真实标注。
- 评估 – 在包含新类别的保留真实数据集上测试微调后的模型,测量平均精度均值(mAP)和召回率。
结果与发现
| 管线 | mAP(仅合成) | 相较基线的变化(无新数据) |
|---|---|---|
| 剪切‑粘贴 | 22.3 % | +6.8 % |
| 3D 渲染 | 27.9 % | +12.4 % |
| 扩散 | 25.1 % | +9.6 % |
| 混合(渲染 + 扩散) | 31.5 % | +15.0 % |
- 上下文重要:加入真实感杂乱和多变光照始终优于干净、孤立的合成。
- 混合方法获胜:渲染提供准确的几何信息,扩散则补充光照真实感和背景复杂度。
- 收益递减:每类约 20 张合成图像后提升趋于平缓,说明适度的合成预算已足够。
- 跨类别迁移:在一种新类上使用合成数据微调的模型,同样提升了对视觉相似未见类的检测,暗示了类别层面的泛化能力。
实际意义
- 快速上新产品:电商平台可仅凭少量商品照片为新 SKU 生成检测数据,显著降低标注成本。
- 机器人与 AR:服务机器人可通过少量 CAD 文件即时学习识别新工具或物体,无需大量场景采集。
- 边缘部署:合成管线轻量(尤其是剪切‑粘贴和渲染),团队可在本地运行,保护专有对象模型的隐私。
- 数据集增强:通过为长尾检测数据集中的不足类别合成样本,可实现类别平衡,提升公平性与鲁棒性。
局限性与未来工作
- 域差距:即使是最好的合成图像仍与真实传感器噪声、运动模糊和极端光照存在差异,可能需要进一步的域适应技术。
- 3D 资产质量:方法假设网格相对准确;劣质几何会对检测产生负面影响。
- 扩散的可扩展性:高分辨率扩散生成计算成本高,限制了大规模批量合成。
- 未来方向:作者计划探索在未标注真实图像上进行自监督微调,结合神经辐射场(NeRF)实现更丰富的视图合成,并自动化扩散模型的提示工程。
作者
- Vikhyat Agarwal
- Jiayi Cora Guo
- Declan Hoban
- Sissi Zhang
- Nicholas Moran
- Peter Cho
- Srilakshmi Pattabiraman
- Shantanu Joshi
论文信息
- arXiv ID: 2511.23450v1
- 分类: cs.CV
- 发表时间: 2025 年 11 月 28 日
- PDF: Download PDF