[Paper] MatAnyone 2：通过学习式质量评估器实现视频抠图的规模化

发布: 1个月前 (2025年12月13日 GMT+8 02:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.11782v1

概览

本文提出 MatAnyone 2，一个显著扩展视频抠图模型规模与真实感的新框架。通过引入 学习型抠图质量评估器 (MQE)，作者既可以在训练时实时提供指导，又能自动筛选海量高质量视频抠图数据——最终得到一个包含 28 K 片段（约 240 万帧）的数据集 VMReal。该方法将视频抠图性能提升至合成与真实基准的最新水平。

主要贡献

抠图质量评估器 (MQE)： 一个神经模块，能够在无需真实掩码的情况下预测 alpha matte 的像素级质量分数。
MQE 的双重用途：
1. 在线反馈：在训练期间抑制低质量区域并提供更丰富的监督。
2. 离线数据筛选：自动从现有视频与图像抠图模型的输出中挑选并精炼帧，进而构建大规模 VMReal 数据集。
参考帧训练策略： 引入超出常规短滑窗的长程时间上下文，提高在长时、外观变化视频上的鲁棒性。
VMReal 数据集： 28 K 多样化视频片段（≈240 万帧），来源于真实场景，填补了视频抠图资源长期缺口。
最先进的结果： MatAnyone 2 在所有标准指标上均优于已有方法，无论是合成还是实际测试集。

方法论

1. 抠图质量评估器 (MQE)

输入为 RGB 帧、预测的 alpha matte，及可选的前景/背景估计。
输出 像素级质量图，指示 matte 在语义一致性和边界精度上的置信度。
在少量人工标注的 matte 上进行训练，学习模仿人类的质量判断。

2. 在线训练反馈

在每次训练迭代中，MQE 的质量图用于加权损失：高置信度区域正常计入，低置信度（易出错）像素则被下调权重。
这种动态监督迫使抠图网络关注可靠模式，降低对噪声标签的过拟合。

3. 离线数据筛选

在原始视频素材上运行多个强大的视频与图像抠图模型。
使用 MQE 为每个生成的 matte 打分；低分帧被丢弃或重新处理。
剩余的高质量 matte 组成 VMReal 训练集，在无需人工标注的情况下大幅扩充数据量。

4. 参考帧训练

不仅使用紧邻的前一帧作为参考，而是抽样 长程帧（例如相隔 5–10 秒）。
这促使网络在更大外观变化下学习时间一致性，对光照、姿态、背景显著变化的真实视频尤为关键。

5. 网络架构

核心抠图网络采用编码器‑解码器结构并进行多尺度特征融合，类似于已有视频抠图模型，但现在受益于 MQE 引导的损失和更丰富的时间线索。

结果与发现

基准	指标 (↑ 越好)	MatAnyone 2	先前最佳
Adobe Composition‑1K（合成）	SAD ↓	4.2	5.1
DAVIS‑Matting（真实）	MSE ↓	0.018	0.025
VMReal 测试集	F‑measure ↑	0.93	0.88

在所有指标上均实现 一致提升，尤其在边界敏感度量（如 Trimap F‑score）上表现突出。
消融实验 表明，去除 MQE 反馈会导致性能相对下降约 7 %，而不使用参考帧训练则削弱长视频的稳定性。
定性示例 展示了更锐利的发丝、更平滑的半透明物体以及相比之前方法更少的闪烁伪影。

实际意义

内容创作流水线： 工作室现在可以用更少的手工描摹时间，为 VFX、AR/VR 与直播生成高质量 alpha matte。
实时应用： MQE 可作为轻量级质量监控器部署，在流媒体或视频会议工具中标记需要重新处理的帧。
数据集快速构建： 构建专有抠图模型的公司可使用 MQE 驱动的筛选流程，快速组建领域特定数据集（如体育转播、在线教育视频），无需昂贵标注。
下游任务提升： 更好的 matte 能提升后续分割、合成和背景替换 API 的表现，为照片编辑应用和虚拟背景带来更流畅的用户体验。

局限性与未来工作

MQE 训练数据： 评估器仍依赖少量人工评分的 matte；在完全未知领域（如医学影像）上的泛化能力可能受限。
计算开销： 与抠图网络并行运行 MQE 会增加约 15 % 的推理时间，可能成为超低延迟场景的瓶颈。
数据集偏差： 虽然 VMReal 规模庞大，但来源于公开视频，可能不足以覆盖小众光照条件或特殊材质。

未来研究方向包括 自监督 MQE 精炼、模型压缩 以实现实时部署，以及 通过主动学习循环不断摄取新视频流 来进一步扩展 VMReal。

作者

Peiqing Yang
Shangchen Zhou
Kai Hao
Qingyi Tao

论文信息

arXiv ID: 2512.11782v1
分类: cs.CV
发布日期: 2025 年 12 月 12 日
PDF: 下载 PDF

[Paper] MatAnyone 2：通过学习式质量评估器实现视频抠图的规模化

概览

主要贡献

方法论

1. 抠图质量评估器 (MQE)

2. 在线训练反馈

3. 离线数据筛选

4. 参考帧训练

5. 网络架构

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

[Paper] V-RGBX：视频编辑对内在属性的精确控制

[Paper] Particulate: 前馈 3D 对象关节化

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成