[Paper] Edit3r:从稀疏未配准图像的即时3D场景编辑
发布: (2026年1月1日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.25071v1
(请提供您希望翻译的具体文本内容。)
概述
Edit3r 是一种全新的前馈系统,能够 在单次前向传播中重建 3D 场景并应用用户驱动的编辑,即使输入图像稀疏、未对齐且已被 2‑D 编辑工具修改。通过规避占主导地位的昂贵场景级优化,Edit3r 使得实时、写实的 3D 编辑对构建 AR/VR、游戏和视觉特效流水线的开发者而言成为可能。
关键贡献
- 即时 3D 重建与编辑:仅需少量未对齐、视角不一致的图像——无需迭代优化或姿态估计。
- 跨视角一致的监督:通过基于 SAM2 的重新着色流水线自动生成编辑后的多视角训练对。
- 不对称输入策略:将重新着色的参考视图与原始辅助视图融合,教会网络对齐不同的观测。
- DL3DV‑Edit‑Bench:全新基准(20 个场景、4 种编辑类型、共 100 次编辑),用于系统评估 3D 编辑质量与速度。
- 领先的性能:在语义对齐度和 3D 一致性上超越近期基线,同时运行速度快几个数量级。
方法论
-
数据准备
- 从 DL3DV 数据集的未编辑多视角图像开始。
- 应用 SAM2 驱动的重新着色 步骤,将二维编辑(例如“把墙壁涂成红色”)一致地传播到所有视角,生成伪真实标签的编辑集合。
-
网络架构
- 一个 单一的编码器‑解码器 以 不对称 的图像束为输入:一个重新着色的参考视图 + 若干原始视图。
- 编码器学习 合并异构观测,而解码器预测一个已经融合指令编辑的 NeRF 风格体积场。
-
训练目标
- 光度损失 在渲染的新视图与 SAM2 重新着色的监督之间,确保跨视角的一致性。
- 语义对齐损失(使用 CLIP 嵌入)鼓励编辑后的几何体匹配文本指令。
-
推理
- 用户提供任意稀疏照片集(无需姿态信息)和文本编辑(或来自 InstructPix2Pix 等工具的二维编辑图像)。
- 模型即时输出一个 可渲染的 3D 表示,反映编辑内容,可用于后续渲染或交互。
结果与发现
| 指标 | Edit3r | 先前基于优化的方法 |
|---|---|---|
| 语义对齐 (CLIP‑Score) | 0.78 | 0.62 |
| 3‑D 一致性 (多视图 PSNR) | 28.4 dB | 24.1 dB |
| 推理时间(每场景) | ≈0.3 s | ≈30 s – 5 min |
- 定性 示例显示 Edit3r 能够准确改变颜色、添加对象或移除元素,同时在未见视角下保持几何形状和光照一致。
- 该模型 能够对训练期间未见过的编辑进行泛化(例如来自 InstructPix2Pix 的风格化草图),证明了对多样化 2‑D 编辑管线的鲁棒性。
- 在新发布的 DL3DV‑Edit‑Bench 上,Edit3r 在所有四种编辑类别(颜色更改、纹理替换、对象添加、对象移除)上始终优于基线。
实际意义
- 实时 AR/VR 内容创作:开发者可以让终端用户拍摄房间的几张照片,输入“把沙发换成蓝色”,即可瞬间获得可用于渲染或物理模拟的 3‑D 场景。
- 游戏资产流水线:艺术家可以快速原型化关卡编辑,无需手动重新拓扑或重新烘焙纹理;前馈模型承担繁重工作。
- 视觉特效与后期制作:现场拍摄的素材可以即时编辑,快速迭代现场扩展或遮罩绘制的调整。
- 与现有 2‑D 编辑器的集成:由于 Edit3r 可与 InstructPix2Pix 等工具的输出配合使用,工作室可以保持熟悉的 2‑D 工作流,同时以最小的工程投入获得 3‑D 能力。
限制与未来工作
- 稀疏视角需求:虽然模型能够容忍未标定的输入,但极度稀疏或高度遮挡的捕获会降低几何质量。
- 编辑范围:当前训练覆盖四种编辑类型;更复杂的结构变化(例如几何变形)仍具挑战性。
- 分辨率:渲染输出受限于网络的原生体素分辨率;更高保真度的渲染需要下游的上采样阶段。
- 未来方向:作者提出的建议包括将非对称输入范式扩展至处理视频流,加入显式姿态估计以提升极端情况下的准确性,以及扩展模型以支持全场景几何编辑。
作者
- Jiageng Liu
- Weijie Lyu
- Xueting Li
- Yejie Guo
- Ming-Hsuan Yang
论文信息
- arXiv ID: 2512.25071v1
- 分类: cs.CV
- 发表时间: 2025年12月31日
- PDF: 下载 PDF