[Paper] Edit3r:从稀疏未配准图像的即时3D场景编辑

发布: (2026年1月1日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.25071v1

(请提供您希望翻译的具体文本内容。)

概述

Edit3r 是一种全新的前馈系统,能够 在单次前向传播中重建 3D 场景并应用用户驱动的编辑,即使输入图像稀疏、未对齐且已被 2‑D 编辑工具修改。通过规避占主导地位的昂贵场景级优化,Edit3r 使得实时、写实的 3D 编辑对构建 AR/VR、游戏和视觉特效流水线的开发者而言成为可能。

关键贡献

  • 即时 3D 重建与编辑:仅需少量未对齐、视角不一致的图像——无需迭代优化或姿态估计。
  • 跨视角一致的监督:通过基于 SAM2 的重新着色流水线自动生成编辑后的多视角训练对。
  • 不对称输入策略:将重新着色的参考视图与原始辅助视图融合,教会网络对齐不同的观测。
  • DL3DV‑Edit‑Bench:全新基准(20 个场景、4 种编辑类型、共 100 次编辑),用于系统评估 3D 编辑质量与速度。
  • 领先的性能:在语义对齐度和 3D 一致性上超越近期基线,同时运行速度快几个数量级。

方法论

  1. 数据准备

    • 从 DL3DV 数据集的未编辑多视角图像开始。
    • 应用 SAM2 驱动的重新着色 步骤,将二维编辑(例如“把墙壁涂成红色”)一致地传播到所有视角,生成伪真实标签的编辑集合。
  2. 网络架构

    • 一个 单一的编码器‑解码器不对称 的图像束为输入:一个重新着色的参考视图 + 若干原始视图。
    • 编码器学习 合并异构观测,而解码器预测一个已经融合指令编辑的 NeRF 风格体积场
  3. 训练目标

    • 光度损失 在渲染的新视图与 SAM2 重新着色的监督之间,确保跨视角的一致性。
    • 语义对齐损失(使用 CLIP 嵌入)鼓励编辑后的几何体匹配文本指令。
  4. 推理

    • 用户提供任意稀疏照片集(无需姿态信息)和文本编辑(或来自 InstructPix2Pix 等工具的二维编辑图像)。
    • 模型即时输出一个 可渲染的 3D 表示,反映编辑内容,可用于后续渲染或交互。

结果与发现

指标Edit3r先前基于优化的方法
语义对齐 (CLIP‑Score)0.780.62
3‑D 一致性 (多视图 PSNR)28.4 dB24.1 dB
推理时间(每场景)≈0.3 s≈30 s – 5 min
  • 定性 示例显示 Edit3r 能够准确改变颜色、添加对象或移除元素,同时在未见视角下保持几何形状和光照一致。
  • 该模型 能够对训练期间未见过的编辑进行泛化(例如来自 InstructPix2Pix 的风格化草图),证明了对多样化 2‑D 编辑管线的鲁棒性。
  • 在新发布的 DL3DV‑Edit‑Bench 上,Edit3r 在所有四种编辑类别(颜色更改、纹理替换、对象添加、对象移除)上始终优于基线。

实际意义

  • 实时 AR/VR 内容创作:开发者可以让终端用户拍摄房间的几张照片,输入“把沙发换成蓝色”,即可瞬间获得可用于渲染或物理模拟的 3‑D 场景。
  • 游戏资产流水线:艺术家可以快速原型化关卡编辑,无需手动重新拓扑或重新烘焙纹理;前馈模型承担繁重工作。
  • 视觉特效与后期制作:现场拍摄的素材可以即时编辑,快速迭代现场扩展或遮罩绘制的调整。
  • 与现有 2‑D 编辑器的集成:由于 Edit3r 可与 InstructPix2Pix 等工具的输出配合使用,工作室可以保持熟悉的 2‑D 工作流,同时以最小的工程投入获得 3‑D 能力。

限制与未来工作

  • 稀疏视角需求:虽然模型能够容忍未标定的输入,但极度稀疏或高度遮挡的捕获会降低几何质量。
  • 编辑范围:当前训练覆盖四种编辑类型;更复杂的结构变化(例如几何变形)仍具挑战性。
  • 分辨率:渲染输出受限于网络的原生体素分辨率;更高保真度的渲染需要下游的上采样阶段。
  • 未来方向:作者提出的建议包括将非对称输入范式扩展至处理视频流,加入显式姿态估计以提升极端情况下的准确性,以及扩展模型以支持全场景几何编辑。

作者

  • Jiageng Liu
  • Weijie Lyu
  • Xueting Li
  • Yejie Guo
  • Ming-Hsuan Yang

论文信息

  • arXiv ID: 2512.25071v1
  • 分类: cs.CV
  • 发表时间: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »