[Paper] Edit3r：从稀疏未配准图像的即时3D场景编辑

发布: 1个月前 (2026年1月1日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.25071v1

（请提供您希望翻译的具体文本内容。）

概述

Edit3r 是一种全新的前馈系统，能够 在单次前向传播中重建 3D 场景并应用用户驱动的编辑，即使输入图像稀疏、未对齐且已被 2‑D 编辑工具修改。通过规避占主导地位的昂贵场景级优化，Edit3r 使得实时、写实的 3D 编辑对构建 AR/VR、游戏和视觉特效流水线的开发者而言成为可能。

数据准备
- 从 DL3DV 数据集的未编辑多视角图像开始。
- 应用 SAM2 驱动的重新着色 步骤，将二维编辑（例如“把墙壁涂成红色”）一致地传播到所有视角，生成伪真实标签的编辑集合。
网络架构
- 一个 单一的编码器‑解码器 以 不对称 的图像束为输入：一个重新着色的参考视图 + 若干原始视图。
- 编码器学习 合并异构观测，而解码器预测一个已经融合指令编辑的 NeRF 风格体积场。
训练目标
- 光度损失 在渲染的新视图与 SAM2 重新着色的监督之间，确保跨视角的一致性。
- 语义对齐损失（使用 CLIP 嵌入）鼓励编辑后的几何体匹配文本指令。
推理
- 用户提供任意稀疏照片集（无需姿态信息）和文本编辑（或来自 InstructPix2Pix 等工具的二维编辑图像）。
- 模型即时输出一个 可渲染的 3D 表示，反映编辑内容，可用于后续渲染或交互。

实时 AR/VR 内容创作：开发者可以让终端用户拍摄房间的几张照片，输入“把沙发换成蓝色”，即可瞬间获得可用于渲染或物理模拟的 3‑D 场景。
游戏资产流水线：艺术家可以快速原型化关卡编辑，无需手动重新拓扑或重新烘焙纹理；前馈模型承担繁重工作。
视觉特效与后期制作：现场拍摄的素材可以即时编辑，快速迭代现场扩展或遮罩绘制的调整。
与现有 2‑D 编辑器的集成：由于 Edit3r 可与 InstructPix2Pix 等工具的输出配合使用，工作室可以保持熟悉的 2‑D 工作流，同时以最小的工程投入获得 3‑D 能力。