[Paper] Splannequin: 冻结单目Mannequin-Challenge影像的双检测Splatting

发布: 2个月前 (2025年12月5日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.05113v1

Overview

本文介绍了 Splannequin，一种将日常的 “Mannequin‑Challenge” 视频（即单摄像头拍摄、人物保持完全静止而摄像机移动的片段）转化为高质量、可从任意角度探索的冻结 3D 场景的技术。通过利用动态高斯点绘（Gaussian splatting）并采用巧妙的正则化策略，作者实现了光照真实、无伪影的重建，使开发者能够在 AR/VR 体验中嵌入交互式、即时选择的 “冻结帧”。

Key Contributions

Dynamic‑to‑Static Gaussian Splatting：复用动态场景模型，但在选定时间戳处冻结它，保留细微的背景运动同时保持前景静止。
State‑aware Regularization (Hidden & Defective Gaussians)：检测观察不足或被遮挡的高斯基元，并将它们在时间上锚定到更可靠的观测上，消除重影和模糊。
Architecture‑agnostic Plug‑in：将正则化实现为少量损失项，可直接插入任何现有的动态高斯点绘管线，无需代码改动或额外推理成本。
User‑controlled Frozen‑time Rendering：支持即时选择任意帧作为静态视点，开启交互式叙事和内容创作工作流。
Extensive Human Evaluation：96 % 的参与者更偏好 Splannequin 的输出，相比基线方法确认了感知质量的提升。

Methodology

Dynamic Gaussian Representation – 场景被建模为一团 3D 高斯基元，其位置、颜色和不透明度随时间变化（这是动态点绘的标准做法）。
Temporal Anchoring
- Hidden Gaussians：因遮挡或视角变化而变得不可见的基元会被“锚定”到最近一次被良好观测的状态，防止它们漂移成幽灵般的伪影。
- Defective Gaussians：受到弱监督（例如仅在少数帧出现）的基元会被向前锚定到后续观测更充分的帧。
Loss Formulation – 在训练目标中加入两个额外的正则化项：一个惩罚隐藏高斯偏离其锚定的过去状态，另一个鼓励缺陷高斯与未来状态对齐。
Freezing the Model – 推理时将时间参数固定为用户选定的时间戳，渲染出静态场景，同时仍受益于训练期间学习到的时间平滑高斯参数。
Integration – 该方法可无缝接入任何动态高斯管线（如 D‑NeRF、HyperNeRF），无需修改网络结构或渲染流程。

Results & Findings

Visual Quality：相较于未使用锚定的基线动态点绘，Splannequin 消除了重影，降低了模糊，并在冻结渲染中恢复了细腻的纹理细节。
Quantitative Metrics：在标准 MC 视频基准上，PSNR/SSIM 提升约 1.2 dB / 0.03。
Human Preference：在盲测用户研究中，96 % 的参与者认为 Splannequin 的输出比次佳方法更真实、更具视觉吸引力。
Zero Runtime Overhead：由于正则化仅影响训练，推理速度与底层动态点绘模型相同。

Practical Implications

AR/VR Content Creation：开发者可以将单段手持视频转化为可自由漫游的 3D 环境，并提供 “暂停‑环视” 模式，适用于虚拟导览、游戏过场或沉浸式叙事。
Live Broadcast Enhancements：体育或活动制作方可捕获一次摄像机扫过，即时生成观众可从任意角度探索的冻结回放。
Rapid Prototyping：无需多摄像头阵列或深度传感器；手机视频即可，大幅降低小工作室和独立创作者的门槛。
Integration Path：已有使用动态高斯点绘的管线（例如用于神经化身）只需添加几行损失定义代码，即可获得质量提升且无需额外硬件。

Limitations & Future Work

Forward‑motion Assumption：锚定策略依赖于主要向前的摄像机运动；快速后退或高度不规则的轨迹仍可能产生伪影。
Sparse Supervision：极短的片段（约 <30 帧）会限制对缺陷高斯的可靠识别。
Generalization to Highly Dynamic Scenes：该方法针对 “冻结帧” 场景进行优化；若用于真实运动的场景（如舞动的人群），需额外处理。
Future Directions：将锚定机制扩展至双向运动，加入学习式遮挡掩码，并探索融合深度传感器以进一步提升重建保真度。

Authors

Hao-Jen Chien
Yi-Chuan Huang
Chung-Ho Wu
Wei-Lun Chao
Yu-Lun Liu

Paper Information

arXiv ID: 2512.05113v1
Categories: cs.CV
Published: December 4, 2025
PDF: Download PDF

[Paper] Splannequin: 冻结单目Mannequin-Challenge影像的双检测Splatting

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] EditThinker：为任意图像编辑器解锁迭代推理

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] SIMPACT：仿真驱动的动作规划使用视觉语言模型