[Paper] Endo-G$^{2}$T:几何引导 & 时间感知的时间嵌入 4DGS 用于内镜场景
发布: (2025年11月26日 GMT+8 21:12)
6 min read
原文: arXiv
Source: arXiv - 2511.21367v1
概览
本文提出了 Endo‑G²T,一种用于四维高斯点渲染(4DGS)的全新训练流水线,能够从内镜视频流中重建高保真、时间一致的三维几何。通过注入几何感知的深度先验和时间感知的高斯场,该方法克服了现有单目内镜重建技术中常见的漂移和高光伪影问题。
关键贡献
- 几何引导的先验蒸馏:将置信度门控的单目深度转换为尺度不变的深度和梯度损失,并通过热身调度逐步注入,以防止早期过拟合。
- 时间嵌入的高斯场:将三维高斯点渲染表示扩展到 XYZT 空间,并加入类似转子的旋转参数,实现平滑、连贯的运动建模和清晰的透明度边界。
- 关键帧约束的流式处理:在最大点数预算下仅优化有限的关键帧,同时用轻量步骤更新非关键帧,提供长时程的稳定性和实时性能。
- 在挑战性内镜基准(EndoNeRF、StereoMIS‑P1)上实现 state‑of‑the‑art 结果,相较于现有单目重建基线有显著提升。
方法论
- 深度先验提取 – 预训练的单目深度网络预测每像素的深度和置信度掩码。置信度掩码对深度损失进行门控,仅让可靠区域影响几何。
- 软先验注入 – 在前几个训练 epoch 中,采用 “warm‑up‑to‑cap” 调度将深度‑梯度损失从 0 缩放到完整权重,使高斯场先学习粗糙的外观,再被几何约束固定。
- 四维高斯表示 – 每个场景点存储为一个高斯体,包含位置、协方差、颜色、透明度以及额外的 rotor(转子),用于编码随时间的旋转。该转子使场景自然处理视角相关效应(高光、湿润反射),同时保持运动平滑。
- 流式优化 – 将视频划分为关键帧和非关键帧。关键帧在全局点数预算下进行完整的高斯更新;非关键帧仅通过廉价的增量步骤细化已有高斯体。此方式限制内存占用,并在普通 GPU 上实现近实时训练。
结果与发现
| 数据集 | 指标(如 PSNR / SSIM) | 基线(Mono‑NeRF) | Endo‑G²T |
|---|---|---|---|
| EndoNeRF | PSNR ↑ 28.7 → 31.4 | 28.7 | 31.4 |
| StereoMIS‑P1 | SSIM ↑ 0.71 → 0.84 | 0.71 | 0.84 |
- 几何漂移 大幅降低;即使在长视频序列后,重建表面仍忠实于真实解剖结构。
- 时间一致性 提升视觉连贯性:移动的手术器械和组织变形呈现平滑无抖动。
- 计算效率:关键帧约束的流式处理相比完整帧 4DGS 将训练时间缩短约 35 %,且保持在 2 M 点预算内。
实际意义
- 实时导航辅助 – 外科医生可在微创手术过程中实时获取腔道的三维重建,提升空间定位能力。
- 自动化工具追踪 – 时间稳定的几何图谱为后续姿态估计或分割模块(如机器人辅助手术)提供更可靠的基础。
- 数据集生成 – 高质量的四维重建可作为 AI 模型(如息肉检测)的真值数据,无需昂贵的术中 CT 扫描。
- 硬件友好 – 流式方法可在单块 RTX‑3080 级别 GPU 上运行,降低在现有手术室成像系统中集成的门槛。
局限性与未来工作
- 该方法仍依赖预训练的单目深度估计器;在低纹理或严重遮挡区域的误差即使经过置信度门控仍可能传播。
- 基于转子的运动建模假设变形相对平滑;突发的组织撕裂或快速器械插入可能需要更具表现力的动力学模型。
- 未来研究方向包括 自监督深度细化、自适应点数预算分配,以及将流水线扩展至 多摄像头内镜系统,以实现更丰富的四维捕获。
作者
- Yangle Liu
- Fengze Li
- Kan Liu
- Jieming Ma
论文信息
- arXiv ID: 2511.21367v1
- 分类: cs.CV
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF