[Paper] Endo-G$^{2}$T:几何引导 & 时间感知的时间嵌入 4DGS 用于内镜场景

发布: (2025年11月26日 GMT+8 21:12)
6 min read
原文: arXiv

Source: arXiv - 2511.21367v1

概览

本文提出了 Endo‑G²T,一种用于四维高斯点渲染(4DGS)的全新训练流水线,能够从内镜视频流中重建高保真、时间一致的三维几何。通过注入几何感知的深度先验和时间感知的高斯场,该方法克服了现有单目内镜重建技术中常见的漂移和高光伪影问题。

关键贡献

  • 几何引导的先验蒸馏:将置信度门控的单目深度转换为尺度不变的深度和梯度损失,并通过热身调度逐步注入,以防止早期过拟合。
  • 时间嵌入的高斯场:将三维高斯点渲染表示扩展到 XYZT 空间,并加入类似转子的旋转参数,实现平滑、连贯的运动建模和清晰的透明度边界。
  • 关键帧约束的流式处理:在最大点数预算下仅优化有限的关键帧,同时用轻量步骤更新非关键帧,提供长时程的稳定性和实时性能。
  • 在挑战性内镜基准(EndoNeRF、StereoMIS‑P1)上实现 state‑of‑the‑art 结果,相较于现有单目重建基线有显著提升。

方法论

  1. 深度先验提取 – 预训练的单目深度网络预测每像素的深度和置信度掩码。置信度掩码对深度损失进行门控,仅让可靠区域影响几何。
  2. 软先验注入 – 在前几个训练 epoch 中,采用 “warm‑up‑to‑cap” 调度将深度‑梯度损失从 0 缩放到完整权重,使高斯场先学习粗糙的外观,再被几何约束固定。
  3. 四维高斯表示 – 每个场景点存储为一个高斯体,包含位置、协方差、颜色、透明度以及额外的 rotor(转子),用于编码随时间的旋转。该转子使场景自然处理视角相关效应(高光、湿润反射),同时保持运动平滑。
  4. 流式优化 – 将视频划分为关键帧和非关键帧。关键帧在全局点数预算下进行完整的高斯更新;非关键帧仅通过廉价的增量步骤细化已有高斯体。此方式限制内存占用,并在普通 GPU 上实现近实时训练。

结果与发现

数据集指标(如 PSNR / SSIM)基线(Mono‑NeRF)Endo‑G²T
EndoNeRFPSNR ↑ 28.7 → 31.428.731.4
StereoMIS‑P1SSIM ↑ 0.71 → 0.840.710.84
  • 几何漂移 大幅降低;即使在长视频序列后,重建表面仍忠实于真实解剖结构。
  • 时间一致性 提升视觉连贯性:移动的手术器械和组织变形呈现平滑无抖动。
  • 计算效率:关键帧约束的流式处理相比完整帧 4DGS 将训练时间缩短约 35 %,且保持在 2 M 点预算内。

实际意义

  • 实时导航辅助 – 外科医生可在微创手术过程中实时获取腔道的三维重建,提升空间定位能力。
  • 自动化工具追踪 – 时间稳定的几何图谱为后续姿态估计或分割模块(如机器人辅助手术)提供更可靠的基础。
  • 数据集生成 – 高质量的四维重建可作为 AI 模型(如息肉检测)的真值数据,无需昂贵的术中 CT 扫描。
  • 硬件友好 – 流式方法可在单块 RTX‑3080 级别 GPU 上运行,降低在现有手术室成像系统中集成的门槛。

局限性与未来工作

  • 该方法仍依赖预训练的单目深度估计器;在低纹理或严重遮挡区域的误差即使经过置信度门控仍可能传播。
  • 基于转子的运动建模假设变形相对平滑;突发的组织撕裂或快速器械插入可能需要更具表现力的动力学模型。
  • 未来研究方向包括 自监督深度细化自适应点数预算分配,以及将流水线扩展至 多摄像头内镜系统,以实现更丰富的四维捕获。

作者

  • Yangle Liu
  • Fengze Li
  • Kan Liu
  • Jieming Ma

论文信息

  • arXiv ID: 2511.21367v1
  • 分类: cs.CV
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »