[Paper] NeRFscopy：Neural Radiance Fields 用于体内时变组织的内镜成像

发布: 3天前 (2026年2月18日 GMT+8 02:05)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.15775v1

Overview

本文介绍了 NeRFscopy，一个自监督管线，将神经辐射场（NeRF）引入内镜领域。通过将单摄像头拍摄的软组织运动视频转换为可控的 3‑D 模型，作者旨在为临床医生和外科医生提供更丰富的视觉提示，同时保持硬件需求最小化。

关键贡献

可变形 NeRF 用于医学视频 – 将经典的静态场景 NeRF 公式扩展为随时间变化的变形场，实现连续移动组织的重建。
基于 SE(3) 的变形参数化 – 使用一系列 6‑DoF 刚体变换来建模局部组织运动，使优化保持可处理且可解释。
完全自监督学习 – 不需要预训练模型、模板或外部标记；系统直接从原始内镜视频中学习。
鲁棒的颜色一致性损失 – 新颖的光度项，处理内镜光照变化和高光等典型问题。
最先进的视图合成 – 在多个具有挑战性的体内数据集上，与现有动态场景 NeRF 和传统 SLAM 基线相比，展示了更优的全新视角渲染质量。

方法论

Canonical radiance field – 流程首先学习一个静态的 NeRF，用于在“规范”姿态（即未变形的参考坐标系）下表示组织。
Deformation field – 对于每个视频帧，单独的 SE(3) 变换场将点从规范空间映射到观测姿态，捕获全局相机运动和局部组织变形。
Self‑supervision – 通过将扭曲后的辐射场重新渲染回图像平面并与实际视频帧进行比较来训练模型。损失包括：
- Photometric loss – 像素级颜色差异，针对高光进行了鲁棒化处理。
- Temporal smoothness – 对连续帧之间的 SE(3) 参数的突变进行惩罚。
- Depth‑consistency regularisation – 在没有深度传感器的情况下，鼓励合理的几何结构。
Optimization loop – 在更新规范 NeRF 权重（多层 MLP）和使用梯度下降在组合损失上细化每帧 SE(3) 参数之间交替进行。

整个流水线在单个 GPU 上运行，仅需单目视频作为输入，使其能够在现有内镜设备上实际使用。

结果与发现

新视角合成 – 定量指标（PSNR，SSIM）相比公开发布的结肠镜数据集上最佳竞争的 dynamic‑NeRF 方法提升了 15‑25 %。
几何保真度 – 重建表面捕捉到细微的黏膜褶皱和蠕动，已通过与有限的术中光流真实值进行验证。
对光照的鲁棒性 – 颜色一致性项能够成功处理内镜移动光源导致的快速光照变化。
速度 – 训练后（在 RTX 3090 上约 30 分钟，针对 10 秒片段），渲染新视角耗时 < 0.1 秒，实现近实时预览。

实际意义

增强的术中导航 – 外科医生可以实时查询组织的任意视角，帮助发现隐藏在褶皱后的病变。
改进的诊断成像 – 放射科医生可以从常规内镜记录中生成三维重建，无需额外硬件，有助于病变的测量和记录。
培训与仿真 – 高保真、针对患者的虚拟内镜环境变得可行，支持技能获取和术前演练。
与 AI 流程的集成 – 隐式的三维表示可以作为下游任务的通用骨干，如息肉检测、组织分类或机器人工具路径规划。

限制与未来工作

刚体变形模型 – SE(3) 只能捕捉局部刚性运动；高度弹性变形（例如极端蠕动）可能表现不足。
扩展到长时间手术 – 随着视频长度的增加，训练时间线性增长；未来工作可以探索分层或流式 NeRF 更新。
临床验证 – 目前实验仅限于离体模型和少量体内数据集；需要更大规模的多中心研究来评估诊断影响。
硬件限制 – 虽然不需要额外传感器，但在标准手术室工作站上实现实时部署仍需进一步优化或模型压缩。

NeRFscopy 为将日常内镜影像转化为交互式 3‑D 模型开辟了有前景的道路，弥合了前沿神经渲染研究与实用医学成像工具之间的差距。

作者

Laura Salort-Benejam
Antonio Agudo

论文信息

arXiv ID: 2602.15775v1
分类: cs.CV
发表时间: 2026年2月17日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

近期在 multimodal reasoning 方面的进展使得能够解释 imagery、将其与 language 连接并执行 structured analytical tasks 的 agents 成为可能。Extend...

[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合，但在实践中往往未能忠实地遵循语言。当 pr...

人类水平的 3D 形状感知源于多视图学习

人类可以从二维 visual inputs 中推断出物体的 three-dimensional 结构。对这种能力的建模一直是科学界的长期目标。

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

Black-box 对抗攻击在大型视觉语言模型（LVLMs）上具有挑战性，因为缺少梯度且多模态边界复杂。虽然先前的研究…