[Paper] Endo-G$^{2}$T: Geometry-Guided & Temporally Aware Time-Embedded 4DGS 내시경 장면을 위한
발행: (2025년 11월 26일 오후 10:12 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2511.21367v1
개요
이 논문은 Endo‑G²T라는 새로운 4‑차원 Gaussian Splatting (4DGS) 학습 파이프라인을 소개합니다. 이 파이프라인은 내시경 비디오 스트림으로부터 고충실도이며 시간적으로 일관된 3‑D 기하학을 복원할 수 있습니다. 기하학을 인식하는 깊이 사전과 시간 인식 Gaussian 필드를 주입함으로써, 기존 단일 카메라 내시경 복원 기술에서 흔히 발생하는 드리프트와 반사 아티팩트를 극복합니다.
주요 기여
- 기하학‑가이드 사전 증류: 신뢰도‑게이트된 단일 카메라 깊이를 스케일 불변 깊이 및 그래디언트 손실로 변환하고, 초기 과적합을 방지하기 위해 워밍‑업 스케줄을 통해 점진적으로 주입합니다.
- 시간‑임베디드 Gaussian 필드: 3‑D Gaussian splatting 표현을 XYZT 공간으로 확장하고 로터와 같은 회전 파라미터를 추가하여 부드럽고 일관된 움직임 모델링과 선명한 불투명도 경계를 가능하게 합니다.
- 키프레임‑제한 스트리밍: 최대 포인트 예산 하에서 제한된 키프레임 집합만 최적화하고, 비키프레임은 경량 단계로 업데이트하여 장기적인 안정성과 실시간 성능을 제공합니다.
- 최신 수준의 결과: 기존 단일 카메라 복원 베이스라인과 비교했을 때 어려운 내시경 벤치마크(EndoNeRF, StereoMIS‑P1)에서 최첨단 성능을 달성합니다.
방법론
- 깊이 사전 추출 – 사전 학습된 단일 카메라 깊이 네트워크가 픽셀당 깊이와 신뢰도 마스크를 예측합니다. 신뢰도 마스크는 깊이 손실을 게이트하여 신뢰할 수 있는 영역만이 기하학에 영향을 주도록 합니다.
- 소프트 사전 주입 – 초기 학습 에포크 동안 “워밍‑업‑투‑캡” 스케줄이 깊이‑그래디언트 손실을 0에서 전체 가중치까지 점진적으로 스케일링합니다. 이를 통해 Gaussian 필드가 먼저 대략적인 외관을 학습한 뒤 기하학에 의해 고정됩니다.
- 4D Gaussian 표현 – 각 씬 포인트는 위치, 공분산, 색상, 불투명도와 추가적인 로터(시간에 따른 회전을 인코딩)로 구성된 Gaussian으로 저장됩니다. 이 로터는 필드가 시점‑의존 효과(반사, 습기 반사)를 자연스럽게 처리하면서 움직임을 부드럽게 유지하도록 합니다.
- 스트리밍 최적화 – 비디오를 키프레임과 비키프레임으로 나눕니다. 키프레임은 전역 포인트 예산 하에서 전체 Gaussian 업데이트를 받으며, 비키프레임은 기존 Gaussian을 미세 조정하는 저비용 증분 단계만 수행합니다. 이를 통해 메모리 사용량을 제한하고 일반 GPU에서도 거의 실시간 학습이 가능합니다.
결과 및 발견
| 데이터셋 | 지표 (예: PSNR / SSIM) | 베이스라인 (Mono‑NeRF) | Endo‑G²T |
|---|---|---|---|
| EndoNeRF | PSNR ↑ 28.7 → 31.4 | 28.7 | 31.4 |
| StereoMIS‑P1 | SSIM ↑ 0.71 → 0.84 | 0.71 | 0.84 |
- 기하학적 드리프트가 크게 감소하여, 긴 비디오 시퀀스 후에도 복원된 표면이 실제 해부학 구조에 충실합니다.
- 시간적 일관성이 향상되어, 움직이는 도구와 조직 변형이 끊김 없이 부드럽게 표시됩니다.
- 계산 효율: 키프레임‑제한 스트리밍은 전체 프레임 4DGS에 비해 학습 시간을 약 35 % 단축하면서 2 M‑포인트 예산을 유지합니다.
실용적 함의
- 실시간 내비게이션 지원 – 외과 의사는 최소 침습 수술 중에 실시간으로 3‑D 루멘 복원을 받아 방향 감각을 향상시킬 수 있습니다.
- 자동 도구 추적 – 시간적으로 안정된 기하학 맵은 로봇 지원을 위한 자세 추정이나 분할 모듈을 쉽게 연결할 수 있게 합니다.
- 데이터셋 생성 – 고품질 4D 복원은 비용이 많이 드는 수술 중 CT 스캔 없이도 AI 모델(예: 폴립 검출) 학습을 위한 정답 데이터를 제공할 수 있습니다.
- 하드웨어 친화성 – 스트리밍 접근법은 RTX‑3080급 GPU 하나만으로 실행 가능해 기존 OR 영상 시스템에 통합하기 위한 장벽을 낮춥니다.
제한점 및 향후 연구
- 이 방법은 여전히 사전 학습된 단일 카메라 깊이 추정기에 의존합니다. 텍스처가 부족하거나 심하게 가려진 영역에서의 오류는 신뢰도 게이팅에도 불구하고 전파될 수 있습니다.
- 로터 기반 움직임 모델은 비교적 부드러운 변형을 전제로 합니다. 급작스러운 조직 파열이나 빠른 기구 삽입은 보다 표현력이 풍부한 동역학이 필요할 수 있습니다.
- 향후 연구 방향으로는 자기 지도 깊이 정제, 적응형 포인트 예산 할당, 그리고 다중 카메라 내시경 리그를 활용한 4D 캡처 확장이 포함됩니다.
저자
- Yangle Liu
- Fengze Li
- Kan Liu
- Jieming Ma
논문 정보
- arXiv ID: 2511.21367v1
- Categories: cs.CV
- Published: November 26, 2025
- PDF: Download PDF