[Paper] 2D/3D Registration Loss를 이용한 골반 형광투시에서 향상된 랜드마크 검출 모델
발행: (2025년 11월 27일 오전 01:50 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2511.21575v1
Overview
이 논문은 컴퓨터 보조 정형외과 수술에서 실제로 마주치는 문제, 즉 X‑ray 시야가 완벽히 정렬되지 않은 골반 플루오로스코피 영상에서 해부학적 랜드마크를 자동으로 찾는 과제를 다룹니다. 2D/3D 등록 손실을 기존 U‑Net 검출기에 결합함으로써, 환자나 C‑arm이 회전했을 때도 랜드마크 정확도가 높게 유지된다는 것을 보여줍니다—이는 현재 모델들이 어려워하는 부분입니다.
Key Contributions
- Hybrid training loss: 예측된 2D 랜드마크와 3D 공간에 투영된 실제 3D 랜드마크 사이의 불일치를 벌점으로 주는 Pose‑Estimation Loss를 도입했습니다.
- Robust U‑Net pipeline: 새로운 손실을 적용해 표준 U‑Net 랜드마크 예측기를 확장했으며, 임의의 골반 방향에도 적응하는 모델을 만들었습니다.
- Comprehensive evaluation: 세 가지 설정—기본 U‑Net, 처음부터 Pose‑Loss와 함께 학습한 U‑Net, Pose‑Loss로 미세 튜닝한 U‑Net—을 시뮬레이션된 수술 중 자세 변동 하에서 벤치마크했습니다.
- Open‑source potential: 손실 공식, 데이터 증강, 등록 파이프라인 등 구현 세부 정보를 충분히 제공하여 재현성과 기존 수술 내비게이션 스택에의 통합을 가능하게 했습니다.
Methodology
-
Data preparation
- 3‑D 골반 CT 스캔을 다양한 회전(피치, 요, 롤 ±30°)을 포함한 합성 2‑D 플루오로스코픽 투영과 짝지었습니다.
- 실제 3‑D 랜드마크 좌표는 알려져 있으며, 이들의 2‑D 투영이 학습 목표가 됩니다.
-
Base model
- 기본적인 U‑Net이 단일 플루오로스코픽 프레임을 입력받아 각 랜드마크에 대한 히트맵을 출력합니다.
-
Pose‑Estimation Loss
- U‑Net이 2‑D 히트맵을 예측하면, 피크 위치를 추출합니다.
- 이 2‑D 점들을 알려진 영상 기하학을 이용해 3‑D 공간으로 역투영하여 추정된 3‑D 자세를 얻습니다.
- 손실은 다음을 결합합니다:
- Heatmap regression loss (예측 히트맵과 실제 히트맵 사이의 L2)
- Registration loss (현재 자세를 적용한 후 추정 3‑D 랜드마크와 실제 3‑D 랜드마크 사이의 L2)
- 등록 항목은 3‑D 공간에서의 불일치를 직접 벌점으로 주어 네트워크가 자세에 불변한 특징을 학습하도록 강제합니다.
-
Training regimes
- Baseline: 히트맵 손실만으로 학습한 U‑Net.
- From‑scratch Pose: 동일한 아키텍처에 결합 손실을 0 epoch부터 적용.
- Fine‑tuned Pose: 기본 모델을 몇 epoch 동안 결합 손실로 추가 학습.
-
Evaluation
- 무작위 자세를 가진 테스트 셋에서 예측된 2‑D 랜드마크와 실제 랜드마크 사이의 평균 유클리드 거리(MED)를 측정.
- 임상적으로 의미 있는 오류 임계값(≤ 2 mm) 이하의 성공률을 보고.
Results & Findings
| Model | MED (mm) | % ≤ 2 mm |
|---|---|---|
| Baseline U‑Net | 3.9 | 68% |
| U‑Net + Pose‑Loss (scratch) | 2.7 | 81% |
| U‑Net fine‑tuned with Pose‑Loss | 2.5 | 84% |
- 등록 손실을 추가하면 평균 랜드마크 오류가 기존 대비 약 35 % 감소합니다.
- 미세 튜닝이 가장 좋은 균형을 제공하는데, 기존에 학습된 시각적 특징을 유지하면서 자세 강인성을 얻습니다.
- 정성적 시각화에서는 골반이 30° 기울어졌을 때도 모델이 정확히 랜드마크를 추적하는 반면, 기본 모델은 종종 흐트러지거나 붕괴합니다.
Practical Implications
- Surgical navigation: 외과의는 C‑arm을 재정렬하기 위해 작업을 멈출 필요 없이 자동 랜드마크에 의존할 수 있어 수술 시간과 방사선 노출을 줄일 수 있습니다.
- Software integration: 손실 함수는 프레임워크에 구애받지 않으며(PyTorch/TensorFlow 구현), OR 내비게이션 스위트에서 사용되는 기존 U‑Net 기반 파이프라인에 손쉽게 삽입할 수 있습니다.
- Generalization: 동일한 2D/3D 등록 손실을 척추, 무릎 등 다른 해부 부위에도 적용할 수 있어, 수술 중 시야 변동이 흔한 경우에 활용 가능합니다.
- Edge devices: 기본 모델이 경량 U‑Net이므로 GPU 가속 워크스테이션은 물론, 실시간 피드백을 제공하는 온‑디바이스 추론 카드에서도 실행이 가능합니다.
Limitations & Future Work
- Synthetic pose distribution: 연구가 시뮬레이션된 플루오로스코픽 각도에 의존하고 있어, 실제 데이터에서는 환자 움직임이나 금속 아티팩트 등 더 복잡한 왜곡이 발생할 수 있습니다.
- Single‑view assumption: 현재는 한 번에 하나의 플루오로스코픽 이미지만 처리하므로, 다중 뷰 융합을 도입하면 정확도가 더욱 향상될 수 있습니다.
- Calibration dependency: 정확한 2D/3D 등록을 위해서는 영상 기하학에 대한 정밀한 사전 지식이 필요하지만, 실제 OR에서는 이 정보가 변동될 수 있습니다. 향후 작업에서는 자체 보정이나 학습 가능한 투영 모델을 고려할 예정입니다.
- Clinical validation: 저자들은 오류 감소가 실제 워크플로우 개선으로 이어지는지를 확인하기 위해 실시간 수술에서의 전향적 임상 시험을 계획하고 있습니다.
Authors
- Chou Mo
- Yehyun Suh
- J. Ryan Martin
- Daniel Moyer
Paper Information
- arXiv ID: 2511.21575v1
- Categories: cs.CV
- Published: November 26, 2025
- PDF: Download PDF