[Paper] 2D/3D Registration Loss를 이용한 골반 형광투시에서 향상된 랜드마크 검출 모델

발행: (2025년 11월 27일 오전 01:50 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2511.21575v1

Overview

이 논문은 컴퓨터 보조 정형외과 수술에서 실제로 마주치는 문제, 즉 X‑ray 시야가 완벽히 정렬되지 않은 골반 플루오로스코피 영상에서 해부학적 랜드마크를 자동으로 찾는 과제를 다룹니다. 2D/3D 등록 손실을 기존 U‑Net 검출기에 결합함으로써, 환자나 C‑arm이 회전했을 때도 랜드마크 정확도가 높게 유지된다는 것을 보여줍니다—이는 현재 모델들이 어려워하는 부분입니다.

Key Contributions

  • Hybrid training loss: 예측된 2D 랜드마크와 3D 공간에 투영된 실제 3D 랜드마크 사이의 불일치를 벌점으로 주는 Pose‑Estimation Loss를 도입했습니다.
  • Robust U‑Net pipeline: 새로운 손실을 적용해 표준 U‑Net 랜드마크 예측기를 확장했으며, 임의의 골반 방향에도 적응하는 모델을 만들었습니다.
  • Comprehensive evaluation: 세 가지 설정—기본 U‑Net, 처음부터 Pose‑Loss와 함께 학습한 U‑Net, Pose‑Loss로 미세 튜닝한 U‑Net—을 시뮬레이션된 수술 중 자세 변동 하에서 벤치마크했습니다.
  • Open‑source potential: 손실 공식, 데이터 증강, 등록 파이프라인 등 구현 세부 정보를 충분히 제공하여 재현성과 기존 수술 내비게이션 스택에의 통합을 가능하게 했습니다.

Methodology

  1. Data preparation

    • 3‑D 골반 CT 스캔을 다양한 회전(피치, 요, 롤 ±30°)을 포함한 합성 2‑D 플루오로스코픽 투영과 짝지었습니다.
    • 실제 3‑D 랜드마크 좌표는 알려져 있으며, 이들의 2‑D 투영이 학습 목표가 됩니다.
  2. Base model

    • 기본적인 U‑Net이 단일 플루오로스코픽 프레임을 입력받아 각 랜드마크에 대한 히트맵을 출력합니다.
  3. Pose‑Estimation Loss

    • U‑Net이 2‑D 히트맵을 예측하면, 피크 위치를 추출합니다.
    • 이 2‑D 점들을 알려진 영상 기하학을 이용해 3‑D 공간으로 역투영하여 추정된 3‑D 자세를 얻습니다.
    • 손실은 다음을 결합합니다:
      • Heatmap regression loss (예측 히트맵과 실제 히트맵 사이의 L2)
      • Registration loss (현재 자세를 적용한 후 추정 3‑D 랜드마크와 실제 3‑D 랜드마크 사이의 L2)
    • 등록 항목은 3‑D 공간에서의 불일치를 직접 벌점으로 주어 네트워크가 자세에 불변한 특징을 학습하도록 강제합니다.
  4. Training regimes

    • Baseline: 히트맵 손실만으로 학습한 U‑Net.
    • From‑scratch Pose: 동일한 아키텍처에 결합 손실을 0 epoch부터 적용.
    • Fine‑tuned Pose: 기본 모델을 몇 epoch 동안 결합 손실로 추가 학습.
  5. Evaluation

    • 무작위 자세를 가진 테스트 셋에서 예측된 2‑D 랜드마크와 실제 랜드마크 사이의 평균 유클리드 거리(MED)를 측정.
    • 임상적으로 의미 있는 오류 임계값(≤ 2 mm) 이하의 성공률을 보고.

Results & Findings

ModelMED (mm)% ≤ 2 mm
Baseline U‑Net3.968%
U‑Net + Pose‑Loss (scratch)2.781%
U‑Net fine‑tuned with Pose‑Loss2.584%
  • 등록 손실을 추가하면 평균 랜드마크 오류가 기존 대비 약 35 % 감소합니다.
  • 미세 튜닝이 가장 좋은 균형을 제공하는데, 기존에 학습된 시각적 특징을 유지하면서 자세 강인성을 얻습니다.
  • 정성적 시각화에서는 골반이 30° 기울어졌을 때도 모델이 정확히 랜드마크를 추적하는 반면, 기본 모델은 종종 흐트러지거나 붕괴합니다.

Practical Implications

  • Surgical navigation: 외과의는 C‑arm을 재정렬하기 위해 작업을 멈출 필요 없이 자동 랜드마크에 의존할 수 있어 수술 시간과 방사선 노출을 줄일 수 있습니다.
  • Software integration: 손실 함수는 프레임워크에 구애받지 않으며(PyTorch/TensorFlow 구현), OR 내비게이션 스위트에서 사용되는 기존 U‑Net 기반 파이프라인에 손쉽게 삽입할 수 있습니다.
  • Generalization: 동일한 2D/3D 등록 손실을 척추, 무릎 등 다른 해부 부위에도 적용할 수 있어, 수술 중 시야 변동이 흔한 경우에 활용 가능합니​다.
  • Edge devices: 기본 모델이 경량 U‑Net이므로 GPU 가속 워크스테이션은 물론, 실시간 피드백을 제공하는 온‑디바이스 추론 카드에서도 실행이 가능합니다.

Limitations & Future Work

  • Synthetic pose distribution: 연구가 시뮬레이션된 플루오로스코픽 각도에 의존하고 있어, 실제 데이터에서는 환자 움직임이나 금속 아티팩트 등 더 복잡한 왜곡이 발생할 수 있습니다.
  • Single‑view assumption: 현재는 한 번에 하나의 플루오로스코픽 이미지만 처리하므로, 다중 뷰 융합을 도입하면 정확도가 더욱 향상될 수 있습니다.
  • Calibration dependency: 정확한 2D/3D 등록을 위해서는 영상 기하학에 대한 정밀한 사전 지식이 필요하지만, 실제 OR에서는 이 정보가 변동될 수 있습니다. 향후 작업에서는 자체 보정이나 학습 가능한 투영 모델을 고려할 예정입니다.
  • Clinical validation: 저자들은 오류 감소가 실제 워크플로우 개선으로 이어지는지를 확인하기 위해 실시간 수술에서의 전향적 임상 시험을 계획하고 있습니다.

Authors

  • Chou Mo
  • Yehyun Suh
  • J. Ryan Martin
  • Daniel Moyer

Paper Information

  • arXiv ID: 2511.21575v1
  • Categories: cs.CV
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »