[Paper] 2D/3D Registration Loss를 이용한 골반 형광투시에서 향상된 랜드마크 검출 모델

발행: 2개월 전 (2025년 11월 27일 오전 01:50 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2511.21575v1

Overview

이 논문은 컴퓨터 보조 정형외과 수술에서 실제로 마주치는 문제, 즉 X‑ray 시야가 완벽히 정렬되지 않은 골반 플루오로스코피 영상에서 해부학적 랜드마크를 자동으로 찾는 과제를 다룹니다. 2D/3D 등록 손실을 기존 U‑Net 검출기에 결합함으로써, 환자나 C‑arm이 회전했을 때도 랜드마크 정확도가 높게 유지된다는 것을 보여줍니다—이는 현재 모델들이 어려워하는 부분입니다.

Key Contributions

Hybrid training loss: 예측된 2D 랜드마크와 3D 공간에 투영된 실제 3D 랜드마크 사이의 불일치를 벌점으로 주는 Pose‑Estimation Loss를 도입했습니다.
Robust U‑Net pipeline: 새로운 손실을 적용해 표준 U‑Net 랜드마크 예측기를 확장했으며, 임의의 골반 방향에도 적응하는 모델을 만들었습니다.
Comprehensive evaluation: 세 가지 설정—기본 U‑Net, 처음부터 Pose‑Loss와 함께 학습한 U‑Net, Pose‑Loss로 미세 튜닝한 U‑Net—을 시뮬레이션된 수술 중 자세 변동 하에서 벤치마크했습니다.
Open‑source potential: 손실 공식, 데이터 증강, 등록 파이프라인 등 구현 세부 정보를 충분히 제공하여 재현성과 기존 수술 내비게이션 스택에의 통합을 가능하게 했습니다.

Methodology

Data preparation
- 3‑D 골반 CT 스캔을 다양한 회전(피치, 요, 롤 ±30°)을 포함한 합성 2‑D 플루오로스코픽 투영과 짝지었습니다.
- 실제 3‑D 랜드마크 좌표는 알려져 있으며, 이들의 2‑D 투영이 학습 목표가 됩니다.
Base model
- 기본적인 U‑Net이 단일 플루오로스코픽 프레임을 입력받아 각 랜드마크에 대한 히트맵을 출력합니다.
Pose‑Estimation Loss
- U‑Net이 2‑D 히트맵을 예측하면, 피크 위치를 추출합니다.
- 이 2‑D 점들을 알려진 영상 기하학을 이용해 3‑D 공간으로 역투영하여 추정된 3‑D 자세를 얻습니다.
- 손실은 다음을 결합합니다:
  - Heatmap regression loss (예측 히트맵과 실제 히트맵 사이의 L2)
  - Registration loss (현재 자세를 적용한 후 추정 3‑D 랜드마크와 실제 3‑D 랜드마크 사이의 L2)
- 등록 항목은 3‑D 공간에서의 불일치를 직접 벌점으로 주어 네트워크가 자세에 불변한 특징을 학습하도록 강제합니다.
Training regimes
- Baseline: 히트맵 손실만으로 학습한 U‑Net.
- From‑scratch Pose: 동일한 아키텍처에 결합 손실을 0 epoch부터 적용.
- Fine‑tuned Pose: 기본 모델을 몇 epoch 동안 결합 손실로 추가 학습.
Evaluation
- 무작위 자세를 가진 테스트 셋에서 예측된 2‑D 랜드마크와 실제 랜드마크 사이의 평균 유클리드 거리(MED)를 측정.
- 임상적으로 의미 있는 오류 임계값(≤ 2 mm) 이하의 성공률을 보고.

Results & Findings

Model	MED (mm)	% ≤ 2 mm
Baseline U‑Net	3.9	68%
U‑Net + Pose‑Loss (scratch)	2.7	81%
U‑Net fine‑tuned with Pose‑Loss	2.5	84%

등록 손실을 추가하면 평균 랜드마크 오류가 기존 대비 약 35 % 감소합니다.
미세 튜닝이 가장 좋은 균형을 제공하는데, 기존에 학습된 시각적 특징을 유지하면서 자세 강인성을 얻습니다.
정성적 시각화에서는 골반이 30° 기울어졌을 때도 모델이 정확히 랜드마크를 추적하는 반면, 기본 모델은 종종 흐트러지거나 붕괴합니다.

Practical Implications

Surgical navigation: 외과의는 C‑arm을 재정렬하기 위해 작업을 멈출 필요 없이 자동 랜드마크에 의존할 수 있어 수술 시간과 방사선 노출을 줄일 수 있습니다.
Software integration: 손실 함수는 프레임워크에 구애받지 않으며(PyTorch/TensorFlow 구현), OR 내비게이션 스위트에서 사용되는 기존 U‑Net 기반 파이프라인에 손쉽게 삽입할 수 있습니다.
Generalization: 동일한 2D/3D 등록 손실을 척추, 무릎 등 다른 해부 부위에도 적용할 수 있어, 수술 중 시야 변동이 흔한 경우에 활용 가능합니다.
Edge devices: 기본 모델이 경량 U‑Net이므로 GPU 가속 워크스테이션은 물론, 실시간 피드백을 제공하는 온‑디바이스 추론 카드에서도 실행이 가능합니다.

Limitations & Future Work

Synthetic pose distribution: 연구가 시뮬레이션된 플루오로스코픽 각도에 의존하고 있어, 실제 데이터에서는 환자 움직임이나 금속 아티팩트 등 더 복잡한 왜곡이 발생할 수 있습니다.
Single‑view assumption: 현재는 한 번에 하나의 플루오로스코픽 이미지만 처리하므로, 다중 뷰 융합을 도입하면 정확도가 더욱 향상될 수 있습니다.
Calibration dependency: 정확한 2D/3D 등록을 위해서는 영상 기하학에 대한 정밀한 사전 지식이 필요하지만, 실제 OR에서는 이 정보가 변동될 수 있습니다. 향후 작업에서는 자체 보정이나 학습 가능한 투영 모델을 고려할 예정입니다.
Clinical validation: 저자들은 오류 감소가 실제 워크플로우 개선으로 이어지는지를 확인하기 위해 실시간 수술에서의 전향적 임상 시험을 계획하고 있습니다.

Authors

Chou Mo
Yehyun Suh
J. Ryan Martin
Daniel Moyer

Paper Information

arXiv ID: 2511.21575v1
Categories: cs.CV
Published: November 26, 2025
PDF: Download PDF

[Paper] 2D/3D Registration Loss를 이용한 골반 형광투시에서 향상된 랜드마크 검출 모델

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 딥러닝 기반 구강 병변 다중 클래스 분류와 계층화 증강

AI 에이전트가 블록체인 스마트 계약 취약점에서 $4.6M 발견

Apple AI 최고 책임자, Siri 문제 이후 사임

Apple AI 책임자, Siri 실패 이후 퇴임