[논문] FADA: 선택적으로 증류된 통합 비전‑언어 모델을 통한 접근 가능한 태아 초음파 해석 및 주석
Overview
전 세계적으로 훈련된 초음파 검진사가 부족하여 저소득 및 중소득 국가에서는 임신부 절반 이상이 숙련된 초음파 검진을 받지 못하고 있습니다. 현재 딥러닝 접근법은 탐지, 분할, 분류를 각각 별도로 다루며, 추론 시 각각 별도의 모델과 전문가가 지정한 라벨이 필요합니다. 우리는 Qwen3.5‑VL을 기반으로 구축된 통합 비전‑언어 모델인 FADA를 제시합니다. 이 모델은 외부 라벨 없이 단일 ‘해석 우선’ 파이프라인을 통해 임상 해석, 분류, 탐지, 분할을 수행합니다. FADA는 오프라인 사전 계산된 특징 캐싱을 통해 네 개의 도메인 특화 기반 모델(FetalCLIP, UltraSAM, USF‑MAE, UltraFedFM)로부터 지식을 증류합니다. 선택적 증류는 주석 작업에만 특징 정렬을 적용하고 해석은 표준 파인튜닝에 의존하는데, 이는 대부분의 평가 항목에서 전체 증류보다 일관되게 우수한 성능을 보입니다. 추천 변형인 FADA‑SKD는 분할에서 평균 Dice 0.8820, 탐지에서 mAP@0.50 0.7671, 구조화된 해석 준수율 100%를 달성했습니다. 전문 초음파 검진사에 의한 237장의 이미지 검증 결과, 자동 모드와 인간‑인‑루프 모드 모두에서 임상적으로 허용 가능한 결과가 확인되었으며, 해석 중 73.5%가 임상의 지도 하에 완벽한 점수를 받았습니다. 이 시스템은 일반 소비자용 GPU 하나만으로 학습이 가능하고 클라우드 연결 없이 배포할 수 있습니다. 우리는 압축된 0.8 B 모델을 일반 스마트폰(Qualcomm Snapdragon 7 Gen 1, 12 GB RAM)에서 llama.cpp와 GGUF 양자화를 이용해 실행함으로써 엣지 배포를 검증했으며, 전체 5단계 파이프라인을 완전히 오프라인으로 약 60초 내에 완료했습니다. 이는 AI 지원 태아 평가를 휴대용 초음파 장치와 통합하기 위한 실용적인 경로를 제시하며, 자원 제한 환경에서의 진단 접근성 격차를 직접 해소합니다. 코드, 모델, 데이터는 https://github.com/mahmoodphd/FADA 에서 확인할 수 있습니다.
Key Contributions
이 논문은 다음 분야의 연구를 제시합니다:
- cs.CV
- cs.AI
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.CV 분야의 발전에 기여합니다.
Authors
- Mahmood Alzubaidi
- Uzair Shah
- Raden Muaz
- Ines Abbes
- Nader Mohammed
- Abdullatif Magram
- Khalid Alyafei
- Mowafa Househ
- Marco Agus
Paper Information
- arXiv ID: 2606.11106v1
- Categories: cs.CV, cs.AI
- Published: 2026년 6월 9일
- PDF: PDF 다운로드