[논문] EasyLens: 훈련 없이 바로 적용 가능한 의료 비전‑언어 모델용 미세 병변 표현 강화기
개요
의료 비전‑언어 모델(VLM)은 병변 탐지와 보고서 생성 등 임상 영상 해석에서 점점 더 큰 잠재력을 보여주고 있습니다. 그러나 실제 활용도는 미세한 병변에 대한 민감도가 부족한 점 때문에 제한됩니다. 이러한 미세 병변은 시각적 증거가 희박하고 저대조도이며 복잡한 해부학적 배경에 얽혀 있는 경우가 많습니다. 로컬 비주얼 토큰이 집계되면서 이러한 약한 병변 신호는 전역 이미지 표현에서 충분히 반영되지 않아 의료 VLM이 인식하기 어렵게 됩니다. 기존의 병변 민감도 향상 방법은 주로 의료 분야 비전 인코더 사전 학습, 임상 용어 기반 정렬, 혹은 학습 가능한 병리학적 표현 강화에 의존합니다. 이러한 접근은 효과적이지만 추가 학습이나 모델 특화 적응이 필요하고 특정 질병 형태에 과적합될 위험이 있어, 고정된 의료 VLM에 적용하기 어렵습니다. 이러한 한계를 극복하기 위해 우리는 EasyLens를 제안합니다. EasyLens는 훈련이 필요 없는 플러그‑인 방식의 미세 병변 표현 증폭기이며, 의료 VLM에 바로 적용할 수 있습니다. EasyLens는 먼저 병리‑해부학 프로토타입 공간인 EasyBank를 구축하여 병변 관련 프로토타입과 해부학적으로 정상인 레퍼런스를 제공하고, 의심스러운 패치를 병리적 패턴과 정상 해부학적 패턴 모두와 비교합니다. 정상 조직을 무분별하게 증폭하지 않기 위해 EasyTag는 반사실(counterfactual) 프로토타입 추론을 통해 병변과 관련된 패치를 선택합니다. 전역 이미지 표현에서 미세 병변 신호가 희석되는 문제를 해결하기 위해 EasyAmplifier는 형태학적으로 안내된 잔차 강화 방식을 사용해 선택된 병변 관련 패치 표현을 강화하고, 이를 전역 이미지 임베딩에 더 크게 기여하도록 합니다. 여러 의료 영상 데이터셋과 고정된 의료 VLM 백본에 대한 실험 결과, EasyLens는 미세 병변 탐지 성능을 향상시키고 기존 인코더 강화 기반 베이스라인을 능가함을 보여줍니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.CV
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CV 분야의 발전에 기여합니다.
저자
- Qiwei Zeng
- Hao Wang
- Jinghao Lin
- Shuchang Ye
- Yuezhe Yang
- Yige Peng
- Haoyuan Che
- Jinman Kim
- Lei Bi
논문 정보
- arXiv ID: 2606.06379v1
- 분류: cs.CV, cs.AI
- 발표일: 2026년 6월 4일
- PDF: PDF 다운로드