[논문] EasyLens: 훈련 없이 바로 적용 가능한 의료 비전‑언어 모델용 미세 병변 표현 강화기

발행: 6일 전 (2026년 6월 5일 AM 01:47 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.06379v1

개요

의료 비전‑언어 모델(VLM)은 병변 탐지와 보고서 생성 등 임상 영상 해석에서 점점 더 큰 잠재력을 보여주고 있습니다. 그러나 실제 활용도는 미세한 병변에 대한 민감도가 부족한 점 때문에 제한됩니다. 이러한 미세 병변은 시각적 증거가 희박하고 저대조도이며 복잡한 해부학적 배경에 얽혀 있는 경우가 많습니다. 로컬 비주얼 토큰이 집계되면서 이러한 약한 병변 신호는 전역 이미지 표현에서 충분히 반영되지 않아 의료 VLM이 인식하기 어렵게 됩니다. 기존의 병변 민감도 향상 방법은 주로 의료 분야 비전 인코더 사전 학습, 임상 용어 기반 정렬, 혹은 학습 가능한 병리학적 표현 강화에 의존합니다. 이러한 접근은 효과적이지만 추가 학습이나 모델 특화 적응이 필요하고 특정 질병 형태에 과적합될 위험이 있어, 고정된 의료 VLM에 적용하기 어렵습니다. 이러한 한계를 극복하기 위해 우리는 EasyLens를 제안합니다. EasyLens는 훈련이 필요 없는 플러그‑인 방식의 미세 병변 표현 증폭기이며, 의료 VLM에 바로 적용할 수 있습니다. EasyLens는 먼저 병리‑해부학 프로토타입 공간인 EasyBank를 구축하여 병변 관련 프로토타입과 해부학적으로 정상인 레퍼런스를 제공하고, 의심스러운 패치를 병리적 패턴과 정상 해부학적 패턴 모두와 비교합니다. 정상 조직을 무분별하게 증폭하지 않기 위해 EasyTag는 반사실(counterfactual) 프로토타입 추론을 통해 병변과 관련된 패치를 선택합니다. 전역 이미지 표현에서 미세 병변 신호가 희석되는 문제를 해결하기 위해 EasyAmplifier는 형태학적으로 안내된 잔차 강화 방식을 사용해 선택된 병변 관련 패치 표현을 강화하고, 이를 전역 이미지 임베딩에 더 크게 기여하도록 합니다. 여러 의료 영상 데이터셋과 고정된 의료 VLM 백본에 대한 실험 결과, EasyLens는 미세 병변 탐지 성능을 향상시키고 기존 인코더 강화 기반 베이스라인을 능가함을 보여줍니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.CV
cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여합니다.

저자

Qiwei Zeng
Hao Wang
Jinghao Lin
Shuchang Ye
Yuezhe Yang
Yige Peng
Haoyuan Che
Jinman Kim
Lei Bi

논문 정보

arXiv ID: 2606.06379v1
분류: cs.CV, cs.AI
발표일: 2026년 6월 4일
PDF: PDF 다운로드

[논문] EasyLens: 훈련 없이 바로 적용 가능한 의료 비전‑언어 모델용 미세 병변 표현 강화기

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 장기 컨텍스트 자율주행을 위한 계획에 맞춘 토큰 압축

[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선

[논문] 시청·기억·추론: 인간 시각 비디오 이해와 MLLM