[논문] ClinSeekAgent: 에이전트형 임상 추론을 위한 다중모달 증거 탐색 자동화

발행: 3주 전 (2026년 5월 20일 AM 02:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.20176v1

개요

이 논문은 ClinSeekAgent라는 자율적인 “에이전트형” 시스템을 소개한다. 이 시스템은 다중모달 임상 증거(텍스트형 EHR 노트, 영상, 지식베이스 항목)를 실시간으로 검색·수집·추론할 수 있다. 기존의 “증거를 제공해 주세요” 방식에서 동적인 증거 탐색 워크플로로 전환함으로써, 대형 언어 모델(LLM)이 실제 병원 환경에서 보다 신뢰할 수 있는 의사결정 지원 도구가 됨을 보여준다.

주요 기여

ClinSeekAgent 프레임워크: 이질적인 소스(지식베이스, 원시 EHR, 영상 도구)에서 증거를 가져오고 가설을 반복적으로 정제한다.
ClinSeek‑Bench: 정적·큐레이션된 입력 추론과 원시 임상 데이터에 대한 완전 자동 증거 탐색을 직접 비교하는 새로운 벤치마크.
텍스트 전용 및 다중모달 작업 전반에 걸친 실험적 향상, 다양한 LLM 백엔드(Claude Opus, MiniMax, Qwen 등)에서 일관된 성능 개선을 확인.
증류 파이프라인: 비용이 많이 들고 성능이 높은 에이전트 경로를 압축된 오픈소스 모델(ClinSeek‑35B‑A3B)로 변환, 상위 상용 LLM에 근접한 성능을 달성.
에이전트 코드, 벤치마크 데이터, 증류 모델을 오픈소스로 공개해 재현성과 후속 연구를 지원.

방법론

입력 – 시스템은 임상 질의(예: “이 환자는 폐렴 위험이 있나요?”)와 원시 데이터 소스(구조화된 EHR 테이블, 자유 텍스트 노트, 흉부 X‑ray 이미지)만을 받는다.
계획 루프 – ClinSeekAgent는 LLM을 플래너로 사용해 다음에 어떤 증거를 가져올지 결정한다. 플래너는 다음을 수행할 수 있다:
- 의료 지식베이스(예: UMLS, PubMed)에 구조화된 질의 발행
- 원시 EHR 문서에 대한 키워드·의미 기반 검색 실행
- 전문 영상 도구(예: 방사선 전용 비전 모델) 호출해 CXR 이미지에서 소견 추출
증거 검색 – 각 요청은 전용 도구 모듈(API 호출, 파일 스캔, 비전 모델)에서 실행된다. 검색된 스니펫은 LLM에 다시 입력된다.
반복적 가설 정제 – 새로운 증거가 들어올 때마다 LLM은 내부 “가설”(예: 감별 진단)을 업데이트하고 추가 증거가 필요한지 판단한다.
합성·결정 – 플래너가 “중지”를 신호하면 LLM은 수집된 모든 증거를 종합해 최종 근거 기반 임상 권고(진단, 위험 점수, 치료 제안)를 만든다.
증류(학습 시) – 전체 상호작용 트레이스(질의, 검색된 증거, LLM 응답)를 고품질 “교사” 경로로 활용한다. 작은 오픈소스 모델을 이 트레이스에 미세조정해 도구 호출 오버헤드 없이 동일한 추론 패턴을 학습한다.

결과 및 발견

설정	기본 모델	ClinSeekAgent Δ F1	최고 전체 F1
텍스트 전용 EHR (Claude Opus 4.6)	60.0	+3.2 → 63.2	63.2
텍스트 전용 EHR (MiniMax M2.5)	43.1	+4.2 → 47.3	47.3
다중모달 CXR (Claude Opus 4.6)	47.5	+15.1 → 62.6	62.6
증류 모델 (ClinSeek‑35B‑A3B)	22.1 (baseline Qwen3.5‑35B‑A3B)	+11.9 → 34.0	34.0 (≈Claude Opus)

위험 예측은 평가된 9개 호스트 모델 중 7개에서 개선돼, 증거 탐색 루프가 일관적으로 가치를 더한다는 것을 보여준다.
평가된 모든 모델은 세 가지 흉부 X‑ray 작업군(질병 분류, 위치 지정, 보고서 생성)에서 성능 향상을 보였다.
증류된 ClinSeek‑35B‑A3B는 대부분의 성능 격차를 상용 Claude Opus 4.6에 가깝게 메우면서 완전 오픈소스로 유지된다.

실용적 함의

현실 임상 의사결정 지원 – 병원은 단일 LLM 기반 에이전트를 배포해 자동으로 적절한 검사 결과, 노트, 영상 소견을 가져오게 함으로써 수동 데이터 정제 작업을 크게 줄일 수 있다.
개발자 친화적 도구 – ClinSeekAgent의 모듈형 도구 인터페이스(지식베이스 질의, EHR 검색, 영상 API)는 기관별 시스템에 맞게 교체 가능해 통합이 용이하다.
비용 효율적인 모델 배포 – 에이전트 추론을 35B 모델로 증류함으로써 조직은 고성능 임상 어시스턴트를 온프레미스 하드웨어에서 운영하면서 비싼 폐쇄형 LLM 라이선스 비용을 절감할 수 있다.
규제·감사 이점 – 에이전트는 모든 검색 단계를 로그로 남겨 투명한 증거 흐름을 제공한다. 이는 FDA의 “Good Machine Learning Practice”와 같은 규제 준수 감사를 지원한다.
다른 분야로의 확장성 – 동일한 증거 탐색 루프를 법률 조사, 금융 분석 등 이질적인 데이터 소스에 기반한 의사결정이 필요한 분야에 적용할 수 있다.

제한점 및 향후 연구

데이터 접근 가정 – 현재 구현은 EHR 저장소와 영상 도구에 대한 무제한 API 접근을 전제로 한다. 실제 병원 환경에서는 프라이버시와 지연 시간 제한이 더 엄격할 수 있다.
도구 신뢰성 – 하위 모듈(예: 방사선 모델)의 오류가 최종 권고에 전파될 수 있다. 견고한 오류 처리와 불확실성 정량화가 아직 해결 과제로 남아 있다.
계획 루프의 확장성 – 반복 질의는 지연을 증가시킨다. 향후 배치 검색, 강화학습 기반 질의 정책 등 보다 효율적인 계획 전략을 탐구할 예정이다.
평가 범위 – 벤치마크는 F1과 위험 예측에 초점을 맞추고 있다. 환자 결과, 워크플로 효율성 등 실제 임상 영향을 확인하려면 전향적 임상 시험이 필요하다.
새로운 모달리티에 대한 일반화 – 병리 슬라이드, 유전체, 웨어러블 센서 스트림 등으로 확장하려면 추가 도구 어댑터와 모달리티 특화 추론 컴포넌트가 필요하다.

저자

Juncheng Wu
Letian Zhang
Yuhan Wang
Haoqin Tu
Hardy Chen
Zijun Wang
Cihang Xie
Yuyin Zhou

논문 정보

arXiv ID: 2605.20176v1
분류: cs.CL
발표일: 2026년 5월 19일
PDF: PDF 다운로드

[논문] ClinSeekAgent: 에이전트형 임상 추론을 위한 다중모달 증거 탐색 자동화

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한점 및 향후 연구

저자

논문 정보

관련 글

[Paper] SkillOpt: 자기 진화형 에이전트 스킬을 위한 실행 전략

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 데이터 제약 하에서 Lexical Interventions를 통한 Multilingual Knowledge Transfer

[Paper] 강력한 Teacher는 필요 없을까? LLM 사전학습에서의 Distillation