[논문] ClinSeekAgent: 에이전트형 임상 추론을 위한 다중모달 증거 탐색 자동화

발행: (2026년 5월 20일 AM 02:58 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2605.20176v1

개요

이 논문은 ClinSeekAgent라는 자율적인 “에이전트형” 시스템을 소개한다. 이 시스템은 다중모달 임상 증거(텍스트형 EHR 노트, 영상, 지식베이스 항목)를 실시간으로 검색·수집·추론할 수 있다. 기존의 “증거를 제공해 주세요” 방식에서 동적인 증거 탐색 워크플로로 전환함으로써, 대형 언어 모델(LLM)이 실제 병원 환경에서 보다 신뢰할 수 있는 의사결정 지원 도구가 됨을 보여준다.

주요 기여

  • ClinSeekAgent 프레임워크: 이질적인 소스(지식베이스, 원시 EHR, 영상 도구)에서 증거를 가져오고 가설을 반복적으로 정제한다.
  • ClinSeek‑Bench: 정적·큐레이션된 입력 추론과 원시 임상 데이터에 대한 완전 자동 증거 탐색을 직접 비교하는 새로운 벤치마크.
  • 텍스트 전용 및 다중모달 작업 전반에 걸친 실험적 향상, 다양한 LLM 백엔드(Claude Opus, MiniMax, Qwen 등)에서 일관된 성능 개선을 확인.
  • 증류 파이프라인: 비용이 많이 들고 성능이 높은 에이전트 경로를 압축된 오픈소스 모델(ClinSeek‑35B‑A3B)로 변환, 상위 상용 LLM에 근접한 성능을 달성.
  • 에이전트 코드, 벤치마크 데이터, 증류 모델을 오픈소스로 공개해 재현성과 후속 연구를 지원.

방법론

  1. 입력 – 시스템은 임상 질의(예: “이 환자는 폐렴 위험이 있나요?”)와 원시 데이터 소스(구조화된 EHR 테이블, 자유 텍스트 노트, 흉부 X‑ray 이미지)만을 받는다.
  2. 계획 루프 – ClinSeekAgent는 LLM을 플래너로 사용해 다음에 어떤 증거를 가져올지 결정한다. 플래너는 다음을 수행할 수 있다:
    • 의료 지식베이스(예: UMLS, PubMed)에 구조화된 질의 발행
    • 원시 EHR 문서에 대한 키워드·의미 기반 검색 실행
    • 전문 영상 도구(예: 방사선 전용 비전 모델) 호출해 CXR 이미지에서 소견 추출
  3. 증거 검색 – 각 요청은 전용 도구 모듈(API 호출, 파일 스캔, 비전 모델)에서 실행된다. 검색된 스니펫은 LLM에 다시 입력된다.
  4. 반복적 가설 정제 – 새로운 증거가 들어올 때마다 LLM은 내부 “가설”(예: 감별 진단)을 업데이트하고 추가 증거가 필요한지 판단한다.
  5. 합성·결정 – 플래너가 “중지”를 신호하면 LLM은 수집된 모든 증거를 종합해 최종 근거 기반 임상 권고(진단, 위험 점수, 치료 제안)를 만든다.
  6. 증류(학습 시) – 전체 상호작용 트레이스(질의, 검색된 증거, LLM 응답)를 고품질 “교사” 경로로 활용한다. 작은 오픈소스 모델을 이 트레이스에 미세조정해 도구 호출 오버헤드 없이 동일한 추론 패턴을 학습한다.

결과 및 발견

설정기본 모델ClinSeekAgent Δ F1최고 전체 F1
텍스트 전용 EHR (Claude Opus 4.6)60.0+3.2 → 63.263.2
텍스트 전용 EHR (MiniMax M2.5)43.1+4.2 → 47.347.3
다중모달 CXR (Claude Opus 4.6)47.5+15.1 → 62.662.6
증류 모델 (ClinSeek‑35B‑A3B)22.1 (baseline Qwen3.5‑35B‑A3B)+11.9 → 34.034.0 (≈Claude Opus)
  • 위험 예측은 평가된 9개 호스트 모델 중 7개에서 개선돼, 증거 탐색 루프가 일관적으로 가치를 더한다는 것을 보여준다.
  • 평가된 모든 모델은 세 가지 흉부 X‑ray 작업군(질병 분류, 위치 지정, 보고서 생성)에서 성능 향상을 보였다.
  • 증류된 ClinSeek‑35B‑A3B는 대부분의 성능 격차를 상용 Claude Opus 4.6에 가깝게 메우면서 완전 오픈소스로 유지된다.

실용적 함의

  • 현실 임상 의사결정 지원 – 병원은 단일 LLM 기반 에이전트를 배포해 자동으로 적절한 검사 결과, 노트, 영상 소견을 가져오게 함으로써 수동 데이터 정제 작업을 크게 줄일 수 있다.
  • 개발자 친화적 도구 – ClinSeekAgent의 모듈형 도구 인터페이스(지식베이스 질의, EHR 검색, 영상 API)는 기관별 시스템에 맞게 교체 가능해 통합이 용이하다.
  • 비용 효율적인 모델 배포 – 에이전트 추론을 35B 모델로 증류함으로써 조직은 고성능 임상 어시스턴트를 온프레미스 하드웨어에서 운영하면서 비싼 폐쇄형 LLM 라이선스 비용을 절감할 수 있다.
  • 규제·감사 이점 – 에이전트는 모든 검색 단계를 로그로 남겨 투명한 증거 흐름을 제공한다. 이는 FDA의 “Good Machine Learning Practice”와 같은 규제 준수 감사를 지원한다.
  • 다른 분야로의 확장성 – 동일한 증거 탐색 루프를 법률 조사, 금융 분석 등 이질적인 데이터 소스에 기반한 의사결정이 필요한 분야에 적용할 수 있다.

제한점 및 향후 연구

  • 데이터 접근 가정 – 현재 구현은 EHR 저장소와 영상 도구에 대한 무제한 API 접근을 전제로 한다. 실제 병원 환경에서는 프라이버시와 지연 시간 제한이 더 엄격할 수 있다.
  • 도구 신뢰성 – 하위 모듈(예: 방사선 모델)의 오류가 최종 권고에 전파될 수 있다. 견고한 오류 처리와 불확실성 정량화가 아직 해결 과제로 남아 있다.
  • 계획 루프의 확장성 – 반복 질의는 지연을 증가시킨다. 향후 배치 검색, 강화학습 기반 질의 정책 등 보다 효율적인 계획 전략을 탐구할 예정이다.
  • 평가 범위 – 벤치마크는 F1과 위험 예측에 초점을 맞추고 있다. 환자 결과, 워크플로 효율성 등 실제 임상 영향을 확인하려면 전향적 임상 시험이 필요하다.
  • 새로운 모달리티에 대한 일반화 – 병리 슬라이드, 유전체, 웨어러블 센서 스트림 등으로 확장하려면 추가 도구 어댑터와 모달리티 특화 추론 컴포넌트가 필요하다.

저자

  • Juncheng Wu
  • Letian Zhang
  • Yuhan Wang
  • Haoqin Tu
  • Hardy Chen
  • Zijun Wang
  • Cihang Xie
  • Yuyin Zhou

논문 정보

  • arXiv ID: 2605.20176v1
  • 분류: cs.CL
  • 발표일: 2026년 5월 19일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »