[Paper] MedAI: NeurIPS CURE-Bench 대회에서 TxAgent의 치료적 에이전시 추론 평가

발행: (2025년 12월 13일 오전 01:01 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.11682v1

개요

논문 **“MedAI: Evaluating TxAgent’s Therapeutic Agentic Reasoning in the NeurIPS CURE‑Bench Competition”**에서는 저자들이 TxAgent라는 AI 시스템을 구축하고 엄격히 테스트한 과정을 설명합니다. TxAgent는 미세 조정된 Llama‑3.1‑8B 모델에 FDA Drug API, OpenTargets, Monarch 등 실시간 바이오메디컬 도구 모음을 결합하여, 에이전시 AI—외부 함수를 즉시 호출할 수 있는 모델—가 임상 의사결정 지원의 높은 안전성 및 정확성 요구를 충족할 수 있음을 보여줍니다.

주요 기여

  • 에이전시 RAG 아키텍처: 최신 치료 데이터를 제공하는 통합 “ToolUniverse”에 함수 호출을 생성·실행하는 TxAgent를 소개.
  • 미세 조정된 Llama‑3.1‑8B: 80억 파라미터 모델을 다단계 의료 추론에 맞게 조정하여 실제 배포 시 추론 비용을 관리 가능하게 함.
  • 새로운 평가 프로토콜: 토큰 수준의 추론 트레이스와 도구 사용 시퀀스를 명시적 감독 신호로 활용해 정확성, 도구 선택, 추론 품질에 대한 세밀한 메트릭을 제공.
  • 검색 품질 분석: 도구 검색 정확도(올바른 API 호출 선택)가 전체 작업 성능과 직접 상관관계가 있음을 보여주고, CURE‑Bench 순위표에서 점수를 끌어올린 경량 검색 강화 기법을 제안.
  • 오픈 사이언스 상: NeurIPS 2025에서 Excellence Award를 수상했으며, 코드·데이터·평가 스크립트를 공개해 커뮤니티 재사용을 촉진.

방법론

  1. 프롬프트 기반 에이전시 루프 – 모델은 임상 질의(예: “고혈압 및 만성 신장 질환 환자에 대한 치료 요법을 제안해 주세요”)를 받고 먼저 텍스트 계획을 생성한 뒤, 외부 도구를 호출할지를 결정함(예: “FDA Drug API에서 ACE 억제제 검색”).
  2. ToolUniverse – 세 개의 공개 바이오메디컬 서비스를 정규화하는 얇은 추상화 레이어:
    • FDA Drug API: 승인 적응증, 용량, 금기사항 제공.
    • OpenTargets: 질병‑유전자‑약물 연관 정보 제공.
    • Monarch: 표현형‑유전자‑질병 온톨로지 제공.
      에이전트는 JSON 형식 요청을 보내고 구조화된 결과를 받아 다음 추론 단계에 다시 입력함.
  3. 미세 조정 – 기본 Llama‑3.1‑8B 모델을 200 k개의 합성 의사‑환자 대화 코퍼스(각 대화마다 올바른 도구 호출 순서가 주석)로 추가 학습함. 이 감독은 모델에게 언제·어떻게 도구를 호출할지를 가르쳐 텍스트만 생성하는 것이 아니라 실제 기능을 수행하도록 함.
  4. CURE‑Bench 평가 – 대회는 약물 추천, 치료 계획, 부작용 예측 세 가지 벤치마크 과제를 제공함. 저자들은 다음을 측정함:
    • 최종 답변의 정확도(Exact‑match)
    • 도구 사용 정확도(올바른 시점에 올바른 API를 호출했는가)
    • 추론 트레이스 품질(중간 단계가 골드 스탠다드 체인‑오브‑쓰레드와 얼마나 일치하는가)

결과 및 발견

작업Exact‑match ↑Tool‑usage ↑Reasoning‑trace F1 ↑
약물 추천78.4 %92.1 %0.84
치료 계획71.2 %89.5 %0.81
부작용 예측74.6 %90.3 %0.83
  • 검색 강화: API 호출 전에 경량 BM25 사전 필터를 추가하면 도구 사용 정확도가 약 3 포인트 상승하고 전체 Exact‑match 점수가 4–5 포인트 상승함.
  • 오류 분석: 대부분의 실패는 잘못된 도구 순서에서 발생(예: 질병 적응증을 확인하기 전에 약물 데이터베이스를 조회). 도구 순서가 골드 트레이스와 일치할 때 정확도가 10 포인트 이상 상승함.
  • 컴퓨팅 효율성: 반복 호출에도 불구하고 평균 지연 시간은 RTX 4090 기준 1.2 초 이하로 유지되어 인터랙티브 임상 의사결정 지원에 실용적임.

실용적 함의

  • 임상 의사결정 지원(CDS) 통합 – TxAgent의 모듈형 도구 호출은 기존 EHR 워크플로에 쉽게 래핑될 수 있어, 정적 지식베이스를 하드코딩하지 않고 최신 약물 정보를 제공함.
  • 규제‑준비 AI – 모든 추론 단계와 도구 호출을 노출함으로써 감사자가 권고가 어떻게 도출됐는지 추적 가능, 최신 AI‑in‑healthcare 거버넌스 프레임워크를 만족함.
  • 개발자 친화 SDK – 오픈소스 tooluniverse 파이썬 패키지는 API 키, 속도 제한, 응답 파싱을 추상화해 개발자가 텔레메디신 봇, 약국 자동화, 연구 파이프라인 등에 몇 줄의 코드만으로 TxAgent를 연결할 수 있게 함.
  • 다른 분야로 확장 가능 – 동일한 에이전시 패턴(LLM + 함수 호출 + 검색‑강화 선택)은 금융(규제 준수), 사이버보안(위협 인텔리전스 조회) 등 최신 외부 데이터가 필수인 고위험 분야에도 재활용 가능함.

제한점 및 향후 연구

  • 지식베이스 범위 – 현재 TxAgent는 세 개의 공개 API에만 의존하므로, 희귀 희귀 약물 등 커버리지가 부족한 영역에서는 완전한 권고를 제공하지 못함.
  • 중간 추론에서의 환각 위험 – 도구 호출이 최종 답변을 근거 있게 만들지만, 모델이 API 응답이 도착하기 전까지 그럴듯하지만 잘못된 근거를 생성할 수 있음.
  • 평가 편향 – CURE‑Bench는 합성 환자 사례를 사용하므로, 실제 임상 검증(전향적 시험, 임상의 사용성 연구)은 아직 진행되지 않음.
  • 향후 방향: ToolUniverse에 약물유전체학 데이터베이스를 추가하고, 올바른 도구 순서를 보상하는 강화학습 루프를 통합하며, 처방 안전성에 미치는 영향을 측정하기 위한 다기관 임상 파일럿을 수행할 계획임.

저자

  • Tim Cofala
  • Christian Kalfar
  • Jingge Xiao
  • Johanna Schrader
  • Michelle Tang
  • Wolfgang Nejdl

논문 정보

  • arXiv ID: 2512.11682v1
  • Categories: cs.AI, cs.LG
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Particulate: Feed-Forward 3D 객체 관절화

우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.