[Paper] MedAI: NeurIPS CURE-Bench 대회에서 TxAgent의 치료적 에이전시 추론 평가
Source: arXiv - 2512.11682v1
개요
논문 **“MedAI: Evaluating TxAgent’s Therapeutic Agentic Reasoning in the NeurIPS CURE‑Bench Competition”**에서는 저자들이 TxAgent라는 AI 시스템을 구축하고 엄격히 테스트한 과정을 설명합니다. TxAgent는 미세 조정된 Llama‑3.1‑8B 모델에 FDA Drug API, OpenTargets, Monarch 등 실시간 바이오메디컬 도구 모음을 결합하여, 에이전시 AI—외부 함수를 즉시 호출할 수 있는 모델—가 임상 의사결정 지원의 높은 안전성 및 정확성 요구를 충족할 수 있음을 보여줍니다.
주요 기여
- 에이전시 RAG 아키텍처: 최신 치료 데이터를 제공하는 통합 “ToolUniverse”에 함수 호출을 생성·실행하는 TxAgent를 소개.
- 미세 조정된 Llama‑3.1‑8B: 80억 파라미터 모델을 다단계 의료 추론에 맞게 조정하여 실제 배포 시 추론 비용을 관리 가능하게 함.
- 새로운 평가 프로토콜: 토큰 수준의 추론 트레이스와 도구 사용 시퀀스를 명시적 감독 신호로 활용해 정확성, 도구 선택, 추론 품질에 대한 세밀한 메트릭을 제공.
- 검색 품질 분석: 도구 검색 정확도(올바른 API 호출 선택)가 전체 작업 성능과 직접 상관관계가 있음을 보여주고, CURE‑Bench 순위표에서 점수를 끌어올린 경량 검색 강화 기법을 제안.
- 오픈 사이언스 상: NeurIPS 2025에서 Excellence Award를 수상했으며, 코드·데이터·평가 스크립트를 공개해 커뮤니티 재사용을 촉진.
방법론
- 프롬프트 기반 에이전시 루프 – 모델은 임상 질의(예: “고혈압 및 만성 신장 질환 환자에 대한 치료 요법을 제안해 주세요”)를 받고 먼저 텍스트 계획을 생성한 뒤, 외부 도구를 호출할지를 결정함(예: “FDA Drug API에서 ACE 억제제 검색”).
- ToolUniverse – 세 개의 공개 바이오메디컬 서비스를 정규화하는 얇은 추상화 레이어:
- FDA Drug API: 승인 적응증, 용량, 금기사항 제공.
- OpenTargets: 질병‑유전자‑약물 연관 정보 제공.
- Monarch: 표현형‑유전자‑질병 온톨로지 제공.
에이전트는 JSON 형식 요청을 보내고 구조화된 결과를 받아 다음 추론 단계에 다시 입력함.
- 미세 조정 – 기본 Llama‑3.1‑8B 모델을 200 k개의 합성 의사‑환자 대화 코퍼스(각 대화마다 올바른 도구 호출 순서가 주석)로 추가 학습함. 이 감독은 모델에게 언제·어떻게 도구를 호출할지를 가르쳐 텍스트만 생성하는 것이 아니라 실제 기능을 수행하도록 함.
- CURE‑Bench 평가 – 대회는 약물 추천, 치료 계획, 부작용 예측 세 가지 벤치마크 과제를 제공함. 저자들은 다음을 측정함:
- 최종 답변의 정확도(Exact‑match)
- 도구 사용 정확도(올바른 시점에 올바른 API를 호출했는가)
- 추론 트레이스 품질(중간 단계가 골드 스탠다드 체인‑오브‑쓰레드와 얼마나 일치하는가)
결과 및 발견
| 작업 | Exact‑match ↑ | Tool‑usage ↑ | Reasoning‑trace F1 ↑ |
|---|---|---|---|
| 약물 추천 | 78.4 % | 92.1 % | 0.84 |
| 치료 계획 | 71.2 % | 89.5 % | 0.81 |
| 부작용 예측 | 74.6 % | 90.3 % | 0.83 |
- 검색 강화: API 호출 전에 경량 BM25 사전 필터를 추가하면 도구 사용 정확도가 약 3 포인트 상승하고 전체 Exact‑match 점수가 4–5 포인트 상승함.
- 오류 분석: 대부분의 실패는 잘못된 도구 순서에서 발생(예: 질병 적응증을 확인하기 전에 약물 데이터베이스를 조회). 도구 순서가 골드 트레이스와 일치할 때 정확도가 10 포인트 이상 상승함.
- 컴퓨팅 효율성: 반복 호출에도 불구하고 평균 지연 시간은 RTX 4090 기준 1.2 초 이하로 유지되어 인터랙티브 임상 의사결정 지원에 실용적임.
실용적 함의
- 임상 의사결정 지원(CDS) 통합 – TxAgent의 모듈형 도구 호출은 기존 EHR 워크플로에 쉽게 래핑될 수 있어, 정적 지식베이스를 하드코딩하지 않고 최신 약물 정보를 제공함.
- 규제‑준비 AI – 모든 추론 단계와 도구 호출을 노출함으로써 감사자가 권고가 어떻게 도출됐는지 추적 가능, 최신 AI‑in‑healthcare 거버넌스 프레임워크를 만족함.
- 개발자 친화 SDK – 오픈소스
tooluniverse파이썬 패키지는 API 키, 속도 제한, 응답 파싱을 추상화해 개발자가 텔레메디신 봇, 약국 자동화, 연구 파이프라인 등에 몇 줄의 코드만으로 TxAgent를 연결할 수 있게 함. - 다른 분야로 확장 가능 – 동일한 에이전시 패턴(LLM + 함수 호출 + 검색‑강화 선택)은 금융(규제 준수), 사이버보안(위협 인텔리전스 조회) 등 최신 외부 데이터가 필수인 고위험 분야에도 재활용 가능함.
제한점 및 향후 연구
- 지식베이스 범위 – 현재 TxAgent는 세 개의 공개 API에만 의존하므로, 희귀 희귀 약물 등 커버리지가 부족한 영역에서는 완전한 권고를 제공하지 못함.
- 중간 추론에서의 환각 위험 – 도구 호출이 최종 답변을 근거 있게 만들지만, 모델이 API 응답이 도착하기 전까지 그럴듯하지만 잘못된 근거를 생성할 수 있음.
- 평가 편향 – CURE‑Bench는 합성 환자 사례를 사용하므로, 실제 임상 검증(전향적 시험, 임상의 사용성 연구)은 아직 진행되지 않음.
- 향후 방향: ToolUniverse에 약물유전체학 데이터베이스를 추가하고, 올바른 도구 순서를 보상하는 강화학습 루프를 통합하며, 처방 안전성에 미치는 영향을 측정하기 위한 다기관 임상 파일럿을 수행할 계획임.
저자
- Tim Cofala
- Christian Kalfar
- Jingge Xiao
- Johanna Schrader
- Michelle Tang
- Wolfgang Nejdl
논문 정보
- arXiv ID: 2512.11682v1
- Categories: cs.AI, cs.LG
- Published: December 12, 2025
- PDF: Download PDF