[Paper] MedAI: NeurIPS CURE-Bench 대회에서 TxAgent의 치료적 에이전시 추론 평가

발행: 1개월 전 (2025년 12월 13일 오전 01:01 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.11682v1

개요

논문 **“MedAI: Evaluating TxAgent’s Therapeutic Agentic Reasoning in the NeurIPS CURE‑Bench Competition”**에서는 저자들이 TxAgent라는 AI 시스템을 구축하고 엄격히 테스트한 과정을 설명합니다. TxAgent는 미세 조정된 Llama‑3.1‑8B 모델에 FDA Drug API, OpenTargets, Monarch 등 실시간 바이오메디컬 도구 모음을 결합하여, 에이전시 AI—외부 함수를 즉시 호출할 수 있는 모델—가 임상 의사결정 지원의 높은 안전성 및 정확성 요구를 충족할 수 있음을 보여줍니다.

주요 기여

에이전시 RAG 아키텍처: 최신 치료 데이터를 제공하는 통합 “ToolUniverse”에 함수 호출을 생성·실행하는 TxAgent를 소개.
미세 조정된 Llama‑3.1‑8B: 80억 파라미터 모델을 다단계 의료 추론에 맞게 조정하여 실제 배포 시 추론 비용을 관리 가능하게 함.
새로운 평가 프로토콜: 토큰 수준의 추론 트레이스와 도구 사용 시퀀스를 명시적 감독 신호로 활용해 정확성, 도구 선택, 추론 품질에 대한 세밀한 메트릭을 제공.
검색 품질 분석: 도구 검색 정확도(올바른 API 호출 선택)가 전체 작업 성능과 직접 상관관계가 있음을 보여주고, CURE‑Bench 순위표에서 점수를 끌어올린 경량 검색 강화 기법을 제안.
오픈 사이언스 상: NeurIPS 2025에서 Excellence Award를 수상했으며, 코드·데이터·평가 스크립트를 공개해 커뮤니티 재사용을 촉진.

방법론

프롬프트 기반 에이전시 루프 – 모델은 임상 질의(예: “고혈압 및 만성 신장 질환 환자에 대한 치료 요법을 제안해 주세요”)를 받고 먼저 텍스트 계획을 생성한 뒤, 외부 도구를 호출할지를 결정함(예: “FDA Drug API에서 ACE 억제제 검색”).
ToolUniverse – 세 개의 공개 바이오메디컬 서비스를 정규화하는 얇은 추상화 레이어:
- FDA Drug API: 승인 적응증, 용량, 금기사항 제공.
- OpenTargets: 질병‑유전자‑약물 연관 정보 제공.
- Monarch: 표현형‑유전자‑질병 온톨로지 제공.
  에이전트는 JSON 형식 요청을 보내고 구조화된 결과를 받아 다음 추론 단계에 다시 입력함.
미세 조정 – 기본 Llama‑3.1‑8B 모델을 200 k개의 합성 의사‑환자 대화 코퍼스(각 대화마다 올바른 도구 호출 순서가 주석)로 추가 학습함. 이 감독은 모델에게 언제·어떻게 도구를 호출할지를 가르쳐 텍스트만 생성하는 것이 아니라 실제 기능을 수행하도록 함.
CURE‑Bench 평가 – 대회는 약물 추천, 치료 계획, 부작용 예측 세 가지 벤치마크 과제를 제공함. 저자들은 다음을 측정함:
- 최종 답변의 정확도(Exact‑match)
- 도구 사용 정확도(올바른 시점에 올바른 API를 호출했는가)
- 추론 트레이스 품질(중간 단계가 골드 스탠다드 체인‑오브‑쓰레드와 얼마나 일치하는가)

결과 및 발견

작업	Exact‑match ↑	Tool‑usage ↑	Reasoning‑trace F1 ↑
약물 추천	78.4 %	92.1 %	0.84
치료 계획	71.2 %	89.5 %	0.81
부작용 예측	74.6 %	90.3 %	0.83

검색 강화: API 호출 전에 경량 BM25 사전 필터를 추가하면 도구 사용 정확도가 약 3 포인트 상승하고 전체 Exact‑match 점수가 4–5 포인트 상승함.
오류 분석: 대부분의 실패는 잘못된 도구 순서에서 발생(예: 질병 적응증을 확인하기 전에 약물 데이터베이스를 조회). 도구 순서가 골드 트레이스와 일치할 때 정확도가 10 포인트 이상 상승함.
컴퓨팅 효율성: 반복 호출에도 불구하고 평균 지연 시간은 RTX 4090 기준 1.2 초 이하로 유지되어 인터랙티브 임상 의사결정 지원에 실용적임.

실용적 함의

임상 의사결정 지원(CDS) 통합 – TxAgent의 모듈형 도구 호출은 기존 EHR 워크플로에 쉽게 래핑될 수 있어, 정적 지식베이스를 하드코딩하지 않고 최신 약물 정보를 제공함.
규제‑준비 AI – 모든 추론 단계와 도구 호출을 노출함으로써 감사자가 권고가 어떻게 도출됐는지 추적 가능, 최신 AI‑in‑healthcare 거버넌스 프레임워크를 만족함.
개발자 친화 SDK – 오픈소스 tooluniverse 파이썬 패키지는 API 키, 속도 제한, 응답 파싱을 추상화해 개발자가 텔레메디신 봇, 약국 자동화, 연구 파이프라인 등에 몇 줄의 코드만으로 TxAgent를 연결할 수 있게 함.
다른 분야로 확장 가능 – 동일한 에이전시 패턴(LLM + 함수 호출 + 검색‑강화 선택)은 금융(규제 준수), 사이버보안(위협 인텔리전스 조회) 등 최신 외부 데이터가 필수인 고위험 분야에도 재활용 가능함.

제한점 및 향후 연구

지식베이스 범위 – 현재 TxAgent는 세 개의 공개 API에만 의존하므로, 희귀 희귀 약물 등 커버리지가 부족한 영역에서는 완전한 권고를 제공하지 못함.
중간 추론에서의 환각 위험 – 도구 호출이 최종 답변을 근거 있게 만들지만, 모델이 API 응답이 도착하기 전까지 그럴듯하지만 잘못된 근거를 생성할 수 있음.
평가 편향 – CURE‑Bench는 합성 환자 사례를 사용하므로, 실제 임상 검증(전향적 시험, 임상의 사용성 연구)은 아직 진행되지 않음.
향후 방향: ToolUniverse에 약물유전체학 데이터베이스를 추가하고, 올바른 도구 순서를 보상하는 강화학습 루프를 통합하며, 처방 안전성에 미치는 영향을 측정하기 위한 다기관 임상 파일럿을 수행할 계획임.

저자

Tim Cofala
Christian Kalfar
Jingge Xiao
Johanna Schrader
Michelle Tang
Wolfgang Nejdl

논문 정보

arXiv ID: 2512.11682v1
Categories: cs.AI, cs.LG
Published: December 12, 2025
PDF: Download PDF

[Paper] MedAI: NeurIPS CURE-Bench 대회에서 TxAgent의 치료적 에이전시 추론 평가

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한점 및 향후 연구

저자

논문 정보

관련 글

[Paper] Particulate: Feed-Forward 3D 객체 관절화

[Paper] 무작위 순차 추가를 통한 고차 상호작용 탐지를 위한 일반 알고리즘

[Paper] Softmax를 Large-Prompt Regime에서 Linear Attention으로: Measure-based Perspective

[Paper] Super Suffixes: 텍스트 생성 정렬 및 Guard 모델을 동시에 우회