[논문] TxBench‑PP: 소분자 전임 임상 약리학에서 AI 에이전트 성능 분석
개요
인공지능(AI) 에이전트는 약물 découverte를 가속화하고 해석·의사결정 루프를 압축함으로써 잠재력을 가지고 있지만, 실용적 배포에는 신뢰할 수 있는 평가가 실제 프로그램 결정에 기반을 둔 것이 필요합니다.
우리는 TherapeuticsBench Preclinical Pharmacology (TxBench-PP)이라는 소규모 분자 전임 약리학을 위한 검증 가능한 벤치마크를 소개합니다. 이는 더 넓은 TherapeuticsBench 노력의 첫 번째 집중된 조각이며, 약물 발견 단계와 치료 모달에 걸쳐 확장됩니다.
TxBench-PP는 에이전트가 문학에서 암기한 사실보다는 실제 실험 데이터로부터 정확한 결론을 도출할 수 있는지를 테스트합니다.
이 벤치마크에는 프로그램 단계, 실험 유형, 작업 구조별로 100건의 평가가 인덱싱되어 있으며, 메커니즘‑of‑액션(MoA) 및 약리학(PD) 추론, 화합물‑타깃 결합, 인과적 타깃 검증, 개발 가능성 및 안전성, 전임상 효능 등 다양한 주제를 포괄합니다.
에이전트는 현실적인 워크플로우 스냅샷을 받고, 코딩 환경에서 파일을 검토한 뒤 구조화된 답변을 반환하며 결정적으로 평가됩니다.
16가지 모델‑하니싱 구성(11개 모델과 4,800 트래ектории)을 테스트한 결과, 어떠한 시스템도 전임상 약리학 결정을 일관되게 재현하지 못했습니다.
가장 강력한 구성인 Claude Opus 4.8 / Pi는 엔드포인트 시도 59.3%(178/300; 95% CI, 51.1‑67.6)를 통과했으며, GPT‑5.5 / Pi는 55.3%(166/300; 47.0‑63.6)를 기록했습니다.
주요 기여
- cs.AI
- cs.LG
방법론
자세한 내용은 논문 전체를 참고하십시오.
실제 적용 가능성
이 연구는 cs.AI의 발전에 기여합니다.
저자
- Hannah Le
- Ramesh Ramasamy
- Alex Urrutia
- Mahsa Yazdani
- Tim Proctor
- Kenny Workman
논문 정보
- arXiv ID: 2606.19245v1
- Categories: cs.AI, cs.LG
- Published: 2026년 6월 17일
- PDF: PDF 다운로드