[논문] TxBench‑PP: 소분자 전임 임상 약리학에서 AI 에이전트 성능 분석

발행: 1일 전 (2026년 6월 18일 AM 01:23 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.19245v1

개요

인공지능(AI) 에이전트는 약물 découverte를 가속화하고 해석·의사결정 루프를 압축함으로써 잠재력을 가지고 있지만, 실용적 배포에는 신뢰할 수 있는 평가가 실제 프로그램 결정에 기반을 둔 것이 필요합니다.
우리는 TherapeuticsBench Preclinical Pharmacology (TxBench-PP)이라는 소규모 분자 전임 약리학을 위한 검증 가능한 벤치마크를 소개합니다. 이는 더 넓은 TherapeuticsBench 노력의 첫 번째 집중된 조각이며, 약물 발견 단계와 치료 모달에 걸쳐 확장됩니다.
TxBench-PP는 에이전트가 문학에서 암기한 사실보다는 실제 실험 데이터로부터 정확한 결론을 도출할 수 있는지를 테스트합니다.
이 벤치마크에는 프로그램 단계, 실험 유형, 작업 구조별로 100건의 평가가 인덱싱되어 있으며, 메커니즘‑of‑액션(MoA) 및 약리학(PD) 추론, 화합물‑타깃 결합, 인과적 타깃 검증, 개발 가능성 및 안전성, 전임상 효능 등 다양한 주제를 포괄합니다.
에이전트는 현실적인 워크플로우 스냅샷을 받고, 코딩 환경에서 파일을 검토한 뒤 구조화된 답변을 반환하며 결정적으로 평가됩니다.

16가지 모델‑하니싱 구성(11개 모델과 4,800 트래ектории)을 테스트한 결과, 어떠한 시스템도 전임상 약리학 결정을 일관되게 재현하지 못했습니다.
가장 강력한 구성인 Claude Opus 4.8 / Pi는 엔드포인트 시도 59.3%(178/300; 95% CI, 51.1‑67.6)를 통과했으며, GPT‑5.5 / Pi는 55.3%(166/300; 47.0‑63.6)를 기록했습니다.

주요 기여

cs.AI
cs.LG

방법론

자세한 내용은 논문 전체를 참고하십시오.

실제 적용 가능성

이 연구는 cs.AI의 발전에 기여합니다.

저자

Hannah Le
Ramesh Ramasamy
Alex Urrutia
Mahsa Yazdani
Tim Proctor
Kenny Workman

논문 정보

arXiv ID: 2606.19245v1
Categories: cs.AI, cs.LG
Published: 2026년 6월 17일
PDF: PDF 다운로드

[논문] TxBench‑PP: 소분자 전임 임상 약리학에서 AI 에이전트 성능 분석

개요

주요 기여

방법론

실제 적용 가능성

저자

논문 정보

관련 글

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[논문] 차이나‑가이아 대응 카탈로그: 머신러닝으로 차이나 소스 카탈로그에 있는 애매한 가이아 대조를 X‑선 원천과 연결

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

[논문] 참조 기반 다중 스피커 오디오 씬 생성