[Paper] 全球猎取:Deep Research AI Agents 用于药物资产侦察的投资、业务发展与搜索与评估
发布: (2026年2月17日 GMT+8 02:57)
7 分钟阅读
原文: arXiv
看起来您只提供了来源链接,但没有提供需要翻译的正文内容。请您把要翻译的文本粘贴在这里,我会按照要求将其翻译成简体中文并保留原有的格式。
概述
该论文介绍了 Bioptic,一种树形结构的自学习 AI 代理,旨在在庞大、多语言且常常非英文的科学和专利文献中寻找隐藏的药物研发资产。通过与领先的基于 LLM 的研究工具进行基准测试,作者展示了 Bioptic 能显著提升召回率,同时避免幻觉——这对于需要在竞争对手之前发现“雷达下”生物技术机会的投资者、业务发展团队和风险投资家而言,是一项关键能力。
关键贡献
- 一种用于药物资产筛选的新基准框架,能够模拟真实投资者查询、混合语言,并使用经过专家意见校准的 LLM‑as‑judge 评分。
- Bioptic Agent 架构:一种基于树结构的自学习“bioptic”(双视图)系统,将粗粒度检索与细粒度验证相结合,实现高召回率且避免幻觉。
- 全面的实证评估,对比了五种最先进的研究代理(Claude Opus 4.6、GPT‑5.2 Pro、Gemini 3 Pro + Deep Research、Perplexity Deep Research、Exa Websets)。
- 证明计算规模的提升(更多检索轮次、更大的模型推理)在该任务上带来显著的性能提升。
- 面向开源的流水线,用于从真实投资者筛选提示生成基准查询,支持可重复性和未来扩展。
方法论
- 查询收集 – 团队收集了来自生物技术投资者、业务发展(BD)专业人士和风险投资家的真实筛选提示。这些提示作为“先验”,反映了资产侦察的复杂、多标准特性。
- 合成基准生成 – 使用这些先验,条件语言模型生成大量真实的多语言搜索查询。每个查询都配有一个真实标签列表,列出那些超出典型美国中心雷达的药物资产(例如,中国专利、非英文会议论文)。
- Bioptic 代理设计 –
- 粗略检索层:在异构数据源(专利数据库、地区期刊、预印本服务器)上进行树状结构搜索,使用多语言嵌入。
- 细致验证层:第二阶段的 LLM 对每个候选进行来源文档验证,过滤掉幻觉或不相关的结果。
- 自学习循环:验证层的反馈更新检索权重,使系统能够在无需人工重新标注的情况下随时间改进。
- 评估 – 使用经专家注释校准的 LLM‑as‑judge 模型,对基准上的每个系统的精确率、召回率和 F1 分数进行评分。
结果与发现
| 系统 | F1 分数 |
|---|---|
| Bioptic Agent | 79.7 % |
| Claude Opus 4.6 | 56.2 % |
| Gemini 3 Pro + Deep Research | 50.6 % |
| GPT‑5.2 Pro | 46.6 % |
| Perplexity Deep Research | 44.2 % |
| Exa Websets | 26.9 % |
- 召回提升:Bioptic 能找回近 80 % 的隐藏资产,较最强基线提升超过 20 % 的绝对值。
- 幻觉控制:验证层显著降低误报,即使召回率上升,精确度仍保持在高水平。
- 计算扩展:增加检索轮次(即更深的树探索)可几乎线性提升 F1,验证了计算预算可以用于提升覆盖率。
Practical Implications
- Accelerated deal sourcing – 投资团队可以自动化对全球专利和文献源的首次扫描,比手动搜寻提前数周发现有前景的候选对象。
- Risk mitigation – 通过可靠地检索非英文资产,公司降低错过可能影响估值或竞争定位的突破性成果的风险。
- Integration‑friendly – 基于树的架构可以封装为微服务,接入现有的CRM、deal‑flow平台或内部知识图谱。
- Cost‑effective scaling – 由于性能随计算资源线性扩展,组织可以从少量GPU等适度资源起步,随着流水线证明ROI再逐步扩大。
- Cross‑domain reuse – bioptic模式(粗检索 + 精细验证)可用于其他高召回、低幻觉的领域,如监管合规、威胁情报或科学文献评审。
限制与未来工作
- 数据新鲜度 – 基准测试依赖于专利和出版物数据库的静态快照;实时更新(例如新提交的中国专利)可能会影响性能。
- 语言覆盖 – 虽然支持多语言,但系统目前偏向于拥有丰富预训练嵌入的语言;低资源语言仍可能代表性不足。
- 计算成本 – 随着计算资源的增加,收益显著提升,但也伴随更高的运营费用,这对小型企业可能构成阻碍。
- 人机交互验证 – 本研究使用了校准至专家水平的 LLM 判官,但进行一次包含领域专家的完整用户研究将更好地量化实际可用性。
- 扩展至治疗效力 – 未来工作可以整合下游数据(例如临床试验结果),不仅定位资产,还可按转化潜力进行排序。
作者
- Alisa Vinogradova
- Vlad Vinogradov
- Luba Greenwood
- Ilya Yasny
- Dmitry Kobyzev
- Shoman Kasbekar
- Kong Nguyen
- Dmitrii Radkevich
- Roman Doronin
- Andrey Doronichev
论文信息
- arXiv ID: 2602.15019v1
- 分类: cs.AI, cs.IR
- 发布时间: 2026年2月16日
- PDF: 下载 PDF