[Paper] 全球猎取:Deep Research AI Agents 用于药物资产侦察的投资、业务发展与搜索与评估

发布: (2026年2月17日 GMT+8 02:57)
7 分钟阅读
原文: arXiv

看起来您只提供了来源链接,但没有提供需要翻译的正文内容。请您把要翻译的文本粘贴在这里,我会按照要求将其翻译成简体中文并保留原有的格式。

概述

该论文介绍了 Bioptic,一种树形结构的自学习 AI 代理,旨在在庞大、多语言且常常非英文的科学和专利文献中寻找隐藏的药物研发资产。通过与领先的基于 LLM 的研究工具进行基准测试,作者展示了 Bioptic 能显著提升召回率,同时避免幻觉——这对于需要在竞争对手之前发现“雷达下”生物技术机会的投资者、业务发展团队和风险投资家而言,是一项关键能力。

关键贡献

  • 一种用于药物资产筛选的新基准框架,能够模拟真实投资者查询、混合语言,并使用经过专家意见校准的 LLM‑as‑judge 评分。
  • Bioptic Agent 架构:一种基于树结构的自学习“bioptic”(双视图)系统,将粗粒度检索与细粒度验证相结合,实现高召回率且避免幻觉。
  • 全面的实证评估,对比了五种最先进的研究代理(Claude Opus 4.6、GPT‑5.2 Pro、Gemini 3 Pro + Deep Research、Perplexity Deep Research、Exa Websets)。
  • 证明计算规模的提升(更多检索轮次、更大的模型推理)在该任务上带来显著的性能提升。
  • 面向开源的流水线,用于从真实投资者筛选提示生成基准查询,支持可重复性和未来扩展。

方法论

  1. 查询收集 – 团队收集了来自生物技术投资者、业务发展(BD)专业人士和风险投资家的真实筛选提示。这些提示作为“先验”,反映了资产侦察的复杂、多标准特性。
  2. 合成基准生成 – 使用这些先验,条件语言模型生成大量真实的多语言搜索查询。每个查询都配有一个真实标签列表,列出那些超出典型美国中心雷达的药物资产(例如,中国专利、非英文会议论文)。
  3. Bioptic 代理设计
    • 粗略检索层:在异构数据源(专利数据库、地区期刊、预印本服务器)上进行树状结构搜索,使用多语言嵌入。
    • 细致验证层:第二阶段的 LLM 对每个候选进行来源文档验证,过滤掉幻觉或不相关的结果。
    • 自学习循环:验证层的反馈更新检索权重,使系统能够在无需人工重新标注的情况下随时间改进。
  4. 评估 – 使用经专家注释校准的 LLM‑as‑judge 模型,对基准上的每个系统的精确率、召回率和 F1 分数进行评分。

结果与发现

系统F1 分数
Bioptic Agent79.7 %
Claude Opus 4.656.2 %
Gemini 3 Pro + Deep Research50.6 %
GPT‑5.2 Pro46.6 %
Perplexity Deep Research44.2 %
Exa Websets26.9 %
  • 召回提升:Bioptic 能找回近 80 % 的隐藏资产,较最强基线提升超过 20 % 的绝对值。
  • 幻觉控制:验证层显著降低误报,即使召回率上升,精确度仍保持在高水平。
  • 计算扩展:增加检索轮次(即更深的树探索)可几乎线性提升 F1,验证了计算预算可以用于提升覆盖率。

Practical Implications

  • Accelerated deal sourcing – 投资团队可以自动化对全球专利和文献源的首次扫描,比手动搜寻提前数周发现有前景的候选对象。
  • Risk mitigation – 通过可靠地检索非英文资产,公司降低错过可能影响估值或竞争定位的突破性成果的风险。
  • Integration‑friendly – 基于树的架构可以封装为微服务,接入现有的CRM、deal‑flow平台或内部知识图谱。
  • Cost‑effective scaling – 由于性能随计算资源线性扩展,组织可以从少量GPU等适度资源起步,随着流水线证明ROI再逐步扩大。
  • Cross‑domain reuse – bioptic模式(粗检索 + 精细验证)可用于其他高召回、低幻觉的领域,如监管合规、威胁情报或科学文献评审。

限制与未来工作

  • 数据新鲜度 – 基准测试依赖于专利和出版物数据库的静态快照;实时更新(例如新提交的中国专利)可能会影响性能。
  • 语言覆盖 – 虽然支持多语言,但系统目前偏向于拥有丰富预训练嵌入的语言;低资源语言仍可能代表性不足。
  • 计算成本 – 随着计算资源的增加,收益显著提升,但也伴随更高的运营费用,这对小型企业可能构成阻碍。
  • 人机交互验证 – 本研究使用了校准至专家水平的 LLM 判官,但进行一次包含领域专家的完整用户研究将更好地量化实际可用性。
  • 扩展至治疗效力 – 未来工作可以整合下游数据(例如临床试验结果),不仅定位资产,还可按转化潜力进行排序。

作者

  • Alisa Vinogradova
  • Vlad Vinogradov
  • Luba Greenwood
  • Ilya Yasny
  • Dmitry Kobyzev
  • Shoman Kasbekar
  • Kong Nguyen
  • Dmitrii Radkevich
  • Roman Doronin
  • Andrey Doronichev

论文信息

  • arXiv ID: 2602.15019v1
  • 分类: cs.AI, cs.IR
  • 发布时间: 2026年2月16日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »