[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

发布: 3天前 (2026年2月27日 GMT+8 02:37)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.23329v1

概述

最近的研究调查了大型语言模型（LLMs）是否真的能够提升缺乏或没有生物学训练的人的表现，这些任务传统上是专家的领域。通过比较能够查询LLM的新手与只能使用标准网页搜索的新手，作者展示了LLM的访问可以显著提高非专家在一系列生物安全相关问题上的准确性——这既带来了科学加速的激动人心的机会，也引发了严重的双重用途担忧。

关键贡献

以人为本的提升研究： 首个大规模实验衡量大型语言模型（LLM）在真实生物学任务中提升新手表现，而不仅是模型内部基准。
量化提升： 使用 LLM 的新手准确率比仅使用互联网的同伴高 4.16 倍（95 % 置信区间 [2.63, 6.87]）。
专家水平表现： 在四个拥有专家基线的基准上，借助 LLM 的新手在三项任务中超越了专家得分。
LLM 与 LLM 辅助人类的比较： 单独的 LLM 往往优于通过人类使用同一 LLM 的情况，表明提示或交互策略未达最佳。
低门槛的双重用途信息获取： 89.6 % 的参与者报告称，即使已有防护措施，他们仍能轻松获取潜在危险的生物信息。
呼吁交互式评估： 作者认为传统的静态基准不足以评估；需要通过真实用户进行持续的“提升”测试，以跟踪收益与风险。

方法论

参与者池: ~200 名志愿者，生物学背景极少（自认新手）。
任务集: 八个不同的生物安全相关问题（例如蛋白质设计、病原体检测、合成基因合成），取自已建立的生物学基准。
条件:
- 对照组: 仅访问公共互联网资源（搜索引擎、维基、论坛）。
- LLM 辅助: 同样的互联网访问加上查询一套最先进的大语言模型（ChatGPT‑4、Claude、LLaMA‑2 等）的能力。
时间限制: 任务从快速查找事实（≤30 分钟）到深度设计挑战（最长 13 小时）不等。
评估: 将答案与真实解答进行评分；若存在专家基准，则使用这些分数进行比较。
调查: 任务后问卷记录参与者对难度的感知、信心以及获取双用途信息时遇到的任何障碍。

结果与发现

总体提升: 使用 LLM 辅助的新人平均准确率为 68 %，而仅使用互联网的对照组为 16 %。
任务层面差异: 最大的收益出现在复杂的设计问题（例如，de‑novo 酶设计），LLM 提供了合理的序列和推理。
专家比较: 在四个基准中的三个（蛋白质功能预测、CRISPR 引导设计、代谢通路重建），LLM 辅助的新人超越了专家基线（专家平均准确率约 55 %）。
单纯 LLM 与人机协同: 纯 LLM 输出的得分比最佳的人机协同尝试高约 10 %，这表明新人并未始终从模型中提取最相关或最精确的信息。
双重用途可及性: 接近 90 % 的受访者报告获取潜在有害协议（例如，病毒减毒步骤）为 “容易” 或 “非常容易”，尽管模型层面设有内容过滤。

实际意义

加速原型设计: 开发生物技术工具的开发者可以利用大型语言模型，让非专业人士生成可行的假设、起草实验计划，甚至编写生物信息学流水线的代码——显著缩短学习曲线。
教育与培训: 交互式 LLM 导师可以补充大学课程，使学生能够在无需完整实验室的情况下练习真实世界的问题解决。
风险管理: 提取双用途知识的便利性凸显了在任何面向科学领域的商业 LLM 产品中需要强有力的防护措施（提示层面的限流、使用监控以及基于政策的 API 限制）。
产品设计: 公司可以考虑构建“人机交互”界面，在展示 LLM 建议的同时提示用户验证和完善输出，从而弥合原始模型性能与有效人类使用之间的差距。
监管意识: 政策制定者应注意 LLM 能够使先进的生物技术能力大众化，这将促使生物安全指南和负责任的 AI 框架进行更新。

限制与未来工作

参与者专业水平差异: 虽然标记为“新手”，但一些志愿者有非正式的生物学接触，这可能会夸大提升估计。
提示工程差距: 研究未系统探索最佳提示策略；更好的用户培训可能缩小仅LLM 与 LLM‑辅助结果之间的性能差距。
模型多样性: 仅测试了少数公开可用的LLM；专有或领域微调模型可能产生不同的提升模式。
长期保持: 实验测量了即时任务表现；尚不清楚LLM 辅助是否能导致持久的技能获取。
伦理保障: 虽然参与者报告获取双重用途信息的难度低，但研究未评估在对抗性提示下现有内容过滤器的有效性——这是一个值得深入研究的领域。

底线: LLM已经足够强大，能够将生物学新手转变为能够解决曾经只属于受过训练的科学家的任务的胜任问题解决者。这种民主化带来了生产力提升的浪潮，也迫切需要负责任的部署策略。

作者

Chen Bo Calvin Zhang
Christina Q. Knight
Nicholas Kruus
Jason Hausenloy
Pedro Medeiros
Nathaniel Li
Aiden Kim
Yury Orlovskiy
Coleman Breen
Bryce Cai
Jasper Götting
Andrew Bo Liu
Samira Nedungadi
Paula Rodriguez
Yannis Yiming He
Mohamed Shaaban
Zifan Wang
Seth Donoughe
Julian Michael

论文信息

arXiv ID: 2602.23329v1
分类: cs.AI, cs.CL, cs.CR, cs.CY, cs.HC
发表时间: 2026年2月26日
PDF: Download PDF

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

【论文】InnerQ：硬件感知免调优KV缓存量化用于大语言模型

[Paper] 微调不忘记上下文学习：线性注意力模型的理论分析