[Paper] RxnBench:一个用于评估大语言模型在科学文献中对化学反应理解的多模态基准
发布: (2025年12月30日 GMT+8 00:05)
6 min read
原文: arXiv
Source: arXiv - 2512.23565v1
请提供您希望翻译的具体文本内容,我将按照要求将其译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。谢谢!
概述
一个名为 RxnBench 的新基准测试将能够同时查看图像和读取文本的大型多模态语言模型(LLM)置于真实化学论文的考验之中。通过关注这些模型对反应示意图、表格和叙述性文本的理解程度,作者揭示了一个隐藏的性能差距,这对任何基于 AI 的化学工作流程都至关重要。
关键贡献
- RxnBench 基准 – 一个两层套件(单图 QA 和全文档 QA),基于 305 个反应示意图和 108 篇同行评审文章构建。
- 1,525 条细粒度 QA 对,需要对分子结构进行视觉解析、识别箭头/机制,并进行逻辑推理。
- 全面评估 多个最先进的多模态大语言模型(例如 GPT‑4V、LLaVA、MiniGPT‑4)在两项任务上的表现。
- 实证洞察 表明推理时模块可提升性能,但仍无模型在全文档任务上达到 50 % 的准确率。
- 明确的行动号召,呼吁开发领域特定的视觉编码器和更强的化学推理组件。
方法论
- 数据策划 – 团队从开放获取的化学期刊中挖掘,提取 PDF 页面,并手动挑选包含丰富视觉线索(结构、试剂、条件)的反应示意图。
- 任务设计
- SF‑QA(单图问答):每个反应图配有多项选择或简答题,考察视觉感知(例如,“产物的官能团是什么?”)以及机理推理(例如,“哪一步是速率决定步骤?”)。
- FD‑QA(全文问答):模型接收整篇文章(文本 + 所有图形 + 表格),并需回答需要跨模态信息整合的高级问题(例如,“文中描述的最高效路径使用了哪种催化剂?”)。
- 模型评估 – 提示在各模型间保持统一;输出自动与金标准答案键对比。对于支持链式思考或工具使用的模型,作者启用了这些功能,以衡量推理时推断的影响。
- 分析 – 记录准确率、错误类型(视觉误识别 vs. 逻辑谬误)以及运行时间,以定位失效模式。
结果与发现
| 任务 | 最佳模型(含推理) | 原始准确率 | 主要失效模式 |
|---|---|---|---|
| SF‑QA | GPT‑4V(推理) | 38 % | 错误识别立体化学,混淆相似的子结构 |
| FD‑QA | LLaVA‑13B(推理) | 27 % | 无法将图注与正文关联,遗漏表格数值 |
| 仅文本提取(基线) | 所有模型 | > 80 % | – |
- 视觉感知是瓶颈:模型通常能正确读取周围的图注,但会误读实际的分子图示。
- 推理模块(链式思考、工具使用)带来约10‑15 %的提升,证实“思考”有帮助,但仍未弥合差距。
- 跨模态集成仍然薄弱;所有评估的系统都无法可靠地将表格、图形和段落中的数据结合起来回答复合问题。
实际意义
- 自动文献挖掘: 当前的多模态 LLM 能可靠提取文本元数据(标题、摘要、说明),但尚不能取代化学家提取反应条件或机制洞察。
- AI‑辅助合成规划: 依赖 LLM 驱动的反应提取工具需要专门的视觉前端(例如,经过化学训练的图像编码器),以避免传播结构错误。
- 知识图谱构建: 从 PDF 构建可检索的反应数据库仍然需要人工在环验证结构组件。
- 生产力插件: 面向化学家的 IDE 风格扩展(例如 “在此 PDF 中高亮试剂”)今天已经可以实现,但更深入的问答仍需下一代模型。
限制与未来工作
- 领域覆盖: RxnBench 侧重于有机合成论文;其他子领域(材料、生物化学)未被涵盖。
- 评估规模: 仅测试了少数公开可用的多模态大语言模型;专有模型的表现可能不同。
- 人工标注偏差: QA 对由一小组化学家编写,可能限制问题风格的多样性。
- 未来方向 作者建议包括:在大型反应方案数据集上训练视觉编码器,整合符号化学推理引擎(例如基于规则的逆合成),以及扩展基准以覆盖多步骤合成路线和动力学数据。
作者
- Hanzheng Li
- Xi Fang
- Yixuan Li
- Chaozheng Huang
- Junjie Wang
- Xi Wang
- Hongzhe Bai
- Bojun Hao
- Shenyu Lin
- Huiqi Liang
- Linfeng Zhang
- Guolin Ke
论文信息
- arXiv ID: 2512.23565v1
- 分类: cs.CV, cs.AI
- 发表时间: 2025年12月29日
- PDF: 下载 PDF