[Paper] RxnBench：一个用于评估大语言模型在科学文献中对化学反应理解的多模态基准

发布: 1周前 (2025年12月30日 GMT+8 00:05)

6 min read

原文: arXiv

Source: arXiv - 2512.23565v1

请提供您希望翻译的具体文本内容，我将按照要求将其译成简体中文，并保留原始的格式、Markdown 语法以及技术术语。谢谢！

概述

一个名为 RxnBench 的新基准测试将能够同时查看图像和读取文本的大型多模态语言模型（LLM）置于真实化学论文的考验之中。通过关注这些模型对反应示意图、表格和叙述性文本的理解程度，作者揭示了一个隐藏的性能差距，这对任何基于 AI 的化学工作流程都至关重要。

数据策划 – 团队从开放获取的化学期刊中挖掘，提取 PDF 页面，并手动挑选包含丰富视觉线索（结构、试剂、条件）的反应示意图。
任务设计
- SF‑QA（单图问答）：每个反应图配有多项选择或简答题，考察视觉感知（例如，“产物的官能团是什么？”）以及机理推理（例如，“哪一步是速率决定步骤？”）。
- FD‑QA（全文问答）：模型接收整篇文章（文本 + 所有图形 + 表格），并需回答需要跨模态信息整合的高级问题（例如，“文中描述的最高效路径使用了哪种催化剂？”）。
模型评估 – 提示在各模型间保持统一；输出自动与金标准答案键对比。对于支持链式思考或工具使用的模型，作者启用了这些功能，以衡量推理时推断的影响。
分析 – 记录准确率、错误类型（视觉误识别 vs. 逻辑谬误）以及运行时间，以定位失效模式。

任务	最佳模型（含推理）	原始准确率	主要失效模式
SF‑QA	GPT‑4V（推理）	38 %	错误识别立体化学，混淆相似的子结构
FD‑QA	LLaVA‑13B（推理）	27 %	无法将图注与正文关联，遗漏表格数值
仅文本提取（基线）	所有模型	> 80 %	–

领域覆盖: RxnBench 侧重于有机合成论文；其他子领域（材料、生物化学）未被涵盖。
评估规模: 仅测试了少数公开可用的多模态大语言模型；专有模型的表现可能不同。
人工标注偏差: QA 对由一小组化学家编写，可能限制问题风格的多样性。
未来方向 作者建议包括：在大型反应方案数据集上训练视觉编码器，整合符号化学推理引擎（例如基于规则的逆合成），以及扩展基准以覆盖多步骤合成路线和动力学数据。