[Paper] Human-in-the-Loop 与 AI:材料科学的元数据词汇众包

发布: (2025年12月11日 GMT+8 02:22)
7 min read
原文: arXiv

Source: arXiv - 2512.09895v1

概览

本文提出 MatSci‑YAMZ,一个将人工智能与人机交互(HILT)工作流相结合的原型平台——包括众包贡献——以加速材料科学研究的元数据词汇表创建。通过与六位领域专家的成功试点,作者展示了 AI 增强的众包如何使 FAIR(可查找、可获取、可互操作、可重复使用)数据实践更加可扩展且降低劳动强度。

关键贡献

  • AI 驱动的定义生成: 语言模型为新元数据术语生成草稿定义,随后通过人工反馈进行细化。
  • 人机交互工作流: 结构化的众包循环让参与者编辑、批准或拒绝 AI 生成的输出,形成透明的审计轨迹。
  • 概念验证: 六位 NSF 资助的研究者在数周内生成了 19 条经审查的术语定义,证实了该方法的可行性。
  • 开放科学契合: 平台设计明确支持 FAIR/FARR 原则,促进开放、可重复的元数据创建。
  • 可扩展协议: 作者概述了一套可重复的研究协议,可适配除材料科学之外的其他科学领域。

方法论

  1. 术语征集: 参与者通过 MatSci‑YAMZ 网页界面提交候选元数据术语及示例使用情境。
  2. AI 生成: 一个微调的大型语言模型(LLM)为每个术语草拟简明定义。
  3. 人工审查循环: 贡献者评估 AI 输出,提供编辑、接受或拒绝的反馈。其反馈被回馈给模型,以改进后续草稿。
  4. 迭代细化: 循环重复直至达成共识定义,此时该术语被加入共享词汇库。
  5. 文档记录: 所有交互均被记录,生成满足 FAIR 审计要求的来源元数据。

该工作流刻意保持轻量:参与者每个术语只需花费几分钟,AI 负责大部分语言处理工作。

结果与发现

  • 完成 19 条定义: 试点产出 19 条高质量术语定义,每条至少经两位专家审查。
  • 快速收敛: 大多数术语仅需 2–3 次反馈迭代即可达成共识,将传统数周的手工起草过程压缩至数天。
  • 积极的用户体验: 参与者报告 AI 建议作为有用的“首稿”,降低认知负担并激发讨论。
  • FAIR 合规性: 生成的词汇表配有持久标识符、机器可读模式和清晰来源,满足核心 FAIR 标准。
  • 可扩展性信号: 工作流的模块化设计表明,在适度的额外工程支持下,可处理数百名贡献者和更复杂的本体。

实际意义

  • 更快的数据导入: 实验室可以即时生成领域特定的元数据词汇表,加速新数据集在共享仓库中的集成。
  • 降低人力成本: 将初稿工作交给 LLM 后,组织可减少专职策展员数量,将人力资源用于更高层次的语义设计。
  • 跨学科互操作性: 标准化的 AI 增强流程有助于对齐子领域(如计算化学、纳米制造)的词汇表,简化团队间的数据交换。
  • 工具集成: 平台的 API 可接入现有 ELN(电子实验记录本)系统、数据发布的 CI 流水线或 Materials Project 等社区门户,实现“一键”元数据生成。
  • 社区建设: 众包细化鼓励更广泛的利益相关者参与,促进共识与对生成标准的信任。

局限性与未来工作

  • 领域专业瓶颈: 试点依赖于一小群高度专业化的成员;向更大、更异构的社区扩展可能出现协同挑战。
  • LLM 偏见: 语言模型可能继承训练数据中的术语偏见,需要人工持续监督以避免传播过时或错误的定义。
  • 评估范围: 本研究衡量了可行性和用户满意度,但未量化对数据再利用指标的下游影响。
  • 未来方向: 作者计划(1)在更大、公开的众包环境中测试工作流;(2)引入主动学习,使模型优先处理模糊术语;(3)将生成的词汇表与现有本体进行基准比较,以评估语义覆盖度。

MatSci‑YAMZ 展示了 AI 与人类协作的智能融合如何将传统缓慢、手工的元数据词汇表创建转变为快速、社区驱动的过程——这一进步有望加速 FAIR 数据在众多科学与工程领域的采纳。

作者

  • Jane Greenberg
  • Scott McClellan
  • Addy Ireland
  • Robert Sammarco
  • Colton Gerber
  • Christopher B. Rauch
  • Mat Kelly
  • John Kunze
  • Yuan An
  • Eric Toberer

论文信息

  • arXiv ID: 2512.09895v1
  • 分类: cs.AI, cs.DL
  • 出版时间: 2025 年 12 月 10 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »