[Paper] Human-in-the-Loop 与 AI:材料科学的元数据词汇众包
发布: (2025年12月11日 GMT+8 02:22)
7 min read
原文: arXiv
Source: arXiv - 2512.09895v1
概览
本文提出 MatSci‑YAMZ,一个将人工智能与人机交互(HILT)工作流相结合的原型平台——包括众包贡献——以加速材料科学研究的元数据词汇表创建。通过与六位领域专家的成功试点,作者展示了 AI 增强的众包如何使 FAIR(可查找、可获取、可互操作、可重复使用)数据实践更加可扩展且降低劳动强度。
关键贡献
- AI 驱动的定义生成: 语言模型为新元数据术语生成草稿定义,随后通过人工反馈进行细化。
- 人机交互工作流: 结构化的众包循环让参与者编辑、批准或拒绝 AI 生成的输出,形成透明的审计轨迹。
- 概念验证: 六位 NSF 资助的研究者在数周内生成了 19 条经审查的术语定义,证实了该方法的可行性。
- 开放科学契合: 平台设计明确支持 FAIR/FARR 原则,促进开放、可重复的元数据创建。
- 可扩展协议: 作者概述了一套可重复的研究协议,可适配除材料科学之外的其他科学领域。
方法论
- 术语征集: 参与者通过 MatSci‑YAMZ 网页界面提交候选元数据术语及示例使用情境。
- AI 生成: 一个微调的大型语言模型(LLM)为每个术语草拟简明定义。
- 人工审查循环: 贡献者评估 AI 输出,提供编辑、接受或拒绝的反馈。其反馈被回馈给模型,以改进后续草稿。
- 迭代细化: 循环重复直至达成共识定义,此时该术语被加入共享词汇库。
- 文档记录: 所有交互均被记录,生成满足 FAIR 审计要求的来源元数据。
该工作流刻意保持轻量:参与者每个术语只需花费几分钟,AI 负责大部分语言处理工作。
结果与发现
- 完成 19 条定义: 试点产出 19 条高质量术语定义,每条至少经两位专家审查。
- 快速收敛: 大多数术语仅需 2–3 次反馈迭代即可达成共识,将传统数周的手工起草过程压缩至数天。
- 积极的用户体验: 参与者报告 AI 建议作为有用的“首稿”,降低认知负担并激发讨论。
- FAIR 合规性: 生成的词汇表配有持久标识符、机器可读模式和清晰来源,满足核心 FAIR 标准。
- 可扩展性信号: 工作流的模块化设计表明,在适度的额外工程支持下,可处理数百名贡献者和更复杂的本体。
实际意义
- 更快的数据导入: 实验室可以即时生成领域特定的元数据词汇表,加速新数据集在共享仓库中的集成。
- 降低人力成本: 将初稿工作交给 LLM 后,组织可减少专职策展员数量,将人力资源用于更高层次的语义设计。
- 跨学科互操作性: 标准化的 AI 增强流程有助于对齐子领域(如计算化学、纳米制造)的词汇表,简化团队间的数据交换。
- 工具集成: 平台的 API 可接入现有 ELN(电子实验记录本)系统、数据发布的 CI 流水线或 Materials Project 等社区门户,实现“一键”元数据生成。
- 社区建设: 众包细化鼓励更广泛的利益相关者参与,促进共识与对生成标准的信任。
局限性与未来工作
- 领域专业瓶颈: 试点依赖于一小群高度专业化的成员;向更大、更异构的社区扩展可能出现协同挑战。
- LLM 偏见: 语言模型可能继承训练数据中的术语偏见,需要人工持续监督以避免传播过时或错误的定义。
- 评估范围: 本研究衡量了可行性和用户满意度,但未量化对数据再利用指标的下游影响。
- 未来方向: 作者计划(1)在更大、公开的众包环境中测试工作流;(2)引入主动学习,使模型优先处理模糊术语;(3)将生成的词汇表与现有本体进行基准比较,以评估语义覆盖度。
MatSci‑YAMZ 展示了 AI 与人类协作的智能融合如何将传统缓慢、手工的元数据词汇表创建转变为快速、社区驱动的过程——这一进步有望加速 FAIR 数据在众多科学与工程领域的采纳。
作者
- Jane Greenberg
- Scott McClellan
- Addy Ireland
- Robert Sammarco
- Colton Gerber
- Christopher B. Rauch
- Mat Kelly
- John Kunze
- Yuan An
- Eric Toberer
论文信息
- arXiv ID: 2512.09895v1
- 分类: cs.AI, cs.DL
- 出版时间: 2025 年 12 月 10 日
- PDF: Download PDF