[Paper] Human-in-the-Loop 与 AI：材料科学的元数据词汇众包

发布: 4个月前 (2025年12月11日 GMT+8 02:22)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.09895v1

概览

本文提出 MatSci‑YAMZ，一个将人工智能与人机交互（HILT）工作流相结合的原型平台——包括众包贡献——以加速材料科学研究的元数据词汇表创建。通过与六位领域专家的成功试点，作者展示了 AI 增强的众包如何使 FAIR（可查找、可获取、可互操作、可重复使用）数据实践更加可扩展且降低劳动强度。

关键贡献

AI 驱动的定义生成： 语言模型为新元数据术语生成草稿定义，随后通过人工反馈进行细化。
人机交互工作流： 结构化的众包循环让参与者编辑、批准或拒绝 AI 生成的输出，形成透明的审计轨迹。
概念验证： 六位 NSF 资助的研究者在数周内生成了 19 条经审查的术语定义，证实了该方法的可行性。
开放科学契合： 平台设计明确支持 FAIR/FARR 原则，促进开放、可重复的元数据创建。
可扩展协议： 作者概述了一套可重复的研究协议，可适配除材料科学之外的其他科学领域。

方法论

术语征集： 参与者通过 MatSci‑YAMZ 网页界面提交候选元数据术语及示例使用情境。
AI 生成： 一个微调的大型语言模型（LLM）为每个术语草拟简明定义。
人工审查循环： 贡献者评估 AI 输出，提供编辑、接受或拒绝的反馈。其反馈被回馈给模型，以改进后续草稿。
迭代细化： 循环重复直至达成共识定义，此时该术语被加入共享词汇库。
文档记录： 所有交互均被记录，生成满足 FAIR 审计要求的来源元数据。

该工作流刻意保持轻量：参与者每个术语只需花费几分钟，AI 负责大部分语言处理工作。

结果与发现

完成 19 条定义： 试点产出 19 条高质量术语定义，每条至少经两位专家审查。
快速收敛： 大多数术语仅需 2–3 次反馈迭代即可达成共识，将传统数周的手工起草过程压缩至数天。
积极的用户体验： 参与者报告 AI 建议作为有用的“首稿”，降低认知负担并激发讨论。
FAIR 合规性： 生成的词汇表配有持久标识符、机器可读模式和清晰来源，满足核心 FAIR 标准。
可扩展性信号： 工作流的模块化设计表明，在适度的额外工程支持下，可处理数百名贡献者和更复杂的本体。

实际意义

更快的数据导入： 实验室可以即时生成领域特定的元数据词汇表，加速新数据集在共享仓库中的集成。
降低人力成本： 将初稿工作交给 LLM 后，组织可减少专职策展员数量，将人力资源用于更高层次的语义设计。
跨学科互操作性： 标准化的 AI 增强流程有助于对齐子领域（如计算化学、纳米制造）的词汇表，简化团队间的数据交换。
工具集成： 平台的 API 可接入现有 ELN（电子实验记录本）系统、数据发布的 CI 流水线或 Materials Project 等社区门户，实现“一键”元数据生成。
社区建设： 众包细化鼓励更广泛的利益相关者参与，促进共识与对生成标准的信任。

局限性与未来工作

领域专业瓶颈： 试点依赖于一小群高度专业化的成员；向更大、更异构的社区扩展可能出现协同挑战。
LLM 偏见： 语言模型可能继承训练数据中的术语偏见，需要人工持续监督以避免传播过时或错误的定义。
评估范围： 本研究衡量了可行性和用户满意度，但未量化对数据再利用指标的下游影响。
未来方向： 作者计划（1）在更大、公开的众包环境中测试工作流；（2）引入主动学习，使模型优先处理模糊术语；（3）将生成的词汇表与现有本体进行基准比较，以评估语义覆盖度。

MatSci‑YAMZ 展示了 AI 与人类协作的智能融合如何将传统缓慢、手工的元数据词汇表创建转变为快速、社区驱动的过程——这一进步有望加速 FAIR 数据在众多科学与工程领域的采纳。

作者

Jane Greenberg
Scott McClellan
Addy Ireland
Robert Sammarco
Colton Gerber
Christopher B. Rauch
Mat Kelly
John Kunze
Yuan An
Eric Toberer

论文信息

arXiv ID: 2512.09895v1
分类: cs.AI, cs.DL
出版时间: 2025 年 12 月 10 日
PDF: Download PDF

[Paper] Human-in-the-Loop 与 AI：材料科学的元数据词汇众包

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型