[Paper] 从研究问题到科学工作流：利用 Agentic AI 实现科学自动化

发布: 22小时前 (2026年4月24日 GMT+8 01:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.21910v1

Overview

本文提出了一种三层的“agentic AI”架构，使科学家能够用普通英语描述研究问题，并自动获得一个完整、可复现的工作流，能够在现代编排平台（例如 Kubernetes）上直接运行。通过将查询的语义解释与工作流的确定性生成分离，该系统弥合了长期存在的高层科学意图与底层执行引擎之间的鸿沟。

语义层 (LLM) – 大型语言模型接收用户的自然语言问题，并生成结构化的意图（例如，“使用 1000 Genomes 数据集在染色体 22 上运行 GWAS”）。
知识层 (Skills) – 领域专家编写 markdown “Skill” 文件，将科学术语映射到具体的工作流组件，定义允许的参数范围，并提供性能调优策略。系统根据这些 Skills 验证 LLM 的意图，纠正或拒绝模糊的部分。
确定性层 – 基于规则的生成器使用已验证的意图和相关的 Skills，生成符合 Hyperflow 工作流描述语言的有向无环图 (DAG)。由于此步骤纯粹基于规则，相同的意图始终产生相同的 DAG。
执行 – 生成的 DAG 被提交到 Hyperflow，后者在 Kubernetes 集群上调度容器。该管道测量总延迟、LLM 推理成本和数据移动开销。

研究表明，Skills 层不仅提升了语义理解，还通过剪枝不必要的数据移动实现了显著的运行时节省。整体系统仍然足够轻量，能够在按需科学查询中使用，而不会产生高额的云计算费用。

Skill authoring overhead：虽然 markdown Skills 轻量，但创建和维护高质量的 Skill 库仍然需要领域专家，可能成为小众领域的瓶颈。
LLM reliance for intent extraction：语义层的错误（例如表述模糊）会向下游传播；当前系统通过验证来缓解，但并未根除。
Scalability to massive DAGs：评估仅聚焦于单节点基因组学工作流；未来工作应在多阶段、多个 PB 级别的管道上测试该架构。
Security & provenance：自动生成工作流会引发意外的数据泄露或滥用风险；将细粒度访问控制和审计追踪集成进来是一个开放的研究方向。

总体而言，本文展示了一条通往真正“自然语言驱动”科学计算的有前景路径，能够将研究问题转化为可复现的、云原生工作流，并将人为摩擦降至最低。