[Paper] 用于 Neuro-Symbolic Programming 的 Agentic 框架

发布: (2026年1月3日 GMT+8 00:59)
7 min read
原文: arXiv

Source: arXiv - 2601.00743v1

概述

论文介绍了 AgenticDomiKnowS (ADS),一个新框架,使开发者能够用自然语言描述神经‑符号任务,并自动生成完整的 DomiKnowS 程序。通过将自由形式的提示转化为可执行代码,ADS 消除了原始 DomiKnowS 库的陡峭学习曲线,并将原型开发时间从数小时缩短至仅 10‑15 分钟。

关键贡献

  • Agentic translation pipeline:一种由 LLM 驱动的工作流,解析自然语言任务,创建每个 DomiKnowS 组件(数据加载器、符号约束、神经模块),并逐步验证它们。
  • Human‑in‑the‑loop optionality:熟悉 DomiKnowS 的开发者可以在任意阶段介入,编辑或批准生成的代码片段,将自动化与专家控制相结合。
  • Speedup in development:实证用户研究表明,端到端编码时间从数小时降低至约 10‑15 分钟,适用于新手和有经验的 DomiKnowS 用户。
  • Modular testing harness:每个生成的组件在组装前都会针对合成输入进行单元测试,提高最终神经符号程序的可靠性。
  • Open‑source reference implementation:作者将 ADS 作为 Python 包发布,并提供示例笔记本,便于集成到现有 AI 流程中。

方法论

  1. 提示摄取 – 用户提供对所需神经符号任务的自由描述(例如,“在分类图像时强制检测到的对象计数之和等于报告的总数”)。
  2. 任务分解 – 大语言模型(GPT‑4‑style)将描述拆解为结构化计划:数据获取、神经模型选择、符号约束以及集成点。
  3. 组件生成 – 对于计划中的每一项,ADS 调用专门的“代理”,生成相应的 DomiKnowS 代码片段(例如 SymbolicConstraint 类)。
  4. 本地验证 – 生成的片段在自动创建的测试用例上运行(合成数据满足/违反约束)。若出现失败,则触发再生成循环。
  5. 人工参与(可选) – 如果开发者选择加入,人机交互环节会显示中间代码供审查,并在继续之前进行手动编辑。
  6. 程序组装 – 通过验证的片段被拼接成完整的 DomiKnowS 脚本,随后在目标数据集上执行。
  7. 反馈循环 – 执行日志被反馈给 LLM,以微调后续提示,逐步提升生成质量。

该工作流刻意保持模块化,允许各代理自由替换(例如使用不同的 LLM 或基于规则的解析器),而不会破坏整体系统。

结果与发现

  • Time‑to‑prototype:在一项包含 12 名参与者(6 名 DomiKnowS 专家,6 名新手)的受控研究中,平均编码时间从 3.2 h(手动)降至 12 min(ADS)。
  • Correctness:生成的程序中有 87 % 在首次运行时通过了所有单元测试;其余 13 % 需要进行一次重新生成。
  • User satisfaction:调查评分(1–5 Likert)在易用性方面平均为 4.6,在对生成代码的信心方面平均为 4.2
  • Scalability:ADS 成功为三个基准神经符号任务(视觉问答、基于物理的推理以及规则引导的文本分类)生成程序,且无需任务特定的调优。

Practical Implications

  • 快速原型:团队可以在没有 DomiKnowS 深度专业知识的情况下,在新数据集上快速搭建神经符号流水线,加速研究到产品的周期。
  • 降低准入门槛:初创公司和产品工程师可以在深度模型旁实验符号约束(例如业务规则、安全检查),从而培育更可信的 AI 解决方案。
  • 人机协同的 AI 开发:可选的审查步骤让高级工程师保持控制权,同时将模板代码生成委派给代理,提高生产力且不牺牲质量。
  • 与现有技术栈集成:由于 ADS 输出纯 Python/DomiKnowS 代码,可直接嵌入 CI 流水线、容器化服务或 Jupyter Notebook,几乎没有摩擦。
  • 数据效率:通过鼓励使用符号先验,开发者可以在更少标注样本下实现相当的性能——这对数据稀缺的领域(如医学影像、科学仿真)可节省成本。

限制与未来工作

  • 对 LLM 质量的依赖:生成代码的准确性取决于底层语言模型;领域外的术语仍可能导致解析错误。
  • 仅限于 DomiKnowS:虽然模块化设计可以扩展,但 ADS 目前仅支持 DomiKnowS API,限制了使用其他神经符号库的团队的采用。
  • 符号测试的可扩展性:单元测试生成假设约束相对简单;更复杂的逻辑公式可能需要更高级的测试用例合成。
  • 未来方向:作者计划 (1) 添加多 LLM 集成以实现更稳健的解析,(2) 将支持范围扩大到其他神经符号框架(如 DeepProbLog、Neuro‑Symbolic Concept Learner),以及 (3) 融入基于强化学习的自我调试,以进一步减少重新生成循环。

作者

  • Aliakbar Nafar
  • Chetan Chigurupati
  • Danial Kamali
  • Hamid Karimian
  • Parisa Kordjamshidi

论文信息

  • arXiv ID: 2601.00743v1
  • 分类: cs.AI
  • 发布日期: 2026年1月2日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »