[论文] 使用 LLMs 作为外部记忆、验证和规划层的自动本体构建用于混合智能系统

发布: (2026年4月23日 GMT+8 01:19)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.20795v1

概述

本文提出了一种 混合 AI 架构,将大型语言模型(LLMs)与 外部结构化本体(存储为 RDF/OWL 知识图谱)相结合。通过自动从文档、API 和对话日志中构建并持续更新该图谱,系统为 LLM 提供了持久、可验证的记忆层,提升了多步推理、规划和可解释性。

关键贡献

  • 自动化本体管道:端到端抽取(实体与关系检测、标准化、三元组生成)来自异构源,随后进行 SHACL/OWL 验证。
  • 混合推理引擎:在 LLM 提示期间结合传统的基于向量的检索增强生成(RAG)与基于图的推理及工具使用。
  • 生成‑验证‑纠正循环:输出会根据本体约束进行检查,实现对无效结果的自动纠正或拒绝。
  • 实证验证:在经典规划基准(如汉诺塔)以及需要长期结构化知识的任务上展示可衡量的提升。
  • 面向真实世界代理的蓝图:概述该架构如何嵌入机器人、企业助理和需要可靠、可解释决策的自主软件代理中。

方法论

  1. Data Ingestion – The system pulls raw material from three channels:

    • Unstructured text (PDFs, web pages)
    • Structured API specifications (OpenAPI, GraphQL)
    • Conversational logs (chat transcripts, voice‑assistant interactions)

    数据摄取 – 系统从三个渠道获取原始材料:

    • 非结构化文本(PDF、网页)
    • 结构化 API 规范(OpenAPI、GraphQL)
    • 对话日志(聊天记录、语音助手交互)
  2. Information Extraction – A fine‑tuned LLM (or a dedicated NER/RE model) tags entities and relations, then normalizes them to a shared schema (e.g., using CURIEs).

    信息抽取 – 经过微调的 LLM(或专用的 NER/RE 模型)标记实体和关系,然后将它们规范化为共享模式(例如使用 CURIE)。

  3. Triple Generation – Normalized entities and relations are emitted as RDF triples (subject – predicate – object).

    三元组生成 – 规范化的实体和关系被输出为 RDF 三元组(subject – predicate – object)。

  4. Ontology Construction & Validation

    • The triples are merged into an OWL ontology.
    • SHACL shapes and OWL axioms enforce domain/range, cardinality, and logical constraints.
    • Invalid triples are either rejected or sent back for re‑generation.

    本体构建与验证

    • 将三元组合并到 OWL 本体中。
    • SHACL shape 和 OWL 公理强制执行域/值域、基数和逻辑约束。
    • 无效的三元组要么被拒绝,要么返回重新生成。
  5. Hybrid Retrieval at Inference Time – When a user query arrives:

    • A vector store returns top‑k relevant passages (RAG).
    • A SPARQL engine fetches related graph sub‑structures.
    • Both contexts are concatenated and fed to the LLM, which can also invoke external tools (e.g., planners, calculators).

    推理时的混合检索 – 当用户查询到达时:

    • 向量存储返回 top‑k 相关段落(RAG)。
    • SPARQL 引擎获取相关的图子结构。
    • 将两种上下文拼接后输入 LLM,LLM 还可以调用外部工具(例如规划器、计算器)。
  6. Verification Loop – The LLM’s generated answer is parsed back into triples and re‑validated against the ontology. If violations are detected, the system either corrects the answer automatically or flags it for human review.

    验证循环 – 将 LLM 生成的答案解析回三元组并再次依据本体进行验证。如果检测到违规,系统要么自动纠正答案,要么标记为人工审查。

结果与发现

指标基线 LLM(仅 RAG)混合 LLM + 本体
汉诺塔(≤ 7 个盘)成功率62 %84 %
平均规划步骤误差1.9 步0.6 步
基于本体的验证通过率71 %(事后)96 %
查询延迟增加(每次查询)+ 120 ms(由于 SPARQL 查询)

含义:添加经过验证的知识图谱可以减少幻觉,并提升 LLM 在多步推理过程中对对象和约束的跟踪能力。适度的延迟开销被可靠性和可解释性的提升所抵消。

实际影响

  • 企业 AI 助手 现在可以引用 单一真相来源(本体)来获取产品目录、合规规则或内部流程,确保生成的建议永不违反政策。
  • 机器人与自动化:规划器可以查询图谱中的对象可供性、安全约束或工作空间布局,从而在无需硬编码每条规则的情况下实现更安全的任务执行。
  • 开发者工具:IDE 插件可以自动从代码、文档和问题跟踪系统中填充项目的知识图谱,让基于 LLM 的代码助手能够推理 API 合约和依赖关系图。
  • 可解释性与可审计性:每个答案都可以追溯到支持它的具体三元组,满足金融、医疗和法律技术等领域的监管要求。
  • 可扩展的长期记忆:不同于纯 RAG,图谱在会话之间持久存在,使代理能够在数周或数月内累积并细化知识,而无需重新训练 LLM。

限制与未来工作

  • 本体质量取决于抽取准确性;尽管有 SHACL 检查,噪声源数据仍可能传播错误。
  • 当前流水线假设相对 静态的模式;快速的模式演进(例如微服务频繁更迭)可能需要更动态的对齐机制。
  • 可扩展性:在超大图上执行 SPARQL 查询可能成为瓶颈;作者建议采用增量索引和图划分作为后续步骤。
  • 泛化能力:实验聚焦于规划基准;对开放域问答、代码生成或多模态任务的更广泛评估仍未开展。

作者计划探索 自监督本体细化、与基于 LLM 的工具使用(例如函数调用)更紧密的集成,以及在仓库机器人和合规性要求高的企业环境中的实际部署。

作者

  • Pavel Salovskii
  • Iuliia Gorshkova

论文信息

  • arXiv ID: 2604.20795v1
  • 分类: cs.AI
  • 发布时间: 2026年4月22日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 多校准的样本复杂度

我们研究批量设置中 multicalibration 的 minimax 样本复杂度。学习者观察到来自未知分布的 n 个 i.i.d. 样本,并且必须输出……