[Paper] 类型感知检索增强生成与依赖闭包用于求解器可执行的工业优化建模

发布: 2天前 (2026年3月4日 GMT+8 01:41)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.03180v1

请提供您希望翻译的具体文本内容，我将按照要求将其翻译成简体中文并保留原有的格式。

概述

本文解决了在将大型语言模型（LLM）应用于工业优化时长期存在的障碍：将自然语言问题陈述转化为可供求解器执行的代码，且不出现语法或类型错误。通过将类型感知检索与依赖闭包机制相结合，作者展示了一个系统，能够可靠地为实际案例（如电池工厂需求响应和柔性作业车间调度）生成可编译的优化模型。

Typed Knowledge Base (KB): 通过解析异构来源（研究论文、现有求解器脚本），将其构建为领域特定的 KB，并将其转换为 类型化 实体（变量、约束、集合），再通过依赖图进行链接。
Hybrid Retrieval‑Augmented Generation (RAG): 检索文本片段和结构化的类型化单元，然后将其输入到能够感知实体类型的 LLM 中。
Minimal Dependency Closure: 引入一种算法，计算生成模型可执行所需的最小符号集合，防止缺少声明和 “幻觉” 约束。
Cross‑Domain Validation: 展示该方法在两个不同的、约束密集的工业问题上有效，性能优于依赖非结构化文本检索的标准 RAG 基线。
Ablation Study: 证明去除类型感知或依赖闭合会显著降低可编译性和解的质量。

知识提取 – 学术文章、开源求解器代码和内部文档通过 NLP 与静态分析工具相结合进行解析。每个提取的片段（例如变量定义、约束模板）被分配一个类型（参数、决策变量、集合等）。
图构建 – 带类型的实体成为知识图中的节点；边表示数学依赖关系（例如约束依赖于特定变量）。
混合检索 – 给定自然语言请求，系统首先在文本段落上进行密集向量搜索，然后在图上进行类型过滤查找，以提取相关的带类型节点。
依赖闭包计算 – 从检索到的节点出发，传播算法扩展集合，直至所有构成语法正确模型所需的符号均已包含。结果是最小闭合上下文。
LLM 生成 – 将闭合上下文与用户提示拼接后送入大语言模型（如 GPT‑4）。由于上下文已包含正确类型的符号，模型的输出会倾向于生成有效的声明和约束公式。
后处理与编译检查 – 生成的代码通过轻量级解析器检查，标记任何剩余的类型不匹配，然后再发送给工业求解器（如 Gurobi、CPLEX）。

案例研究	基线（普通RAG）	提议方法	成功指标
电池需求响应	78 % 运行中不可编译；未满足负荷削减约束	100 % 可编译；实现峰值削减，同时利润保持在基线的 2 % 以内	可执行模型 + 接近最优目标
灵活作业车间调度	0 % 可编译；所有尝试均出现求解器错误	96 % 可编译；解在 89 % 运行中匹配已知最优完工时间	高可编译性 + 最优性