[Paper] ReLoop：结构化建模与行为验证以实现可靠的基于LLM的优化

发布: 3天前 (2026年2月18日 GMT+8 04:20)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.15983v1

概述

大型语言模型（LLM）在将自然语言问题陈述转换为优化代码方面表现出色，但它们常常会产生“静默失败”：生成的代码虽然没有崩溃，却求解了错误的数学模型。论文 ReLoop 提出了双管齐下的解决方案——结构化生成和行为验证，显著降低了这些隐藏错误，使基于 LLM 的优化流水线更加可靠。

Structured Generation Pipeline – 四阶段推理链（理解 → 形式化 → 合成 → 验证），模拟人类建模者构建优化问题的过程，并通过显式的变量类型推理提前捕捉公式错误。
Behavioral Verification Framework – 轻量级、基于求解器的扰动测试，检查生成的模型是否表现如预期，无需真实代码作为对照。
IIS‑Enhanced Execution Recovery – 当验证标记错误时，系统自动提取不可约不一致子系统（Irreducible Inconsistent Subsystem, IIS），定位并修复有问题的约束。
Comprehensive Empirical Evaluation – 在五个 LLM 系列（基础模型、SFT、RL）以及三个基准套件上的实验显示，正确率从 22.6 % 提升至 31.1 %，执行成功率跃升至 100 %。
RetailOpt‑190 Dataset – 新发布的 190 条组合零售优化场景数据集，揭示了 LLM 常在多约束交互中出错的情形，供社区使用。

如果模型通过这些检查，行为验证 将启动：对生成的优化问题进行反复求解，同时系统性地扰动参数（例如需求、成本）。将得到的解轨迹与问题陈述中预期的单调性或可行性模式进行比较。偏差会触发 IIS 诊断，定位有问题的约束，以实现自动修复或人工介入纠正。

在五种大型语言模型（包括 GPT‑4 风格、微调和强化学习训练的变体）以及三个基准套件中，ReLoop 始终显著提升了正确性和执行率。行为验证器单独在单个约束错误指定的问题上贡献了最大的单次提升，而结构化流水线在深度嵌套、多阶段的零售场景中表现突出。

更安全的 AI‑辅助建模 – 开发者现在可以依赖 LLM 为供应链、调度或金融任务起草优化模型，而无需担心那些只能在昂贵的下游分析后才显现的潜在逻辑错误。
快速原型 – 四阶段链可以封装进 IDE 插件或 CI 流水线，将自然语言规格在几分钟内转换为可投产的代码，并自动标记隐藏错误。
调试即服务 – 基于 IIS 的诊断为开发者提供具体、可操作的反馈（例如，“约束 C3 混用了二进制和连续变量”），从而减少寻找细微模型错误的时间。
基于数据集的基准测试 – RetailOpt‑190 为任何构建 LLM 驱动决策支持工具的公司提供了真实的测试平台，鼓励在超出玩具示例的范围内进行更稳健的评估。
跨领域适用性 – 虽然已在线性/整数规划上演示，但验证思路同样可扩展至混合整数非线性、随机或甚至基于强化学习的优化流水线。

总体而言，ReLoop 标志着朝着可信赖的 LLM 驱动优化迈出的重要一步，它将曾经风险极高的 “code‑gen” 捷径转变为现代决策自动化流水线中的可靠组件。