[Paper] LLM用于大规模优化模型自动公式化:轻量级 Few-Shot Learning 方法
发布: (2026年1月15日 GMT+8 01:09)
8 min read
原文: arXiv
Source: arXiv - 2601.09635v1
(请提供您希望翻译的具体文本内容,我将按照要求进行简体中文翻译并保留原有的格式。)
概述
本文介绍了 LEAN‑LLM‑OPT,一个轻量级的少样本框架,使大型语言模型(LLM)能够自动将自然语言的问题描述及其数据转换为完整的大规模优化模型。通过协调一小组 LLM “agents”,先起草逐步工作流,然后执行它,系统显著减少了传统上为复杂业务决策构建优化模型所需的人工工作量。
关键贡献
- LEAN‑LLM‑OPT 工作流引擎 – 一种两阶段代理架构(上游工作流设计器 + 下游模型生成器),将规划与数据密集型执行分离。
- 少量示例提示方案 – 证明即使是规模适中的大型语言模型(例如开源的 20 B 模型),在简洁示例和结构化工作流的引导下也能取得优异成果。
- 两个新基准 – Large‑Scale‑OR 和 Air‑NRM,首个公开发布的套件,用于评估大规模运筹学问题的自动公式化。
- 真实世界验证 – 对新加坡航空公司基于选择的收益管理问题的案例研究,LEAN‑LLM‑OPT 的表现与专业构建的模型相当,甚至更优。
- 开源发布 – 代码、数据和提示均已公开,促进可重复性并让实践者快速采用。
方法论
- Input – 对决策问题的文字描述(例如,“将座位分配给票价等级以最大化收入”)以及相关数据集(历史预订、容量限制等)。
- Upstream agents – 两个 LLM 协作design a workflow:它们检索相似的过去问题,概述建模步骤(变量定义、约束、目标、数据预处理),并决定哪些步骤可以使用外部工具(例如 CSV 解析器、统计聚合器)自动化。
- Workflow representation – 以简单 DSL(Domain‑Specific Language)表达的结构化子任务列表,供下游代理读取。
- Downstream agent – 第三个 LLM 按照工作流生成实际的优化代码(通常使用 Pyomo 或 AMPL 等建模语言)。由于规划工作已完成,该代理专注于“硬”部分:选择合适的决策变量、构造非标准约束,以及嵌入无法通过通用模板捕获的业务逻辑。
- Few‑shot prompting – 系统为每个子任务提供少量带注释的示例,使 LLM 能在无需大量微调的情况下推断出模式。
- Execution & verification – 生成的模型被编译并使用商业或开源优化器求解,其解的质量与由人工专家构建的基准进行比较。
结果与发现
| 设置 | 使用的 LLM | 基准(大规模运筹学) | 收入管理案例(新加坡航空) |
|---|---|---|---|
| LEAN‑LLM‑OPT (GPT‑4.1) | GPT‑4.1 | 92 % 的专家级目标价值,较手动编码提升 1.8× | 在 5 种需求情景中表现位列 Top‑3,较现有系统提升 4 % 收入 |
| LEAN‑LLM‑OPT (gpt‑oss‑20B) | 开源 20 B | 85 % 的专家基线,可与之前最先进的 LLM 流水线相媲美 | 与专有解决方案竞争,提升 2 % |
- 首先采用工作流设计,使下游 token 使用量降低约 30 %,从而降低推理成本。
- 消融研究表明,移除上游规划代理会导致解的质量下降约 10 %,并增加失败率(语法错误、约束缺失)。
- 与单一的 LLM 提示方法相比,LEAN‑LLM‑OPT 在供应链、调度、网络设计等多种问题族上实现了更高的一致性。
Practical Implications
- 快速原型 – 数据科学家可以用普通英语描述新的优化问题,并在几分钟内获得可运行的模型,从而加快概念验证周期。
- 技能层级平衡 – 即使团队缺乏深度运筹学(OR)专业知识,也能生成高质量的模型表达式,实现对高级决策支持工具的民主化访问。
- 成本效率 – 通过少量示例提示(few‑shot prompting)而非完整微调,组织可以复用现有的大语言模型 API(包括更便宜的开源变体),无需庞大的 GPU 训练预算。
- 集成流水线 – 工作流 DSL 可嵌入 CI/CD 流程,在数据模式演变时自动更新模型,支持持续优化的部署。
- 领域特定扩展 – 模块化的代理设计使得插入自定义数据预处理工具(例如时间序列预测)或领域库(例如航空收入管理启发式算法)变得简单直观。
限制与未来工作
- 提示的可扩展性 – 非常大的问题描述可能超出令牌限制;未来的工作可以探索层次化分块或检索增强生成。
- 对模糊规范的鲁棒性 – 系统仍然依赖相对结构化的自然语言输入;处理模糊的业务语言仍是一个未解决的挑战。
- 求解器依赖性 – 性能提升依赖于底层优化器;整合求解器感知的反馈回路可能进一步提升模型质量。
- 基准覆盖范围 – 虽然 Large‑Scale‑OR 和 Air‑NRM 涵盖了许多经典运筹学领域,但增加其他基准(例如能源电网调度、物流路径规划)将加强对通用性的主张。
- 可解释性 – 将生成的模型转回人类可读的推理受限;未来版本可以在代码旁输出“一份模型解释报告”。
作者
- Kuo Liang
- Yuhang Lu
- Jianming Mao
- Shuyi Sun
- Chunwei Yang
- Congcong Zeng
- Xiao Jin
- Hanzhang Qin
- Ruihao Zhu
- Chung-Piaw Teo
论文信息
- arXiv ID: 2601.09635v1
- 分类: cs.AI, cs.LG
- 发布时间: 2026年1月14日
- PDF: 下载 PDF