[论文] 单循环双层深度学习方法用于障碍问题的最优控制

发布: 1个月前 (2026年1月8日 GMT+8 01:30)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.04120v1

概述

本文解决了障碍问题的最优控制这一极具挑战性的难题——在物理或仿真系统必须保持在移动“障碍物”之上（或之下）的同时，最小化成本。传统求解器依赖细网格离散和嵌套的优化循环，在高维或不规则域中很快就会变得计算上不可行。作者提出了一种单循环双层深度学习框架，用神经网络取代基于网格的子求解器，从而显著缩短运行时间，同时保持解的质量。

关键贡献

无网格双层公式：使用神经网络同时表示状态（PDE 的解）和控制，消除昂贵的网格生成需求。
约束嵌入网络：网络结构被设计为自动满足障碍约束，使优化器永不进入不可行区域。
单循环随机一阶双层算法 (S2‑FOBA)：一种新颖的训练算法，去除了双层问题典型的内外循环结构，实现端到端的基于梯度的学习。
收敛性分析：在温和的光滑性和有界方差假设下，为 S2‑FOBA 提供理论保证，无需唯一的下层解。
广泛的实证验证：在基准分布式控制和障碍控制任务上展示出与经典有限元方法相当或更好的精度，且加速可达一个数量级。

方法论

问题编码
- 障碍最优控制问题被表述为 双层优化：下层求解变分不等式（带有障碍约束的 PDE），上层在控制变量上最小化性能泛函。
神经代理模型
- 引入两个神经网络，$ \mathcal{N}\theta $（状态）和 $ \mathcal{M}\phi $（控制）。
- 状态网络采用 约束嵌入层（例如 ReLU 或投影到可行集）构建，确保障碍不等式始终得到满足。
单循环训练 (S2‑FOBA)
- 与其在每次外层迭代中将下层问题求解到最优，算法将下层最优性条件视为 随机一阶残差，并使用无偏梯度估计器同时更新 $ \theta $ 和 $ \phi $。
- 在域内对配点进行小批量采样，以获得 PDE 残差和目标梯度的随机估计。
- 精心选择的步长调度确保耦合更新收敛到原始双层问题的驻点。
实现细节
- 无网格配点从简单分布（均匀或 Sobol 序列）中抽取，使该方法在高维下易于扩展。
- 自动微分框架（PyTorch、JAX）计算所有所需梯度，使得整个流程能够干净地集成到现有深度学习工具链中。

结果与发现

测试案例	域	障碍类型	相对误差（状态）	运行时间（相对于 FEM）
分布式控制（2‑D 正方形）	常规	光滑	2.1 %	0.12×
障碍控制（L‑形）	不规则	分段常数	3.4 %	0.09×
高维（3‑D 球体）	复杂	随机场	4.0 %	0.08×

准确性：在所有基准测试中，神经代理相对于高分辨率有限元解的相对误差 ≤ 4 %。
速度：由于 S2‑FOBA 避免了对下层 PDE 的重复求解，总壁钟时间降至 8–12 % 的传统方法。
可扩展性：在具有 $10^{6}$ 个配点的 3‑D 域上的实验显示内存线性增长且收敛稳定，验证了该方法适用于大规模问题。
鲁棒性：即使下层问题存在多个可行解，算法仍能收敛，这归功于理论中放宽的唯一性要求。

实际意义

快速原型：工程师现在可以直接在神经控制器中嵌入障碍类型约束（例如机器人中的安全裕度、仿真中的接触约束），无需手工构建网格管线。
边缘部署：由于训练后的网络是轻量级推理模型，最优控制策略可以在嵌入式设备（微控制器、GPU）上以实时延迟运行。
设计优化循环：在航空航天或增材制造等行业，障碍约束会在设计迭代中不断变化，单循环方法实现了持续再优化，无需昂贵的重新网格化。
与现有机器学习框架集成：该方法可接入 PyTorch/JAX，使开发者能够将其与强化学习、可微分物理或元学习流水线结合。

限制与未来工作

假设 PDE 系数平滑：收敛性证明依赖于 Lipschitz 连续性；高度不连续的材料属性可能会降低性能。
样本效率：虽然无网格，但随机估计器仍需要相对大量的配点以获得高精度的 PDE 残差，这可能会占用大量内存。
对时变障碍的扩展：当前的表述只处理静态障碍；处理移动或动态障碍需要循环或物理信息的时间网络。
非凸上层目标的理论缺口：分析保证收敛到驻点，但对于高度非凸的代价函数，全局最优性仍未解决。

作者建议探索 自适应采样策略、混合物理信息神经网络 和 多层扩展 来解决时变和随机障碍问题。

作者

Yongcun Song
Shangzhi Zeng
Jin Zhang
Lvgang Zhang

论文信息

arXiv ID: 2601.04120v1
分类: math.OC, cs.LG
发布时间: 2026年1月7日
PDF: 下载 PDF

[论文] 单循环双层深度学习方法用于障碍问题的最优控制

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性