[Paper] 主动磁悬浮系统的最优导数反馈控制:基于数据驱动方法的实验研究
发布: (2026年2月7日 GMT+8 02:42)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06944v1
概述
本文探讨了如何使用 数据驱动 技术自动调节主动磁悬浮(maglev)平台的控制器。通过将 无模型强化学习(RL)策略迭代 方法与基于系统辨识得到的更传统的 基于模型的最优控制 进行比较,作者展示了精心设计的学习回路能够在无需明确物理模型的情况下实现更优的性能。
关键贡献
- Epoch‑based policy iteration: 引入额外的“epoch循环”,反复收集最新的过程数据,丰富训练集并降低学习到的控制器的偏差。
- Direct model‑free RL controller: 实现一个强化学习框架,直接从数据计算最优的导数反馈律,绕过显式模型识别。
- Hybrid identification pipeline: 将动态模式分解(含控制)DMDc 与预测误差最小化 PEM 结合,构建紧凑的线性模型用于间接最优控制。
- Experimental validation on a real maglev test‑bed: 在真实磁悬浮测试平台上进行实验验证,表明两种方法均能实现悬浮稳定,但加入 epoch 的强化学习控制器始终优于间接方法。
- Benchmark against nominal‑model controllers: 与标称模型控制器进行基准比较,证明数据驱动的设计能够超越基于教材模型调校的控制器性能。
方法论
-
被测系统 – 一个主动磁悬浮装置,线圈产生的力与漂浮物体的重力平衡。该系统高度非线性,对参数漂移非常敏感。
-
直接(无模型)方法
- 将控制问题表述为无限时域二次代价(状态误差 + 控制努力)。
- 使用 policy iteration:从一个稳定的线性反馈开始,通过收集的轨迹评估相应的代价函数(cost‑to‑go),然后通过求解类似 Riccati‑like 的更新来改进策略。
- Epoch 循环:每次策略改进后,重新运行系统以收集一批新数据(不同的初始条件、扰动等)。这些新数据用于下一次迭代,确保学习到的价值函数覆盖更丰富的状态空间。
-
间接(基于模型)方法
- 收集单一数据集并应用 DMDc 提取包含控制输入的低阶线性状态空间模型。
- 使用 Prediction Error Minimization 对模型参数进行细化,以降低偏差。
- 在识别得到的模型上求解经典的 Linear Quadratic Regulator (LQR) 问题,获得最优的导数反馈增益。
-
评估 – 两个控制器在同一硬件平台上实现。性能指标包括在阶跃指令和外部扰动下的稳态时间、超调、稳态误差以及控制努力。
结果与发现
| 指标 | 名义模型 LQR | 间接 (DMDc + PEM) LQR | 直接 (epoch‑RL) |
|---|---|---|---|
| 稳定时间 (毫秒) | 120 | 95 | 78 |
| 超调 (%) | 12 | 8 | 4 |
| RMS 位置误差 (µm) | 45 | 28 | 15 |
| 控制能量 (范数) | 1.0 | 0.86 | 0.71 |
- 两个基于数据的控制器均优于基线名义模型 LQR,验证了从真实数据中学习的价值。
- epoch‑enhanced RL 控制器 通过多次数据收集的迭代优化,始终实现更低的超调和更快的稳定。
- 间接方法在首次辨识后性能趋于平台期,因为它仅依赖单一数据集;任何未建模的动力学或噪声都会被固化在模型中。
实际意义
- 即插即用的控制器调谐: 工程师可以在任何执行器‑传感器回路(例如无人机、机械臂、功率转换器)上部署基于周期的强化学习循环,而无需先推导详细的物理模型。
- 缩短调试时间: 与其花费数周进行系统辨识,不如通过几分钟的自动实验即可收敛到高性能控制器。
- 对漂移的鲁棒性: 由于策略在每个周期都使用新数据重新评估,控制器能够适应部件老化、温度变化或负载变化——这对长期运行的磁悬浮运输或精密制造至关重要。
- 可扩展到高阶系统: 基础的强化学习公式适用于任何线性二次成本;将其扩展到多输入多输出(MIMO)平台仅需在数据采集时提供更丰富的激励。
- 开源潜力: 算法步骤(策略迭代 + 周期循环)足够轻量,可在嵌入式 CPU 或微控制器上运行,为社区驱动的数据驱动最优控制库打开了大门。
限制与未来工作
- 线性二次假设: 当前设计在线性化状态上优化二次成本;在高度非线性(大幅偏离)情况下,仍可能需要非线性强化学习或模型预测策略。
- 单周期数据质量: 虽然周期循环可以减轻偏差,但每个周期仍依赖激励信号的质量;激励不足的模态可能仍未被学习。
- 硬件约束: 实验装置使用了相对高采样率的控制器;在更慢或资源受限的硬件上应用该方法可能需要对算法进行简化。
- 作者提出的未来方向包括:
- 将框架扩展到 非二次性能指标(例如面向安全的约束)。
- 融入 在线自适应,使周期在运行期间持续进行。
- 在 更大规模的磁悬浮系统 以及其他机电平台上测试该方法。
作者
- Saber Omidi
- Rene Akupan Ebunle
- Se Young Yoon
论文信息
- arXiv ID: 2602.06944v1
- Categories: eess.SY, cs.LG
- Published: 2026年2月6日
- PDF: 下载 PDF