[Paper] 主动磁悬浮系统的最优导数反馈控制：基于数据驱动方法的实验研究

发布: 3天前 (2026年2月7日 GMT+8 02:42)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06944v1

概述

本文探讨了如何使用 数据驱动 技术自动调节主动磁悬浮（maglev）平台的控制器。通过将 无模型强化学习（RL）策略迭代 方法与基于系统辨识得到的更传统的 基于模型的最优控制 进行比较，作者展示了精心设计的学习回路能够在无需明确物理模型的情况下实现更优的性能。

Epoch‑based policy iteration: 引入额外的“epoch循环”，反复收集最新的过程数据，丰富训练集并降低学习到的控制器的偏差。
Direct model‑free RL controller: 实现一个强化学习框架，直接从数据计算最优的导数反馈律，绕过显式模型识别。
Hybrid identification pipeline: 将动态模式分解（含控制）DMDc 与预测误差最小化 PEM 结合，构建紧凑的线性模型用于间接最优控制。
Experimental validation on a real maglev test‑bed: 在真实磁悬浮测试平台上进行实验验证，表明两种方法均能实现悬浮稳定，但加入 epoch 的强化学习控制器始终优于间接方法。
Benchmark against nominal‑model controllers: 与标称模型控制器进行基准比较，证明数据驱动的设计能够超越基于教材模型调校的控制器性能。

被测系统 – 一个主动磁悬浮装置，线圈产生的力与漂浮物体的重力平衡。该系统高度非线性，对参数漂移非常敏感。
直接（无模型）方法
- 将控制问题表述为无限时域二次代价（状态误差 + 控制努力）。
- 使用 policy iteration：从一个稳定的线性反馈开始，通过收集的轨迹评估相应的代价函数（cost‑to‑go），然后通过求解类似 Riccati‑like 的更新来改进策略。
- Epoch 循环：每次策略改进后，重新运行系统以收集一批新数据（不同的初始条件、扰动等）。这些新数据用于下一次迭代，确保学习到的价值函数覆盖更丰富的状态空间。
间接（基于模型）方法
- 收集单一数据集并应用 DMDc 提取包含控制输入的低阶线性状态空间模型。
- 使用 Prediction Error Minimization 对模型参数进行细化，以降低偏差。
- 在识别得到的模型上求解经典的 Linear Quadratic Regulator (LQR) 问题，获得最优的导数反馈增益。
评估 – 两个控制器在同一硬件平台上实现。性能指标包括在阶跃指令和外部扰动下的稳态时间、超调、稳态误差以及控制努力。

指标	名义模型 LQR	间接 (DMDc + PEM) LQR	直接 (epoch‑RL)
稳定时间 (毫秒)	120	95	78
超调 (%)	12	8	4
RMS 位置误差 (µm)	45	28	15
控制能量 (范数)	1.0	0.86	0.71

线性二次假设： 当前设计在线性化状态上优化二次成本；在高度非线性（大幅偏离）情况下，仍可能需要非线性强化学习或模型预测策略。
单周期数据质量： 虽然周期循环可以减轻偏差，但每个周期仍依赖激励信号的质量；激励不足的模态可能仍未被学习。
硬件约束： 实验装置使用了相对高采样率的控制器；在更慢或资源受限的硬件上应用该方法可能需要对算法进行简化。
作者提出的未来方向包括：
1. 将框架扩展到 非二次性能指标（例如面向安全的约束）。
2. 融入 在线自适应，使周期在运行期间持续进行。
3. 在 更大规模的磁悬浮系统 以及其他机电平台上测试该方法。