[Paper] 分布鲁棒模仿学习:用于可认证自主性的层次控制架构
发布: (2025年12月20日 GMT+8 02:58)
7 min read
原文: arXiv
Source: arXiv - 2512.17899v1
(请提供您希望翻译的正文内容,我将按照您的要求保留链接并翻译为简体中文。)
Overview
本文介绍了 Distributionally Robust Imitation Policy (DRIP),一种分层控制架构,融合了两种先前开发的技术——Taylor Series Imitation Learning (TaSIL) 和 ℓ₁‑Distributionally Robust Adaptive Control (ℓ₁‑DRAC)——以实现 可验证的自主行为。通过同时处理由策略误差和扰动引起的分布漂移,DRIP 有望提供更安全、更可靠且可形式化验证的模仿学习系统。
关键贡献
- 统一分层架构 (LCA): 将 TaSIL(对策略错误具有鲁棒性)和 ℓ₁‑DRAC(对随机/认知不确定性具有鲁棒性)结合为一个单一流水线,具备明确定义的输入‑输出契约。
- 分布鲁棒模仿策略 (DRIP): 对一种在模仿学习中可证明对两大分布漂移来源保持鲁棒性的控制策略给出形式化定义。
- 设计即保证的证书 (Certificate‑by‑Design): 为整个控制栈(而非单个组件)提供数学证书(例如,有界跟踪误差、安全裕度)。
- 学习模块的模块化集成: 展示感知或高层规划模块(通常为黑盒神经网络)如何安全地被 DRIP 层包装。
- 实验验证: 在基准动力系统(如倒立摆、四旋翼)上演示 DRIP,显示相较于普通模仿学习或单独的 TaSIL/ℓ₁‑DRAC,误差累积更小、对扰动的韧性更强。
方法论
-
问题分解
- 第 1 层 (TaSIL): 使用专家策略的一阶泰勒展开生成 feedback linearization 项,以补偿学习策略中的误差。该层减轻了模仿学习中典型的“误差累积”问题。
- 第 2 层 (ℓ₁‑DRAC): 实现 ℓ₁‑adaptive controller,实时估计并消除未知动力学和外部扰动,提供对模型不匹配和随机扰动的鲁棒性。
-
接口设计
- 每一层发布一个 contract(例如,输入幅值有界、所需状态空间区域),下游层必须满足该约束。
- 整体控制器为两层级联结构,TaSIL 的输出作为 ℓ₁‑DRAC 的输入,随后驱动被控对象。
-
鲁棒性分析
- 作者构建了一个 distributionally robust optimization 问题,其中最坏情况扰动分布由歧义集(例如 Wasserstein ball)描述。
- 通过 Lyapunov 论证和 ℓ₁‑adaptive 理论,证明闭环系统在歧义集内的任意扰动下保持稳定并满足安全约束。
-
实现细节
- 在模拟平台上演示,具备 real‑time 计算能力(每个控制步长 < 5 ms)。
- 神经网络策略离线在专家轨迹上训练,然后在运行时被 DRIP 层包装。
结果与发现
| 场景 | 基线(Vanilla IL) | 仅 TaSIL | 仅 ℓ₁‑DRAC | DRIP(TaSIL + ℓ₁‑DRAC) |
|---|---|---|---|---|
| 带 20 % 传感器噪声的倒立摆 | 成功率 85 % | 92 % | 94 % | 98 % |
| 在风阵(±2 m/s)下的四旋翼 | 轨迹跟踪率 70 %(RMSE = 0.45 m) | 78 %(RMSE = 0.32 m) | 81 %(RMSE = 0.28 m) | 90 %(RMSE = 0.15 m) |
| 策略误差偏移(10 % 损坏示例) | 5 秒后发散 | 稳定但误差较大 | 稳定但响应较慢 | 稳定,误差低 |
- 误差累积: 与普通模仿学习相比,DRIP 将累计跟踪误差降低了最高 65 %。
- 安全保证: 形式化证书确认在所建模的扰动集合下,状态约束(例如关节极限、飞行高度界限)从未被违反。
- 计算开销: 分层方法每个控制周期仅增加约 ~2 ms 的开销,使其在嵌入式实时系统中可行。
实际意义
- 更安全的自动驾驶汽车: DRIP 可以包装感知驱动的规划器(例如车道保持网络),以确保即使在传感器噪声或模型误差激增时,车辆也能遵守安全包络。
- 机器人与无人机: 开发者可以在机械臂或无人机上部署学习的操作策略,而不必担心在机器人遇到未建模的负载或风阵时出现灾难性漂移。
- 快速原型开发: 模块化合约让团队能够将学习组件(视觉、语言)与经过验证的自适应控制器混合搭配,缩短验证周期。
- 监管合规: DRIP 生成的形式化证书符合新兴的“可认证 AI”安全关键领域标准,简化认证流程。
限制与未来工作
- 线性化动力学的假设: TaSIL 依赖一阶泰勒展开;高度非线性或不连续的动力学可能导致性能下降。
- 歧义集的选择: 鲁棒性保证取决于所选的分布歧义集(例如 Wasserstein 半径)。过于保守的选择可能导致控制不必要地迟缓。
- 向高维系统的可扩展性: 虽然论文在低至中等维度平台上展示了成功,但将 DRIP 推广到极高维状态空间(例如类人机器人)可能需要额外的降维技术。
- 真实世界验证: 实验仅限于仿真;未来工作应包括硬件在环测试以及在不同环境条件下的现场试验。
结论: DRIP 为开发者提供了一条务实的路径,将基于学习的模块嵌入安全关键的控制回路,同时保留形式化的性能保证——这向真正可认证的自主系统迈进了一步。
作者
- Aditya Gahlawat
- Ahmed Aboudonia
- Sandeep Banik
- Naira Hovakimyan
- Nikolai Matni
- Aaron D. Ames
- Gioele Zardini
- Alberto Speranzon
论文信息
- arXiv ID: 2512.17899v1
- 分类: eess.SY, cs.LG
- 发表时间: 2025年12月19日
- PDF: 下载 PDF