[Paper] 利用高保真数字模型和强化学习进行任务工程：完美信息下的空中灭火案例研究

发布: 1个月前 (2025年12月24日 GMT+8 02:36)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20589v1

概述

本文提出了一种 mission‑engineering framework，将高保真数字孪生与强化学习（RL）相结合，以在动态且不确定的环境中实现任务分配和重新配置的自动化。通过航空灭火场景作为概念验证，作者展示了基于 RL 的协调器能够超越传统的静态规划，并提供更一致的任务结果。

数字任务模型 (DMM)： 基于DE的高分辨率仿真环境，捕捉火势蔓延、飞机动力学和资源约束的物理。
任务战术的MDP表述： 将自适应任务分配问题形式化为马尔可夫决策过程，使系统化的策略学习成为可能。
使用近端策略优化 (PPO) 的强化学习代理： 训练一个策略，将实时任务状态（例如火前线、飞机状态）映射到可执行决策（例如派遣哪架飞机、在哪里投放阻燃剂）。
实证验证： 在真实的空中灭火案例研究中展示，RL协调器相较于基线启发式方法提升了平均任务绩效并降低了绩效方差。
任务无关的蓝图： 提供可复用的流水线，可应用于其他系统‑系统（SoS）领域，如灾害响应、自治物流或多机器人探索。

数字工程基础设施 – 构建一个高保真、基于代理的模拟器，复现火灾环境、飞机能力和通信约束。
状态‑动作定义 – 将任务快照（火场边界、飞机位置、燃料水平、天气）编码为强化学习的状态向量。动作对应离散的任务分配指令（例如 “分配飞机 A 到区域 X”）。
MDP 构建 – 定义一个奖励函数，在任务目标（燃烧面积、遏制时间）与运营成本（燃料消耗、飞机磨损）之间取得平衡。
策略学习 – 使用近端策略优化（Proximal Policy Optimization），一种稳定的在线策略强化学习算法，通过运行成千上万次模拟任务（“沙盒”）迭代改进策略。
评估 – 将学习到的策略与两种基线进行比较：（a）静态预先计划的调度；（b）简单的基于规则的响应式分配器。指标包括总燃烧面积、遏制时间以及在随机火灾情景下的性能方差。

指标	静态基线	基于规则的响应	RL‑PPO 协调器
平均燃烧面积	12 % of total forest	9 %	5 %
控制时间（分钟）	48	42	33
性能标准差	7 %	5 %	2 %

动态资产管理: 消防部门、灾害响应机构或物流公司可以将自己的数字孪生模型接入该管线，获取自适应的调度策略，而无需手工编写启发式规则。
快速原型开发: 工程师可以在仿真器中迭代飞机/机队设计，立即看到在学习得到的策略下，设计变更如何影响任务成功率。
可扩展至其他系统‑of‑Systems: 同样的 MDP + PPO 方法可复用于自主无人机群、海上搜救或智能电网负荷平衡等场景，这些环境部分可观测且高度随机。
降低人工负担: 操作员收到已经考虑未来状态演化的决策建议，能够将精力集中在高层监督上，而不是逐分钟的资源分配。
集成路径: 该框架可以封装为微服务并提供 REST API；现有的指挥控制软件可以查询该服务，以获取基于当前任务快照的“下一最佳动作”。

完美信息假设： 本研究假设能够完全观测火灾动态和飞机状态；实际中传感器的盲区可能会削弱策略的表现。
仿真与现实的差距： 将方法迁移到真实作业的可行性取决于数字孪生模型对物理过程和通信延迟的忠实程度。本文未探讨领域随机化或 sim‑to‑real 技术。
向更大机队的可扩展性： 实验使用了规模较小的机队（3–4 架飞机）。若要扩展到数十种异构资产，可能需要层次化强化学习或多智能体协同机制。
可解释性： PPO 策略是一个黑箱神经网络；操作员可能需要对关键安全决策提供可解释的理由。

未来的研究方向包括引入部分可观测性（POMDP）、在实际任务中进行在线学习，以及将框架扩展到多目标优化（例如在成本、安全性和环境影响之间进行平衡）。