[Paper] 敏捷飞行源于多智能体竞争赛

发布: 1个月前 (2025年12月13日 GMT+8 02:48)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.11781v1

Overview

本文展示了无需手工设计低层奖励即可教会无人机高速飞行并进行策略性竞速。通过让多个智能体在模拟赛道中竞争，并仅以“获胜”这一高层目标进行奖励，作者诱导出了自发的敏捷飞行动作（例如高速转弯、激进的高度变化）以及赛时战术，如超车和阻挡。该方法在仿真和真实四旋翼上均有效，并且相较于传统的单智能体、进度奖励训练，迁移更为可靠。

Key Contributions

稀疏奖励多智能体训练：证明仅使用一次“赢得比赛”奖励即可让智能体学习低层飞行控制和高层竞速策略。
自发的敏捷性和战术：展示智能体在没有显式奖励 shaping 的情况下自主发现激进的飞行范围和竞争行为（超车、防御阻挡）。
仿真到真实的迁移优势：在相同随机化仿真环境中训练的多智能体策略，在实际无人机上部署时优于单智能体、进度奖励策略。
对未见对手的泛化：训练得到的策略在面对训练期间未出现的全新对手时仍保持竞争性能。
开源实现：提供代码、仿真环境和训练模型，以便复现。

Methodology

仿真环境：一个物理精确的四旋翼仿真器，随机化质量、马达推力、传感器噪声和障碍布局。
智能体与竞争：两架（或更多）无人机在包含紧凑转弯和可选障碍的闭环赛道上竞速。
奖励设计：唯一的非零奖励授予第一个冲过终点线的智能体；所有其他时间步的奖励为零。
学习算法：使用近端策略优化（PPO），在智能体之间共享策略架构，使每架无人机能够在竞争中从自身经验学习。
域随机化：对多智能体和单智能体基线使用相同的随机化流水线，以隔离竞争的影响。
真实世界部署：将策略迁移到配备 onboard 计算（如 NVIDIA Jetson）的定制四旋翼，并在与仿真布局相同的实体赛道上进行测试。

Results & Findings

Metric	Multi‑agent (competition)	Single‑agent (progress reward)
Lap time (sim)	4.2 s (±0.3)	5.1 s (±0.4)
Success rate with obstacles	92 %	68 %
Sim‑to‑real lap‑time degradation	8 % increase	22 % increase
Performance vs. unseen opponent	Within 5 % of training opponent	>15 % drop

敏捷性：多智能体策略经常将无人机推至推力极限的 90 %，以在每个转弯上削减毫秒级时间。
策略：智能体学会在直线路段阻挡对手，并在超车时采用更宽、更快的弧线，尽管从未被显式教导这些战术。
迁移：在真实硬件上飞行时，竞争训练的策略保持了接近仿真的性能，而进度奖励策略则出现不稳定和超调问题。

Practical Implications

高性能 UAV 控制器的快速原型化：开发者可以跳过繁琐的奖励 shaping 阶段，依赖竞争训练获得激进且鲁棒的飞行策略。
机器人竞赛与自主赛车联盟：该方法提供了一种可扩展的方式来生成强大的基线智能体，能够在最少重新训练的情况下适应新赛道和新对手。
安全关键的无人机应用：因为竞争迫使智能体处理动态、对抗性的环境，得到的策略对意外扰动（如风阵、移动障碍）更具韧性。
仿真到真实的流水线：展示多智能体动力学充当自然正则化器，降低域差距并减少真实世界微调的需求。
开源工具包：发布的代码可集成到现有的 ROS 管道中，使团队能够将自己的控制器与竞争基线进行基准测试。

Limitations & Future Work

对大量智能体的可扩展性：实验仅限于两架无人机；尚不清楚在更大机群或更复杂赛制下行为如何扩展。
硬件约束：真实世界测试使用的是推重比相对较高的定制四旋翼；在更小、面向消费者的无人机上表现可能不同。
奖励稀疏性的权衡：虽然稀疏奖励简化了设计，但可能导致更长的训练时间和偶尔收敛到次优策略。
超出竞速的泛化：未来工作可以探索相同的竞争框架是否能在协同载荷运输或搜救等其他领域产生自发技能。

如果您有兴趣尝试代码或复现结果，作者已在 GitHub 上公开了全部资源（论文中提供链接）。这项工作有力地提醒我们，有时让智能体“只要赢”就是教会它们飞行的最佳方式。

Authors

Vineet Pasumarti
Lorenzo Bianchi
Antonio Loquercio

Paper Information

arXiv ID: 2512.11781v1
Categories: cs.RO, cs.AI, cs.MA
Published: December 12, 2025
PDF: Download PDF

[Paper] 敏捷飞行源于多智能体竞争赛

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型