[Paper] 自我运动作为结构先验,以实现认知地图的连贯且稳健的形成
发布: (2025年12月23日 GMT+8 12:28)
7 min read
原文: arXiv
Source: arXiv - 2512.20044v1
概述
本文挑战了认知地图主要依赖外部感官线索的主流观点,提出自我运动(动物自身的移动)可以作为结构先验,主动塑造并稳定空间表征。通过在使用类脉冲(spiking‑style)动力学的预测编码网络(predictive‑coding network)中嵌入基于运动的先验,作者展示了即使在视觉标志噪声大、缺失或冲突的情况下,也能形成更连贯、更稳健的地图。
关键贡献
- 基于运动的结构先验: 引入一个路径积分模块,作为学习地图的支架,而不是简单的增量更新。
- 受大脑启发的递归架构: 结合脉冲动力学、模拟调制和自适应阈值,以低计算开销实现高容量。
- 在挑战性环境中的鲁棒性: 在高度混叠、动态变化和自然环境中显示出拓扑保真度和位置精度的一致提升。
- 零样本泛化: 运动先验编码精确轨迹,可在未见地图上转移而无需重新训练,优于天真的运动约束。
- 真实世界验证: 将系统部署在四足机器人上,运动先验在真实感官变异下提升基于地标的导航。
方法论
- Predictive‑Coding Framework: 网络预测下一个感官观测,并通过最小化预测误差来更新内部状态,呼应皮层推理的理论。
- Path‑Integration Prior: 一个专用模块整合本体感受和前庭类信号,以生成潜在轨迹(latent trajectory),从而约束地图的几何结构。
- Spiking‑Analog Hybrid Neurons: 每个循环单元发出离散脉冲,其发放率受连续模拟信号调制;自适应阈值防止活动失控并保持模型规模小。
- Training Regime: 系统在模拟环境中端到端训练,故意加入损坏或缺失的视觉地标,以促使模型依赖运动先验。
- Evaluation Suite: 基准测试包括 (a) 拓扑正确性(基于图的度量),(b) 全局位置误差,和 (c) 在不同感官模糊程度下的下一步预测准确率。
结果与发现
- 已稳定的地图几何: 添加运动先验将全局位置误差降低约 ≈30 %,并在所有测试世界中将拓扑一致性提升约 ≈25 %。
- 对感官退化的鲁棒性: 当视觉线索的分辨率降至原始的 10 % 时,加入先验的模型仍保持 >80 % 的基线性能,而仅使用感官的基线模型性能跌破 50 %。
- 零样本迁移: 在没有任何微调的情况下,模型在全新迷宫上仍能达到相近的精度,证实运动先验捕获了与环境无关的几何约束。
- 机器人演示: 在四足平台于杂乱的室内竞技场中导航时,运动先验系统完成任务的速度提升 1.8×,定位失败率降低 40 %,相较仅依赖视觉特征的传统 SLAM 系统。
实际意义
- 更可靠的边缘设备 SLAM: 运动先验可以以极小的内存和计算实现,使其对必须在间歇视觉输入下运行的低功耗机器人、无人机或 AR 头显具有吸引力。
- 在 GPS 缺失环境中的改进导航: 通过将自运动视为结构性支架,自动驾驶车辆在 GPS 或 LiDAR 数据暂时不可用时仍能保持一致的地图。
- 混合神经启发式控制器: 开发者可以将脉冲‑模拟递归块集成到现有深度学习流水线中,获得生物运动整合的鲁棒性而不牺牲可扩展性。
- 零样本地图适应: 已展示的泛化能力表明,单个预训练的运动先验可服务于多台机器人或多种环境,减少昂贵的数据收集和再训练需求。
限制与未来工作
- 简化本体感受模型: 当前的路径积分模块假设理想化、无噪声的自运动信号;真实传感器(IMU、轮式编码器)会引入漂移,需要显式补偿。
- 对大规模户外地图的可扩展性: 实验局限于室内规模的竞技场;将该方法扩展到城市规模的导航将需要层次化先验和长期记忆机制。
- 生物学可行性 vs. 工程权衡: 虽然脉冲动力学降低了参数数量,但可能会使其与主流深度学习框架的集成变得复杂;未来工作可以探索软硬件协同设计(例如神经形态芯片)。
- 多模态融合: 研究聚焦于视觉地标;加入听觉、触觉或语义线索可以进一步提升鲁棒性,是后续研究的有前景方向。
作者
- Yingchao Yu
- Pengfei Sun
- Yaochu Jin
- Kuangrong Hao
- Hao Zhang
- Yifeng Zhang
- Wenxuan Pan
- Wei Chen
- Danyal Akarca
- Yuchen Xiao
论文信息
- arXiv ID: 2512.20044v1
- 分类: q-bio.NC, cs.NE
- 出版日期: 2025年12月23日
- PDF: 下载 PDF