基于变分稀疏高斯过程的多机器人协同感知与围捕
2025-05-16 17:15阅读:
引用本文
曹凯,
陈阳泉, 魏云博, 刘志, 陈超波, 高嵩. 基于变分稀疏高斯过程的多机器人协同感知与围捕.
自动化学报, 2025, 51(4):
778−791 doi:
10.16383/j.aas.c240406
Cao Kai, Chen Yang-Quan, Wei Yun-Bo, Liu
Zhi, Chen Chao-Bo, Gao Song. Multi-robot collaborative perception
and capture based on variational sparse Gaussian process. Acta
Automatica Sinica, 2025, 51(4): 778−791 doi:
10.16383/j.aas.c240406
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240406
关键词
多机器人,质心维诺划分,变分稀疏高斯过程回归,围捕,协同感知
摘要
针对未知环境下的多机器人环境感知和围捕问题, 提出一种基于变分稀疏高斯过程回归的分布式感知与围捕算法. 考虑到传统高斯过程回归不适合处理大量数据的问题,
在这项工作中,
首先考虑障碍物的影响,
以引入分离超平面的质心维诺划分算法为机器人动态规划任务区域; 其次, 利用多机器人在任务区域中的移动探索获取环境信息,
并通过变分自由方法来近似模型的后验分布, 完成对未知环境的感知; 最后, 基于粒子群优算法为围捕机器人动态分配围捕点,
实现多机器人的全方位均匀围捕.
通过仿真实验证明,
该算法能够适用于单源、多源以及动态源的围捕, 且能够在保证多机器人编队安全性的同时,
实现较高的迭代速度,
最终成功实现均匀围捕.
文章导读
由于单体机器人处理复杂任务的能力通常被认为是有限的, 而群体机器人系统由于其可协作的特殊性,
能够完成更为复杂的任务[1],
因此常被应用于协同围捕的研究中,
其核心是多个个体能力有限的机器人通过协同以完成对危险目标的捕获或控制.
然而, 传统的研究对于围捕目标的位置信息往往都是先验的,
只需驱动相应的算法对目标实现包围即可完成任务[2-3]. 但是面对目标位置未知的污染源时,
机器人需要对所处环境进行感知,
搜索目标源所发出的场源信息,
进而完成围捕任务.
因此, 本文主要关注在围捕目标位置信息未知的情况下,
通过机器人协同感知环境信息主动获取围捕目标位置点, 完成围捕任务的问题, 从而为最终的捕获和处置奠定基础.
针对多机器人协同感知源定位的问题, 目前已经有广泛的研究. 以多机器人为载体的集群感知研究主要有密度梯度[4]、信息熵[5-6]或贝叶斯[7-8]等基础方法. 许多研究者在基础的方法上进行了改进,
Jabeen等[9]提出一种基于梯度策略和概率搜索方法相结合的元启发式算法, 对污染源进行感知定位, 其中的梯度方法用于无人机的导航和跟踪,
而概率搜索则用于估计污染源的位置, 两种方法的结合极大地减少了无人机感知搜索源的时间与区域. 但梯度方法容易陷入局部最优解, 特别是在复杂的环境中, 可能导致机器人无法找到全局最优解,
从而影响感知与定位的准确性和效率. 因此, 一些学者使用深度强化学习(Deep reinforcement learning, DRL)方法来指导机器人的运动. 在不依赖先验地图的条件下, 让机器人与环境进行交互感知, 通过探索和利用环境反馈来学习最佳的污染源定位策略.
Li等[10]提出一种基于DRL的室内气味源定位方法, 该方法将气味源定位问题建模为马尔科夫决策过程,
并设计状态空间、动作空间和密集奖励来解决稀疏奖励问题, 最后通过近端策略优化(Proximal policy optimization, PPO)算法来生成机器人的最优决策. 该方法在室内模拟环境中有效, 但其在室外环境或其他复杂场景下的泛化能力尚未得到充分测试, 算法在现实世界快速变化环境中的适应性和稳定性有限.
Latif等[11]设计了一种全新的源搜索方法, 即粒子簇−深度Q网络(Particle cluster-deep
Q-network, PC-DQN), 首次将DRL作为源搜索方法. 具体来说, 搜索过程被表述为部分可观察的马尔科夫决策过程,
然后根据置信状态(由粒子滤波器表示)转换为马尔科夫决策过程. PC-DQN利用基于密度的噪声应用空间聚类(Density-based
spatial clustering of applications with noise,
DBSCAN)算法提取置信状态特征, 并采用深度Q网络(Deep Q-network, DQN)算法为源搜索任务寻找最优策略, 其中还引入了迁移学习概念, 将训练有素的Q网络重用到新场景中. 然而PC-DQN方法的不足之处在于DQN算法通常需要大量的计算资源, 特别是在处理高维状态空间时, 会导致其搜索性能在实时或快速响应的应用场景中受到限制.
Liao等[12]
提出一种无模型梯度自适应极值寻距控制(Gradient adaptive extremum seeking control,
GA-ESC)算法, 以提高气味源定位(Odor source localization, OSL)的搜索效率和成功率.
GA-ESC算法通过控制器规划OSL, 控制器估计气味羽流浓度的梯度, 并根据估计的梯度引导机器人接近气味源.
采用自适应反馈增益将估计梯度与输出控制量联系起来, 从而获得更稳定的气味场梯度. 随后, 引入扰动幅度调整(Perturbation amplitude adjustment,
PAA)策略,
以增强全局搜索能力.
但文献[10-12]的方法实验场景单一, 算法的适应性、实时性以及鲁棒性也有待提高.
在感知到围捕目标的位置信息之后, 需要采取相应的策略对目标点进行围捕,
目前已存在许多有关围捕的方法,
其中包括强化学习[13-14]、人工势场[15]和Voronoi划分[16-17]等方法. 强化学习的围捕方法能够自主学习并处理复杂的多机器人围捕任务, 同时具有长期规划的能力. Li等[18]研究了一种基于深度强化学习的多无人机协同围捕算法,
提出一种新的多无人机智能决策控制方法, 使多无人机能够在复杂环境中实现协同决策和围捕,
但该方法缺少实际的无人机应用考虑. 而利用人工势场的围捕方法则是一种基于局部信息的路径规划技术, 它通过在目标点周围构建引力势场和在障碍物周围构建斥力势场来引导机器人的运动. 这种方法简单、高效, 但存在一些局限性, 如容易陷入局部最优解或与障碍物碰撞等.
为解决这些问题,
Zhao等[19]研究了一种基于动态速度势场的协同围捕算法,
利用一种新的吸引和排斥模型,
通过引入速度信息,
使机器人倾向于选择更短且安全的路径. 但是该方法的实时性和在真实环境中对多目标的处理方面还有待提高.
Fu等[20]则利用人工势函数解决了为围捕者制定合作策略并为被围捕者制定边界限制的问题,