基于模糊神经网络在线自学习的多智能体一致性控制
2025-04-23 10:53阅读:
引用本文
张宪霞,
唐胜杰, 俞寅生. 基于模糊神经网络在线自学习的多智能体一致性控制.
自动化学报, 2025, 51(3):
590−603 doi:
10.16383/j.aas.c240451
Zhang Xian-Xia, Tang Sheng-Jie, Yu
Yin-Sheng. Multi-agent consensus control based on online
self-learning fuzzy neural network. Acta Automatica Sinica, 2025,
51(3): 590−603
doi: 10.16383/j.aas.c240451
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240451
关键词
多智能体系统,自适应动态规划,动态模糊神经网络,分布式一致性控制,在线学习
摘要
针对多智能体系统分布式一致性控制问题, 提出一种新的融合动态模糊神经网络(Dynamic fuzzy
neural network, DFNN)和自适应动态规划(Adaptive dynamic
programming, ADP)算法的无模型自适应控制方法. 类似于强化学习中执行者−评论家结构,
DFNN和神经网络(Neural
network, NN)分别逼近控制策略和性能指标. 每个智能体的DFNN执行者从零规则开始, 通过在线学习, 与其局部邻域的智能体交互而生成和合并规则.
最终, 每个智能体都有一个独特的DFNN控制器, 具有不同的结构和参数, 实现了最优的分布式同步控制律. 仿真结果表明, 本文提出的在线算法在非线性多智能体系统分布式一致性控制中优于传统基于NN的ADP算法.
文章导读
多智能体系统的分布式一致性控制受到鸟群、蚁群等自然生物系统的启发,
近年来受到越来越多的关注[1−2]. 非线性多智能体系统的分布式领导–跟随一致性控制算法在许多新兴技术中发挥着关键作用,
包括生物系统和无人系统集群等[3−5]. 相比于集中式多智能体系统的最优一致性控制,
分布式多智能体系统的最优一致性控制凭借其更大的适应性和灵活性, 成为目前研究人员关注的焦点问题之一[6−16].
最优分布式一致性问题试图设计一种分布式算法, 既能同步所有智能体, 又能使通信有向图的能量成本最小[17−19].
最优分布式一致性控制由一致性控制发展而来. 目前, 一致性控制已经取得许多显著的成果[20−22],
但值得注意的是,
这些成果都只关注多智能体系统的一致性, 在实际中, 不仅需要保证系统的一致性, 还需要构造一个能够满足一定性能指标的分布式控制器.
在多智能体系统中,
每个智能体都依赖于自身和相邻智能体的行为, 这类似于多人游戏的协调控制. 学者们开始利用博弈论研究多智能体系统的最优一致性控制[23]. 博弈论为研究多智能体一致性控制问题提供了一个理想的工具[24]. 博弈论研究智能体的行为如何相互作用.
系统中的每个智能体独立地优化自己的性能指标函数并做出最优决策, 最终使多智能体系统收敛到纳什均衡解.
由于多智能体系统中每个智能体的策略受到自身及其邻居行为的影响, 为了获得纳什均衡解, 必须求解高耦合哈密顿–雅可比–贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程[25]. 由于HJB方程包含智能体的动态系统信息和偏微分项,
所以高耦合HJB方程的解析解很难得到, 甚至在智能体的动态系统模型未知的情况下,
不可能得到解析解[26].
为克服这一挑战, Werbos[27]提出自适应动态规划(Adaptive dynamic
programming, ADP)来处理多智能体的分布式一致性问题[28−29].
ADP是一种由强化学习(Reinforcement learning, RL)和动态规划派生而来的解决最优控制问题的有效方法.
该方法力图获得近似最优控制律,
并克服传统动态规划方法所带来的“维数诅咒”难题. 随着ADP方法的发展, 近年来许多基于ADP的方法被应用于多智能体系统来处理分布式一致性问题[30−35]. 神经网络(Neural network, NN)对于非线性系统有着良好的拟合效果,
因此常常被用来解决非线性系统问题.
Wang等[36]提出一种基于神经网络的鲁棒最优控制算法,
在指定成本函数的情况下实现最优性控制.
Wei等[33]利用神经网络研究异构多智能体系统,
来解决异构多智能体系统的最优分布式同步控制.
Zhang 等[37]提出一种数据驱动的一致性控制算法,
并使用两个神经网络分别逼近执行者网络和评论家网络来实现离散时间多智能体系统的最优一致性控制.
为加速基于ADP算法的收敛性, 很多研究集中在自适应评论家设计上[37],
如Cai等[38]提出一种广义模糊双曲模型(Generalized fuzzy
hyperbolic model, GFHM)来近似值函数, Wang等[39]提出一种基于稀疏核机的自适应评论家设计.
综上所述,
大多数研究工作都集中在评论家网络的自适应逼近上, 相比之下, 对执行者网络的自适应逼近的研究却很少.
文献综述表明,
执行者网络通常采用传统的神经网络进行近似, 并且神经网络的结构是不变的[39−40]. 这样会产生疑难问题: 1)如何解释神经网络控制器? 2)如何确定神经网络的结构? 3)多智能体系统采用多个神经网络近似执行者,
在训练过程中很难保证多个神经网络的收敛性, 如何提高最终策略的质量?
有少量文献试图解决上述问题. 文献[41]提出一种模糊执行者–评论家强化学习网络, 其使用自适应径向基函数(Radial basis function,
RBF)网络逼近执行者和评论家网络, 并将两者合并为一个网络. 文献[42]提出一种新的循环区间2型Takagi-Sugeno-Kang (TSK)模糊神经网络(RIT2TSK-FNN)控制器结构, 并通过列文伯格–马夸尔特(Levenberg-Marquardt,
LM)方法更新执行者的参数. 文献[43]提出一种基于区间2型TSK模糊神经网络的执行者–评论家新结构. 然而, 上述文献中的方法仅适用于单个智能体.
基于上述讨论, 针对非线性多智能体系统, 本文提出一种新的基于动态模糊神经网络(Dynamic fuzzy
neural network, DFNN)的ADP多智能体分布式最优一致性控制(DFNN-ADP)方法.
相较于传统的NN算法,
DFNN的优势明显. 首先,
DFNN能够处理不确定性和模糊性, 从而提高了网络对噪声和不确定数据的鲁棒性.
其次