学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 理工论文 基于协同合作的多智能体控制系统算法探究论文

基于协同合作的多智能体控制系统算法探究论文

122

2022-11-29 10:02:33    来源:    作者:lvyifei

摘要:摘要:相对于单架智能机体,多智能体编队有着许多优势,如可以降低每架智能机体负载、提高任务完成效率等。而且多智能体编队兼备自主性、灵活性、稳定性,且能够高成功率、高效率地完成探测、物品运送、甚至更复杂的任务,满足不同场景的实用需求。只不过多智能体控制系统是一种复杂的动态体系,面临外部条件的不断改变和任务的灵活分配,单纯使用人工制定的方式容易造成工作效率降低,不能满足动态的变化。而且,从每个智能体的角度来看,环境是不稳定的,不利于收敛。从多智能体编队的两种思路,集中式分布与分散式分布出发,探究不同的控制算法的

  摘要:相对于单架智能机体,多智能体编队有着许多优势,如可以降低每架智能机体负载、提高任务完成效率等。而且多智能体编队兼备自主性、灵活性、稳定性,且能够高成功率、高效率地完成探测、物品运送、甚至更复杂的任务,满足不同场景的实用需求。只不过多智能体控制系统是一种复杂的动态体系,面临外部条件的不断改变和任务的灵活分配,单纯使用人工制定的方式容易造成工作效率降低,不能满足动态的变化。而且,从每个智能体的角度来看,环境是不稳定的,不利于收敛。从多智能体编队的两种思路,集中式分布与分散式分布出发,探究不同的控制算法的优缺点与适用情况。通过对比发现,分布式算法通过对每个智能机体自由度的调配,可以实现对复杂环境做出自由应变,而每个智能机体做出应答后,其他智能机体根据信息参数的改变而改变,从而整个机体编队比集中式算法有着更好的自适应性,在多智能体系统控制算法中,分布式算法远优于集中式算法。

  关键词:多智能体;集中式与分布式;协同控制;无人控制算法;算法分析

  引言

  近年来,随着科学技术的高速发展,在处理复杂问题方面及进行复杂任务时必须借助现代的科学智能工具。与此同时,随着物理硬件的进一步研发和普及率的提高,智能体技术也在蓬勃发展,并向着大规模、自动化方面前进。而由于实施目标任务时执行环境具有较高复杂性,出于成本、安全等因素的考虑,智能控制系统越发受到关注,尤其是对多智能体控制系统的相关问题研究和探讨。相对与单智能体系统,多智能体系统具有巨大优势[1]:多智能体系统可以完成更多对于单智能体系统而言,无法完成或者完成难度高的任务;也可以以集群方式协同合作完成目标任务,而对于比较复杂的任务,则可以通过分治思想分成若干个小任务,再合理分配给系统的相应小个体,从而提高任务的执行效率;还可以通过改变编队和任务分配来实现功能上的可重塑性,从而提高控制系统的容错率和目标任务的完成率。多智能体系统需要考虑协同问题,与社会科学和生命科学可以相互借鉴与发展。

  多智能体系统有着诸多优点,但依然有多个关键技术需要优化[2]:多智能体系统集群在复杂环境中的约束建模;多智能体系统集群的通信问题;面对多任务,系统集群的任务分配问题;面对协同合作,系统集群的队形控制与避障问题等。

  目前关于产业集群管理算法的研究也已相当多,整体上可以分为两大类,集中式与分布式。集中式如混合整数线性规划计算、遗传算法[3]、蚁群计算[4]、粒子群算法等。遗传算法的核心理念是进化论,通过模仿自然界生物进化机制而开发出来的随机全局检索与优化技术,借鉴了达尔文的进化论理念与孟德尔的基因概念,但使得其存在随机性,导致在任务求解时会产生劣质结果,而且计算的准确度往往并不高;粒子群算法主要使整个运动过程依赖于目标个体间的数据获取,以寻求任务最佳解,但也决定了该算法易于陷入的局部最优问题。以上算法是集中式算法的典型,对控制中心节点依赖高,运用在汽车集群或者低维控制系统效果卓越,但对于无人机集群或者多机械臂运作等高维空间时,因通信技术以及经济等因素无法满足该类控制中心节点的建立。所以本文同时对分布式算法进行了探究。不同于传统集中式控制系统,分布式控制系统中智能机体之间以数据链技术为基础,根据任务目标环境、任务目标群信息,机体状态信息等进行相互作用,并综合考虑各种因素,制定具体的方法解决任务指派问题和具体步骤。常见算法有长僚机编队算法、集群行为分析算法、虚拟结构算法等。相比于传统集中式计算,智能体在以上算法控制系统下具备了更强的实时性、抗干扰能力等优势,并能够应用在动态环境、中等规模和大型系统中。本文将进一步阐述这些算法的异同和实用性。

  1多智能体系统

  多智体操作系统(Multi-Agent System,MAS),开始于20世纪的70年代,是一种实现复杂分析和建模的思维方式和工具,现在的确已形成了AI算法的一个重要研究领域和研究重点。MAS是由许多个多智能体构成的复杂体系,其目标是把大而复杂的体系构建成小的、彼此互相联系与配合的、便于管理的复杂体系,而且各个智能体能够具有独立意识,而且每个智能体能够拥有独立意识,并且要求有独立完成任务的能力,同时为了解决更复杂的问题,还要学会和其他智能体的协同合作[5]。由于单智能体因自身个人能力的限制以及自身资源上的不足,面对多目标、多任务问题表现得不尽如人意。近20年来,很多研究机构和学者都加大了对多智能体系统的开发和研究,以MAS系统为基础的多智能体协同控制研究便是一大热点。将多智能体视为一个整体,尽可能发挥其作为整体的特点,从而面对外面复杂多变的环境中,MAS能快速响应外界环境的动态变化,灵活应对,能够高效完成任务,是MAS的主要研究目标。需要注意,同是多智能体的协同合作,机算机领域的多智能体强化学习和控制领域的多智能体协同的一致性差异是很大的,而本文更多是对控制领域进行阐述说明。

  多智能体系统是智能体技术运用和研发上的一次质变,各个行业的专家与学者们对其展开了广泛地研讨,并从多种视角介绍了多智能体系统应用处理现实问题时的优点,归纳起来,主要有以下几点[6]。

  (1)在多智体系统中,每个智体都拥有独立性和自主权,可以处理给定的子课题,独立地判断和策划并确定相应的对策,或以一定的方法影响周围环境。

  (2)多智能体系统由于支持分布式运行,所以拥有良好的模块性、易于扩容和在设计上灵活性简单,克服了建立一个大规模的体系所带来的管理和扩展方面的问题,还可以有效减少信息系统的总成本。

  (3)在多智体系统的实现过程中,并不追求一个大规模的复杂系统,而要按面向对象的方式构建各层次、多元化的智慧体,其结果既减少了系统的设计复杂度,也减少了各个智体问题求解的复杂性。

  (4)多智体系统是一种讲究协调性的复杂体系,各智体必须通过相互配合才能处理大量的复杂现象;多智能体信息系统也是一种集成系统,其通过信息集成技术把各个子系统的数据整合到一起,从而实现复杂系统集成。

  (5)在多智体系统中,各智体间彼此联系,相互配合,并行地解决难题,从而可以有效地增强难题的解决能力。

  (6)多智体技术突破了传统人工智能技术领域中仅使用一种专家系统的局限,在MAS环境下,各应用领域的各个专家可以协同解决专家无法很好处理的问题,从而增强了系统处理问题的能力。

  (7)智能体的异质的和分布的。它们可以是不同个人和组织,采用不同的设计方法和计算机语言开发而成,因而可能是完全异质的和分布的。

  (8)异步处理。因为各智能体是高度自治的,所以各个智能体都有自身的进程,可以根据自身的工作方式异步地完成。

  目前,多智能体控制系统已经在飞机的编队、传感器网络、大数据融合、多机器臂的协同装备、并行计算、多机器人协同管理、交通车辆管理、互联网的资源分配等多方面应用。

  2理论基础

  自麦克斯韦的《论调速器》开始,控制理论从只能处理单输入单输出(Single Input Single Output,SISO)系统,发展成熟为可以应对复杂的多输入多输出(Multi⁃ple Input Multiple Output,MIMO)的控制[7]。典型的单输入单输出(SISO)系列:单辆赛车(车体控制系统),输入为“赛道”,输出为“路线”。典型的多输入多输出(MIMO)系统:赛车比赛(如F1赛车锦标赛),输入为“赛道+排位”,输出为“路线+方向控制”。从以上两个实例可知,多智能体协同控制方面的主要两种通信方式为集中式控制和分布式控制。

  3集中分布算法

  集中式算法,系统的规模比较小时,集中式控制方案是一种高效的解决方式。通常应用在于环境变动较小,目标已明确且主体机器人功能突出的特殊情景,比如:疫情期间利用无人机和智能小车往小区派送物资等。顾名思义,集中式算法本质可以看做是集中式控制:仅有一个控制中心,有一个或多个执行器[8]。如图1所示,该算法中有一个协调者,不管何时某个进程需要加入临界点区,它都要给协调者发出一条请求消息,表示对它希望加入下一个临界点区域的请求许可。若当前尚无其他进程在该临界区,协调者将发出许可进入的应答消息。

基于协同合作的多智能体控制系统算法探究论文

      优点:如果没有进程,会处于永远待机状态(不会出现饿死的情况);易于实现,因为每次通过一个临界区域仅需要3个消息(请求、允许和释放);不但可以用来管理临界区域,还能够进行更一般的资源分配。

  缺点:如果协调者是一个单独的故障节点,一旦它崩溃了,整个网络系统也可能崩溃。在通常情形下,一旦进程在发出请求之后被阻止了,则请求者将无法分辨“拒绝进入”和协调者操作系统已经崩溃这二者状况,因此在上述的二者状况下均不会消息返回。另外,在体量很大的操作系统中,对于一个协调者会形成性能的瓶颈。

  面对问题规模小、自由度低的集群任务,显而易

  见,集中式分布算法可以快速高效地控制机器集群完成任务[10];可一旦问题规模扩大,外来不可控因素增加,例如:城市里智能物流小车的快递派送,无人机群通过森林或未知环境探索等任务时,通过增加对自由因素的变量监控管理,不仅会造成集中式控制系统算法冗杂,增加算力负担,而且降低任务完成效率,提高控制成本,并且集中式分布有一个致命弱点,集中式分布算法系统成型简单,但修改困难,一旦核心算法与目标任务出现差别,系统就会陷入奔溃,无法继续执行任务。这些问题违背了多智能体系统建立的初衷,所以分布式集群控制算法更为稳定和灵活多变,被人使用。

  4分布式控制算法

  分布式控制器是没有系统控制的中心点,而是利用相邻个体间的交互协调进行消息交换,最终实现总体的编队行为,既然不是系统中心,分布式控制器就具备了很大的灵活性,能够动态的改善控制网络系统的整体架构。所以对比集中式控制后,采用分布式控制策略使得集群系统具有可扩展性、鲁棒性、适应性等优点。以无人机编队为例,在分布式控制中,无人机编队系统中的个体只需要和领域的无人机进行通信,通信数据和通信链路较少,控制方法极为方便,能够进行无人机编队系统中的无人机的删减和增加,实时调整编队工作状态。

基于协同合作的多智能体控制系统算法探究论文

  如图2所示,以无人驾驶飞行器群为例,UAV1的无人机指挥官,在整个无人机编队中起着指导与管理的重要角色,指导整个队伍沿着既定轨道航行,从而获得预期的目标定位,并与地面中心进行实时通讯。UAV2、UAV3作为跟随机与地面站保持联系,不断地接受无人指挥中心的指挥,且2、3之间进行实时通信,达到分布式控制的目的。了解分布式结构后,下面将阐述基于分布式控制的几种控制算法。(1)基于长机-僚机的分布式编队控制方法

  长机-僚机法的基本思想:leader-follower机制,既然集中式分布中一个核心失控风险过多,那就多布置几个核心,并为核心机体分级控制,保证优先度和避免机体互相冲突。在多智能体集群组成的群体中,某架机体作为整个编队的领导者(长机),并作为第一优先级,向第二优先级(第二阶梯僚机)传送信息,以此类推,各僚机分别向比自己低一级的僚机传送信息,完成多智能体间的信息通讯,达到队形控制的目的。如图3所示。但这种控制方法虽然增加了一定稳定性,却同样鲁棒性较差,没有精确的队形反馈,一旦长机出现问题,系统信息传送不到位,那么整个系统就会处于瘫痪状态。为了解决这种控制方式产生的弊端,提出leader-candidate-follower机制,通过从candidate中选举产生下一任长机,故此来弥补鲁棒性差这一问题,从而实现编队的稳定飞行[11]。Raft算法实现:长机-僚机法技术的好处是编队控制结构简单,且容易实施,在编队时只需确定领航员的目标方向或其他行为,然后跟随者再以所设定的方向或偏移跟踪领航员,即可完成编队管理。因此,领航者-跟随者方案也在实际工程中被应用了。但该方案的不足之处是编队系统仍然依赖领航员,各机体的自由度亦然不高。

基于协同合作的多智能体控制系统算法探究论文

  (2)基于集群行为的分布式编队控制

  基于行为法的分布式控制系统,主要是指一个先果后因的运动控制方式,思想可以是通过对智能体系统实施调控功能后所期望形成的总体活动模型,也可以通过对各种智能体的个体活动规律以及局部运动监控方法加以设计,由于该种方法的每个个体都自成控制中心,可以对复杂的外界环境随机应变,但要求每个个体的算力处理有一定要求,所以常常特定用于无人机集群的避障处理。如图4所示,通常将每个无人机的动作行为,如同于“库函数”一样存放在编队控制器中,当控制系统工作时,随着环境信号和控制指令的改变而进行一定的动作方式,如避障、队型组成、队形转换、方向运动等。例如,对于从障碍区驶出的情况,该方法是直接放任编队打散,利用每架无人机的避障能力通过障碍区。这种方法中只要单架无人机有避障能力即可实现。但每架无人机通过路径长度差距难以预估,驶出障碍区时长的不同可能导致无人机重构成完整编队较为困难,甚至由于缺乏路径规划能力,有些无人机可能陷入死局点,无法驶出区域,所以对每架飞机的智能识别算法不仅要以自身坐标原点,还要以其他飞机为辅助参考系,才能保证编队的完整性[12]。与领航跟随者不同之处在于,该方法中的协作作用是通过无人机之间的位置、状态输入值等信息的共享来实现的。每架无人机仅需要知道相邻无人机的信息即可,因而大大减少了信息的收集,同时大大降低了计算量,系统实现也较为简单。劣势在于很难描述群体的动态特征,也无法实现精准操控,且队形所保持的稳定性也不易控制。

基于协同合作的多智能体控制系统算法探究论文

基于协同合作的多智能体控制系统算法探究论文

  (3)基于人工势场法的分布式编队控制法

  人工势场方法最早由Khatib提出,运用在控制机器人避开障碍的情境中,其在移动机器人上的应用有着很好的效果。人工势场法的基本理论可解读为:如图5所示,机器人在一个具有势场的空间中移动,将在空间中目标点看作一个具有吸引力的极点,将在空间中的障碍物看作是具有斥力的点,机器人在空间内同时受到引力和斥力,其按照受到的合力场移动。环境中的障碍物会对无人机体产生排斥力,而目标点对无人机体产生吸引力,导致无人机体向最小势能方位移动。(4)粒子群优化算法

  粒子群优化算法(Particle Swarm Optimization,PSO),是一类经典的群集行为最佳优化算法。在集群中所有个体并不具有比较强的力量,而是所有个体根据简单的运动规律来形成自发的群体行动。在1995年,Kennedy和Eberhart4提出了PSO算法的原型,假定有一鸟群在同一块草坪上搜寻食物,并把每一只小鸟的位置看成一组在整体空间中的某个解,即是某个微粒,而小鸟群即是粒群。如图6所示粒子群中,每个粒子在当前地点时都会通过评价指标确定这一地点上的适合度,同时通过环境信息计算出其包括速度和航向的速度向量,从而在下一轮周期循环中再根据上述消息修改自身定位。粒子群算法首先在第一轮生成一组规定范围内随机位置的粒子,对粒子适应度进行评估后,粒子向适应度更高的粒子方向前进更新位置,如果找到比过去几轮解集中最优解的解则更新当前最优解,通过多次迭代优化解,最终得到整组粒子的最优解。相对于以上几种算法,粒子算法是整体最优算法,但问题规模较小时成效反而不理想。

基于协同合作的多智能体控制系统算法探究论文

  (5)基于虚拟结构的分布式编队控制方法

  虚拟结构法(Virtual Structure)[5]的主要思路是把整个多智体系统都视为一个总体结构,也就是把一个刚性的虚拟结构中的每个智能体都视为刚性结构中的一个单位。当整个系统完成编队时,队形中每一点的相对方位都会改变,但点和点间的相对位置却保持不变。虚拟结构法问题其实是整个多智能体系统跟踪一个虚拟点的问题。比较于其他方式,虚拟结构法有很多好处:编队误差的引入使得系统的控制精度更高;各个智能体之间的通讯协议较为简单。针对多无人机编队控制问题,提出了一种基于虚拟结构法的非线性鲁棒控制算法。在充分考虑了多无人机在近距离编队航行时,相互间的气流干扰等因素的同时,还开发了一个supertwisting的鲁棒控制算法,因而大大提高了编队管理系统的控制精度和安全性。使用了Lyapunov稳定性分析,证实了位置跟踪误差可以在有限时间内收敛到光滑模面,从而获得了闭环系统全局渐近稳定性的结果。把无人机的编队视为一个刚性的虚拟结构。如图7所示,每个无人机可以看作在这个虚拟结构中一个固定的点。编队中的无人机个体通过进行追踪并保持在虚拟结构上的稳定位置点就能够实现设计好的编队空中巡检路线。以虚拟结构为框架,通过在编队控制算法计算中加入队形反馈,相邻的离散编队控制器能够相互之间实现通讯与消息传递,使编队控制器也能够自由调节编队的速度快慢,又能很好的保持队形。

基于协同合作的多智能体控制系统算法探究论文

  5结束语

  多智能体系统协同控制算法起源于计算机领域关于分布式计算的研究,后由于数学家们的强势加盟,控制领域的研究一度占领高地。随着人工智能的发展,以多智能体强化学习为代表作的多智能体系统系协同控制算法更攀巅峰。目前,每年多智能体相关的论文的都浩如烟海,而在目前的研究中,许多学者的多智能体算法都过于单一,虽然对于特定的执行环境和特定的智能体集群有着不可比拟的切合度和权威性,如无人机避障、物流小车规划、地下蚁群规划等,但这些算法的研究对整个的多智能体控制领域而言缺乏泛用性,给对多智能体控制领域的入门提高了不少门槛,本文则从多智能体控制的两种思想,集中式控制和分布式控制来阐述了集群控制算法的核心思想,并探讨了这些算法的适用条件。在集中式控制系统中,要求运行人员提前制订任务分配方法和对各智能体的行动路径设计,由机体本身决策功能强弱,完全取决于行控中心节点所提出的任务指令和目标执行情况。其好处是任务分配计算的实现简便,且具有产生全局最优预测解的能力。由于这种控制结构适合于有确定环境,规模相对较小的控制系统。而对于分布式控制系统,由于各个智能体都被视为拥有决策功能的机体,这种多任务分配问题将演变为不同智能体对任务的分配决策问题。整体框架:分布式任务分布—多任务聚类—集群控制框架,可解决集中式分布在任务分配后集群网络中各节点的聚类问题,从而提高多智能体控制系统的稳定性和可塑性。而对于实际而言,需要用到多智能体控制集群往往执行环境难以预测和任务复杂,所以设计控制算法时,分布式为更优解。

  参考文献:

  [1]曹宗华,吴斌,黄玉清,等.基于改进蚁群算法的多机器人任务分配[J].组合机床与自动化加工技术,2013(2):4.

  [2]王念慈.基于Diffusion的集群多任务分配与聚类算法研究[D].成都:电子科技大学,2021.

  [3]施展,陈庆伟.基于改进的多目标量子行为粒子群优化算法的多无人机协同任务分配[J].南京理工大学学报,2012(6):7.

  [4]杜继永,张凤鸣,杨骥,等.多UCAV协同任务分配模型及粒子群算法求解[J].控制与决策,2012(11):5.

  [5]舒扬.多智能体协同控制关键算法研究与应用[D].成都:电子科技大学,2019.

  [6]时晨光,丁琳涛,周建江.基于Stackelberg博弈的有人机/无人机混合集群辐射功率控制算法[J].无人系统技术,2020,3(4):29-41.

  [7]任林.多智能体协同控制系统的设计与应用[D].郑州:河南大学,2017.

  [8]陈庆.集群航天器自组网特性和拓扑控制算法研究[D].哈尔滨:哈尔滨工业大学,2014.

  [9]郭继凯.一种高速无人机集群控制的实现[D].南京:南京航空航天大学,2019.

  [10]彭志红,孙琳,陈杰,等.基于改进多智能体协同进化算法的多无人机低空突防航迹规划研究[C]//中国自动化学会控制理论专业委员会B卷.2011.

  [11]赵鹏.基于群集行为的无人机自主编队算法研究[D].哈尔滨:哈尔滨工业大学,2019.

  [12]郝益,高宇.基于一致性的多智能体动态编队方法[J].人工智能与机器人研究,2021,10(4):321-328.