首页> 中国专利> 基于车联网的多智能体无人驾驶电动汽车换电调度方法

基于车联网的多智能体无人驾驶电动汽车换电调度方法

摘要

一种基于车联网的多智能体电动汽车换电调度方法,其中,车路协同业务被部署在MEC平台上,借助Uu接口或PC5接口及VANET、4G或者5G等通信方式实现“人‑车‑路”协同交互;根据有换电服务需要的电动汽车周边的地图,路侧单元将潜在合作匹配度高的换电站集群划分为一个整体,聚集成一个换电区域,将服务能力概率最大的换电区域同时共享多个有换电服务需求的电动汽车;以各换电站的服务率作为考核目标,主要考核每个换电站节点的自身服务能力、自身服务质量、坐落信息,以及有换电需求的电动汽车当前的自身状态;提供全局电动汽车的最佳联合行动,以保持各换电站总体服务均衡,提高车联网的长期性能。根据本发明,电动汽车可尽快换电,各换电站可以保持业务均衡。

著录项

  • 公开/公告号CN112163720A

    专利类型发明专利

  • 公开/公告日2021-01-01

    原文格式PDF

  • 申请/专利权人 哈尔滨工程大学;

    申请/专利号CN202011140076.6

  • 发明设计人 王桐;杨光新;王宇;高山;陈立伟;

    申请日2020-10-22

  • 分类号G06Q10/04(20120101);G06Q10/06(20120101);G06Q50/06(20120101);

  • 代理机构11320 北京王景林知识产权代理事务所(普通合伙);

  • 代理人王景林;任秀英

  • 地址 150001 黑龙江省哈尔滨市南岗区南通大街145号

  • 入库时间 2023-06-19 09:24:30

说明书

技术领域

本发明涉及一种基于车联网的多智能体无人驾驶电动汽车换电调度方法,属于电动汽车换电调度技术领域。

背景技术

车辆与路侧单元(Vehicle to Roadside Unit,V2R)之间保持通信,车联网可实时获得道路交通信息,降低网络时延,提高网络传输能力。另外,MEC(Multi-access EdgeComputing,多接入边缘计算技术)提供了高效的计算功能以及在网络边缘的IT服务环境。这种环境具有超低延迟和高带宽,可以实现对无线网络信息进行实时访问。

特别是,通过在路侧单元(Roadside Unit,RSU)部署路侧单元,将智能交通系统的计算负荷通过分布式计算的方式转移到路侧单元(Edge Computing Node,ECN),完成大部分的计算,并通过VANET、4G或者5G等通信方式,将结果发送给设有车载单元(OBU)的车辆,满足车路协同的需要。路侧单元作为中继节点,采用光纤网络连接方式,与电动汽车的移动客户端进行信息交互。中继代理之间保持信息共享,当移动客户端离开某一中继节点的通信半径,就会寻找另一个中继节点继续之前的信息传输任务。

基于以上事实,在大规模、高动态、无人驾驶电动汽车换电决策的场景下,电池供求双方产生了电池更换协同优化的问题,主要包括:1)换电站所追求的服务利用率高(排队队列长)与电动汽车所追求的自身换电利益最大化(距离近、排队少)之间相互矛盾,因此,现有技术中的“启发式”方法很难对其建模、优化、并保证其收敛;2)多个邻近的换电站之间也存在竞争关系,在电动汽车换电调度过程中,经常出现一部分换电站拥塞,而其他换电站却闲置的现象。因此,对于某辆电动汽车“最优”的换电决策,对整个车联网却远远不是最优的。这一点,却长期被行业所忽略。

电动汽车在运营过程中需要考虑,什么时候换电和去哪里换电。如果关于时间的选择是无序的,关于地点的选择是随机的,当大量的电动汽车在同一时间驶向同一个换电站更换电池的时候,可能还有很多的换电站闲置。如果换电站的电池储备过多,会增加换电站的运营成本,造成服务端和用户端的恶性循环,不利于换电相关行业的可持续性发展。相反,如果换电站的电池储备不足,用户就需要排队等待,这大幅度增加了换电的时长。

鉴于此,现有技术中,对电动汽车的换电调度策略问题进行过大量研究。

然而,现有技术中的研究重点在于:在多个换电站都可以为某一用户提供换电服务时,如何为用户提供最优的方案,减少未来换电的等待;在多个换电站都不能为该用户提供换电服务时,如何为用户提供最短等待时间的换电方案;在换电资源得到充分利用时,如何均衡闲置和过载的现象,有效提升换电站的利用效率。

尤其是,现有的换电站选择相关研究,虽然考虑了移动中的电动汽车与换电站的协同调度,但是并没有考虑到如下问题:在换电需求增大到一定阈值时由于电池储备不足、单一换电站接受过多的换电需求造成的换电等待时间过长等问题;通过将电池资源进行合理有效的集中分配,促进换电站之间的协同合作;均衡换电站之间的竞争关系,合理分配换电资源。

特别是,在现有技术中,换电站的选择方法都是基于个别参量的优化方法,例如,如何找到最近的换电站,如何尽快达到换电站,如何最快地得到换电,如何缩短对待时间等等。由于追求的优化指标往往只有一个、考虑问题仅局限于特定的电动汽车、只注重系统的当下技术效果而忽略了系统的长期技术效果、只注重了某辆电动汽车的微观利益而忽略了城市全体电动汽车的宏观利益、只注重了某个区域的局部利益而忽略了城市交通网络的全局利益,因此,传统车联网系统的有效性往往都不高,鲁棒性也较差,更不具有自我学习、自我提升决策准确性与可靠性的能力。

事实上,在电动汽车行业,由于传统思维的惯性,从来没有人意识到换电站的选择方法可以有比追求个别参量目标更优的技术方案,更没有人尝试过不同于基于个别参量的换电站优化选择方法。

相反,现有技术中一直只考虑以下其中一个参量,选自:目标换电站与某辆电动汽车的距离最近、某辆电动汽车到达目标换电站的时间最短、换电站的换电操作时间最短,等待换电的时间最低。特别是,在本技术领域,至今没有检索到以直接优化换电站服务率为目标的技术方案,更没有能够实现自主学习、自我完善、不断改进决策准确度、可靠性的系统。

发明内容

本发明的目的是提供一种基于车联网的无人驾驶电动汽车换电调度方法,其既能够使得电动汽车尽快得到换电,也能够使得各换电站业务均衡,既不太忙也不太闲。

本发明的另外一个目的是提供一种基于车联网的电动汽车换电调度方法,其克服了传统技术的偏见,突破了传统的思维惯性,不以追求某个技术指标为目标,而是直接以全局性的技术效果为追求目标。

本发明的再一个目的是提供一种基于车联网的电动汽车换电调度方法,其不仅注重系统的当下技术效果而且注重系统的长期技术效果、不仅注重个别电动汽车的利益而且注重电动汽车群体的整体利益、不仅注重了个别换电站的利益而且注重城市中换电站布局的整体利益。

为此,本发明提供了一种基于车联网的无人驾驶电动汽车换电调度方法,其特征在于,

在路侧单元上部署边缘信息收发装置和信息处理装置,将智能交通系统的云端处理负荷分布式分配至边缘处理节点,借助Uu接口或PC5接口并通过VANET、4G或者5G进行车路协同通信;通过光纤网络连接的各路侧单元作为中继节点,与各电动汽车的移动客户端进行信息交互;中继代理之间保持信息共享,当移动客户端离开某一中继节点的通信半径,就会寻找另一个中继节点继续之前的信息传输任务;

车路协同业务被部署在MEC平台上,RSU和车载单元使用各自的MCU分别进行换电决策和信息处理,并通过经DSRC协议处理的信号收发装置进行通信。.

根据有换电服务需要的电动汽车周边的地图,路侧单元将潜在合作匹配度高的换电站集群划分为一个整体,聚集成一个换电区域,并获取每个换电区域服务能力的概率分布,将服务能力概率最大的换电区域同时通知多个有换电服务需求的电动汽车;

以各换电站的服务率作为考核目标,考核每个换电站节点的自身服务能力、自身服务质量、坐落信息,以及有换电需求的电动汽车当前的自身状态;

提供全局电动汽车的最佳联合行动,以保持各换电站总体服务均衡,提高车联网的长期性能。

优选地,将同一时刻位置变化相同电动汽车作为同一智能体,以减小维度。

优选地,实施强化学习,不断更新所述电动汽车以获得预期服务的概率分布信息;

优选地,所述路侧单元面向电动汽车动态划分换电区域。

优选地,根据换电区域的合作契合度、当前服务状况、以及各换电区域间的策略分配差值,动态调整换电区域的划分。

优选地,每进行一次换电区域的划分,需要对决策的长期回报进行预估,并且对每一次电动汽车的实际动作执行进行事后的评价。

优选地,不关注每个换电站个体,而关心换电区域作为一个整体的服务率和服务质量与理想中的服务率和服务质量的偏差;通过反馈得到每个换电站的服务率,并将此作为参数重新进行换电区域的划分。

优选地,根据场景下的参量幅值、参量变化率、以及各换电区域当前服务能力,和/或,根据当前状态和长期回报,路侧单元为电动汽车选择合适的换电区域;并且,将换电服务的结果回馈给该路侧单元。

优选地,将换电站的区域划分过程设置为只选取相距较近的换电站,根据判决矩阵对多个换电站同步重新拆分重组。

优选地,路侧单元设有用于自我评价决策准确度的量化奖励措施,在换电区域划分之后、电动汽车在换电站换电之后,都将实际情况反馈至该路侧单元,并且得出与理想预期之间的差异,如该差异很小,表明决策准确,未来作为经验继续执行相同的决策,由此记载最高奖励值;如该差异较大,表明决策不准确,未来不再执行相同的决策,由此记载最低奖励值;该奖励值的大数据作为路侧单元强化学习成果的一部分,为后续相同或类似事件的决策提供依据。

本发明的换电调度算法,就是根据奖励函数设定的目标,自学习去哪个换电站换电。经过一段时间学习训练之后,达到优化配置。根据一般的学习方法,如深度学习,在学习训练出模型之后,系统就投入使用了,系统在使用过程中无法继续调整。而根据本发明的多智能体强化学习方法,系统模型在使用过程中可以继续学习,并且在使用过程中得到优化、改进、调整。

根据本发明,首次在车联网的电动汽车的换电决策方法中采用了强化学习。而且,本发明采用了基于延迟回溯的强化学习,这是对人工智能强化学习技术本身的改进。

根据本发明,可以不由RSU(路侧单元)划分区域,RSU主要用于车路协同传递业务请求和决策信息。根据本发明的划分区域的方法,可以适应换电汽车数量非常大的情况,弱化换电车辆规模对调度决策的影响;把同一区域某时间段的车辆看作一个集合或同一智能体(agent),大大起到了降维作用。

根据本发明,车路协同业务被部署在MEC平台上,实现了基于移动边缘计算的车路协同交互,降低端到端数据传输时延,缓解终端或路侧单元的计算与存储压力,减少海量数据回传造成的网络负荷,提供具有本地特色的高质量服务,从而为复杂计算提供了基础。

根据本发明,实现了系统自身的强化学习,通过智能体与环境的交互学习,将优化目标从传统方法的参量属性,转变为直接优化换电站的服务率,从而出人意料地大大提高了系统的有效性和鲁棒性。

根据本发明,使用多智能体优化算法,通过变量消除使得系统内所有有换电需求的电动汽车得出最佳联合动作,同时通过强化学习,使得智能体可以根据自己的经验进行自主学习,既不需要任何预备知识,也不依赖任何外部帮助。

根据本发明,在电动汽车换电服务领域,首次将V2R业务部署在MEC平台上,在换电站角度和汽车角度都达到了最优化。换电站方面更注重服务率,而电动汽车更关注服务质量(等待时间),以这至少两项为优化目标,实现了多目标优化。

根据本发明,采用“动态划分”方法,通过换电站更新判决矩阵,重新定义状态空间,以对每个距离合适的换电区域进行拆分重组,对较实时变化的多电动汽车、多因素相互制约条件下高维的、动态的、随机的、非线性的时变复杂动态系统进行了有效建模、多目标优化方程设计,并且保证了最优化方程的收敛性。

根据本发明,在电动汽车换电服务领域,首次将车路协同业务部署在MEC平台上,在换电站角度和汽车角度都达到了最优化。换电站角度更注重服务率,而电动汽车更关注服务质量(等待时间),以这至少两项为优化目标,实现了多目标优化。

根据本发明,采用“动态划分”方法,通过换电站参数更新判决矩阵,重新定义状态空间,以对每个距离合适的换电区域进行拆分重组。对较实时变化的多电动汽车、多因素相互制约条件下高维的、动态的、随机的、非线性的时变复杂动态系统进行了有效建模、多目标优化方程设计,并且保证了最优化方程的收敛性。

根据本发明,在“选择去哪个区域”的经验积累与学习中,主要采用了“奖励函数”这一自我评价决策准确度的量化措施;而且,“奖励函数”的生成过程与“选择去哪个区域”的“动态划分”之间相互协同。

发明构思的不同决定了技术方案的不同,也产生了预料不到的技术效果。

根据本发明,使用多智能体优化算法,通过最大化系统回报函数及消除协调关系得出有所有换电需求的智能体的最佳联合动作;基于强化学习的换电调度决策,除了充分考虑用户、换电站的实时状态以外,在不断学习中强化策略,减少换电的平均等待时间,提高了换电式电动汽车的驾驶体验,也提高了换电站的利用率。

特别是,本发明了克服传统技术的偏见,突破了传统思维的惯性,摆脱了换电站的选择只追求个别技术指标的传统技术方案,开辟了以直接优化换电站服务率为目标的最新技术路线,而且实现了自主学习、自我完善、不断改进决策准确度与可靠性等预料不到的技术效果。

附图说明

图1是根据本发明的车联网中电动汽车换电站决策系统的结构原理图。

图2是路侧单元和车辆的通信原理结构示意图。

图3是根据本发明的车联网中电动汽车与换电站间的通讯模型示意图。

图4是换电区域划分与选择的结构示意图。

具体实施方式

基于移动边缘计算的车路协同交互概述:

如图2所示,本发明的移动边缘计算的车路协同换电站决策系统被搭载在城市道路模型上,包括RSU和车载单元的基本结构,二者利用各自经DSRC协议处理的信号收发装置通过V2R进行消息互通。每个路侧单元感应一定范围,路侧单元的MCU通过信号收发装置发出通信许可,车载单元收到信号后产生中断信号唤醒车载单元的MCU并将信息传递给路侧单元,完成通信。

如图3所示,根据本发明的车联网中电动汽车换电站决策系统,系统将计算中心迁移到MEC(移动边缘计算)节点,通过路侧单元的MCU直接获取数据并进行分析,建立不完全依赖于蜂窝网的、少影响蜂窝网正常业务的通信计算架构,利用其计算存储能力真正实现换电调度计算本地化,执行过程包括:

步骤1:每个发布周期T内,每个CS(换电站)节点发布包括自身服务能力(如可用电池数量、队列信息等)、自身服务质量(如平均等待时间、平均队列长度)、位置信息等本地信息。将MEC放在RSU(路侧单元)上,RSU作为中继节点代理区域内的所有电动汽车订阅,并缓存来自CS的本地信息,辅助感知EV(电动汽车)的换电请求。

步骤2:通过车路协同,MEC向有换电需求的车辆提供CS状态的所有信息,当有EV有换电需求的时候,EV会根据自身状态(电池状态、位置信息等)即时向MEC发布换电请求信息;RSU同样作为中继节点代理辅助CS订阅来自所有EV的换电请求信息。

步骤3:具有计算能力的RSU在全面订阅、聚合了来自CS的状态信息和EV的请求信息后,MEC对请求做出决策,接收到EV消息后MEC服务器将本地信息与CS信息集成为状态并将其输入多智能体深度强化学习换电调度算法为CS和EV完成调度策略的制定。RSU通过感知车辆的网络位置生成决策信息发送给有换电服务需求的EV。

步骤4:EV根据接收到的决策信息,执行该决策,前往指定CS完成换电,过程中发送接近请求;到达后,如果EV换电成功,则向CS上传时间信息;如果换电失败,则重新发送请求,并将有关其奖励数据库和换电站信息传输给所有MEC。

步骤5:CS收到来自RSU的电动汽车预约信息,环境状态更新,并重复步骤1。

换电站选择智能调度策略概述:

如图4所示,通过将地图划分为若干区域,分析每个换电区域的服务能力,将服务能力映射为执行动作的概率分布,通过多智能体优化算法并通过强化学习不断更新该概率分布比例,选取拥有最大概率的行动。为了实现上述目标,本发明提出了可动态区域划分、面向智能体的双层换电策略模型。

首先,是换电区域划分策略,为了充分利用换电资源,本发明将当前地图划分为若干换电区域,共同接收来自电动汽车的换电请求,区域的服务能力主要取决于区域内每个换电站换电能力之和,并通过强化学习的相关方法根据换电区域的合作契合度、当前服务状况、以及各换电区域间的策略分配差值,动态调整换电区域的划分策略,系统将该划分策略反馈给模型的第二层。

其次,是电动汽车的换电站选择策略,本模型包括通信模型和多智能体换电调度模型,在强化学习中引入多智能体优化算法,对有换电需求的全部车辆进行规划。强化学习系统根据价值函数来制定贪婪调度策略,并通过反馈得到每个换电站的服务率,并将此作为参数反馈给换电区域划分策略执行换电区域划分。

换电区域划分初始化基于地理均分,为了强化换电站之间的内在联系(竞争、合作关系),将竞争合作关系量化输入到经过改进的强化学习算法,在过去、现在甚至将来的时间片段中训练、完善区域划分模型,将潜在合作匹配度高的换电站集群划分为一个整体,聚集成一个换电区域,共同接收服务请求,提高换电站的服务率和利用率。

策略系统将为场景下车辆和换电区域分别做出换电选择策略和换电区域划分策略,换电站选择策略根据系统环境中的参量幅值、参量变化率、以及从上述换电区域划分模型获取到的换电区域当前服务能力等多个因素采取一定的量化方案做出最优决策。与此同时,将该决策包含的有用信息回馈给区域划分模型。

策略系统模型建立:

本策略为包括换电策略选择和换电区域划分的双层换电策略,每辆电动汽车的换电实时影响着城市各区域的换电能力及最佳换电区域划分。系统的状态包括换电区域状态和电动汽车的状态。其中,换电区域状态包括换电场景下多个换电站的集合以及该场景下若干个换电区域,每个换电区域都包含了若干个换电站。此外,还包括换电区域当前队列长度和当前周期内换电站的负载情况以及区域划分参数。电动汽车的状态方面包括电动汽车的总数量和换电需求、电动汽车的当前位置。策略系统模型如下所示:

(1)换电选择策略

系统采用基于多智能体强化学习的换电选择策略,将同一区域具有相同换电需求的电动汽车视为同一智能体(agent),通过强化学习不断更新动作的概率分布,以完成无人驾驶电动汽车的换电选择。换电选择策略模型如下所示:

①动作空间设计

系统的动作空间包括某时刻每个agent从所在区域到目的区域的动作。

②状态转移函数设计

选择换电站时,在当前状态下执行动作,系统根据换电站当前负载情况,以一定概率转移到下一个状态,也就是状态转移函数。并且由于换电区域近似于一个可以并行提供服务的换电站集合,状态按概率的转移受排队等影响程度更低,区域划分也提高了学习的效率。

③基于多智能体强化学习算法的换电区域选择策略

服务率给予系统奖励,调度系统中,假设每个动作会结合当前状态从动作空间中挑选两个合适的第一动作和第二动作,其中,第一动作更有利于换电利用率的提升,第二动作更有利于服务率的提升,那么执行该动作后,电动汽车会前往两个可能的换电区域完成换电,如图4所示,当电动汽车行驶在换电区域1,那么其根据距离可选择的换电区域为2、3、4、5、6和7。系统根据当前状态和奖励函数为电动汽车选择的策略包括了两个深色换电区域2、3,那么电动汽车将依照转移概率随机在这两个换电区域中选择一个前往换电,并得到不同的奖励。

根据概率转移比重来分配其转移概率。

系统规划了全局车辆,每个agent的换电决策都会对其他车辆造成影响,所以不能将每个agent的策略看作独立的个体。每个agent选择动作并将回报值反馈给系统,本策略通过多智能体优化算法最大化系统回报函数以得出全部有换电需求车辆的最佳联合动作,即将系统回报值分解成有限局域的回报值线性和,在考虑各agent协调关系的同时逐个规划各agent动作,最终得出最佳联合动作。

所有的电动汽车在独立强化学习过程中以一定的概率得到系统价值函数的下一次更新函数。这样,如果当前换电区域的服务率远小于预期的最佳服务率,那么,当系统为电动汽车选择该换电区域的时候会给予一个很大的奖励,同时为了调整这个奖励的大小程度,获得更大的奖励。

(2)换电区域划分策略

系统采用基于强化学习的换电区域划分策略,通过换电站更新判决矩阵,重新定义状态空间,以对每个距离合适的换电区域进行拆分重组,对较实时变化的多电动汽车、多因素相互制约条件下高维的、动态的、随机的、非线性的时变复杂动态系统进行了有效建模、多目标优化方程设计,并且保证了最优化方程的收敛性。换电区域划分策略模型如下所示:

①动作空间设计

每个来自电动汽车的换电请求对于换电区域的整体划分有的时候直接影响相对较小,同时换电站的负载情况和队列信息会造成更大的影响,根据负载情况、队列信息以及相关策略,换电系统会执行动作,它们共同构成了换电区域划分策略的动作空间。同时,车辆调度系统也会根据当前状态和长期回报为电动汽车选择合适的换电区域完成换电。

②状态转移函数设计

同样,在基于区域划分的调度系统中,当前状态下执行的区域划分策略对当前状态的改变方向也是确定的,从长期回报的角度来看,这样的划分也不一定是最佳的策略,所以,每进行一次划分动作的执行也需要对其长期回报进行预估,来获得每一次动作执行的评价。

在换电区域划分的时候,本发明考虑的动态因素包括服务率和服务质量,比起关注每个换电区域划分的好坏,更关心换电区域的服务率和服务质量与理想中的服务率和服务质量的偏差。

在预估系统的长期回报时,在当前状态做出动作后,系统依然会根据当前的动作确定性地改变系统的状态,但是,在预计当前状态之后的每一步迭代时,尽管系统给出了动作,但是系统的状态(包括区域划分策略以及电动汽车的换电区域选择)会有一定的概率转移到有利于服务质量的状态,同时会有另外一个的概率转移到有利于换电站利用率的状态,同时无论服务质量还是换电站的利用率,水平的提高都会相应地减少电动汽车换电的等待时间,只不过减少的幅度会有所不同,这样,就可以让系统在一个有序的链式结构中不断优化换电的等待时间,同时提高了服务质量和换电站的利用率。

③奖励方程设计

换电区域划分的奖励函数也是通过服务质量和服务的利用率来设计,由于换电区域的状态转移同时考虑了换电区域的服务利用率和换电区域的服务质量而换电区域选择模型中在状态转移中只考虑了换电站的服务利用率,为了使两个学习模型尽可能向同一方向进行,在换电区域划分的状态转移函数中已经考虑了这两个因素的概率权重分配,那么在系统将只在服务利用率方面给予奖励。

在换电区域选择系统中,每次策略的制定都会得到一个基于服务利用率和服务质量的奖励函数,作为换电区域的任务是收到更多的服务预定以提供更多的服务,这样就在换电调度策略提高服务质量的基础上均衡了换电站之间的利用率,在换电请求较多的情况下进一步提高了换电站的服务利用率。根据当前服务率和最佳服务率的偏差设计奖励函数。

④换电区域划分设计

区域划分策略的整体思路是:在动态换电区域系统中,考察场景下整体的划分价值与理想划分价值的距离,而这个价值包括两个方面,即服务质量和服务率,为保证电池的供应足够,需要控制车辆的到达,同时对所有区域的换电站进行重新规划。其要点在于将多个换电站视为相互影响的智能体,然后进行多智能体同步规划。对于在周期内前往换电区域的实际数量,也就是服务率,通过考察所有换电区域的服务率与最佳服务数量的距离,可以对划分策略的性能给出评价。

当场景内存在多个换电站,把这些换电站划分为若干个换电区域,那么可以把区域划分多个动作空间。每个距离合适的换电区域之间进行拆分重组,为了和换电调度策略的距离设定一致,将合适的距离定义为和换电调度策略中电动汽车寻找换电区域的距离大小一致,如图4所示,区域1满足区域拆分条件,将在距离较近的换电区域2、3、4、5、6和7中,根据区域划分的价值大小,找到共同执行区域划分策略的对象换电区域3,区域划分策略是通过以下方式制定的:

由于电动汽车执行换电策略的时候会考虑每个区域的负荷情况,很少的概率去选择服务率过高的换电站,这样可能会造成一旦某个换电区域服务率过高,由于奖励机制大部分给予的正向奖励积累,这些某一时刻服务率过高换电区域内的换电站会在未来一段时间内出现“无人问津”的现象,为了缓解这一现象,系统在换电区域划分中力求尽可能提高换电站的服务率,只在服务率高出一定限制的时候,才会给予更大的换电区域拆分重组机会。

区域划分动作按照价值最大的动作执行。奖励的迭代是通过现在的判断“回溯”过去“本应”执行的最佳动作来更新奖励方程,每个区域对于区域划分的价值会同步更新到每个换电站的价值,那么换电站的价值就代表了该换电站在不同的换电区域的综合表现,综合表现良好的换电站更适合参与区域划分。

由于换电站的区域划分只选取相距较近的电站,所以,本发明的区域划分不将车辆的到达时间作为划分的依据,为了(1)换电区域有相对固定的地理位置(2)不让距离较远换电站划分到同一换电区域从而大大减少同步更新区域的换电站数量,本发明做出以下的规定:

换电站的价值矩阵用于构成状态判决矩阵。由于对角元素常驻该换电区域,而且价值更新会与本换电区域价值更新同步,判决的时候可以不考虑对角元素的状态。可以重新定义状态空间,使用新的判决矩阵与换电区域的价值矩阵的情况来判断换电区域是否需要重组拆分。

根据奖励函数可知,如果某个换电区域当前周期需要更多的电动汽车前来换电,此时需要更大的服务率;如果除对角元素外的换电站并不能提供更大的服务率,从整个场景平均利用率的角度来看,虽然换电策略考虑了包含等待时间的服务质量因素,在其余的换电区域也必定存在较长的排队现象,虽然换电区域系统鼓励这样的政策,但是从回溯最优奖励的角度来看,该换电区域并不能有更大的服务率,所以对于这样的区域划分并不成功;相反,该换电站可以为换电区域提供更多的服务率,策略成功。

如果当前服务率很高,因为区域划分算法鼓励更高的服务率,所以此时系统达到良好的状态。为防止服务率过高,设定了截止函数以控制其峰值,并且为其选择合适的区域划分策略。

如果阈值越大,系统鼓励该区域得到更高的服务率,系统偏重于吸引更多的电动汽车前来该区域换电,提高换电站的服务率,反之亦同。

当电动汽车需要更大的服务率而换电站并不能提供时,需要对换电区域进行拆分重组,换电站重组时根据概率转移函数,按照对应的概率执行动作,系统就获得了新的状态,当动作执行完毕后,通过回溯的方式判断该动作是否最佳,如果最佳,则价值函数按照传统方式更新。

根据本发明的换电调度策略系统的整体工作流程如图1所示。

本发明的调度策略在赫尔辛基地图的仿真场景下,相比MD(MarkovianDynamics)、MTD(Max Travelling Distance)等常用调度算法平均等待时间减少了20%以上,换电总量也有明显的提高。特别是,在电动汽车数量足够大,电动汽车需要等待电池换电的完成的时候,优势更加明显。

强化学习算法由于离线学习的特性,在经验积累阶段难免会造成一些非常不理想的结果,本发明所利用的可回溯最大价值的价值更新方式,在很大程度上修正了不良结果对于学习系统的负面影响。适用于电动汽车的换电调度。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号