首页> 中国专利> 云计算与雾计算协同强化学习的交通红绿灯控制系统

云计算与雾计算协同强化学习的交通红绿灯控制系统

摘要

提供了云计算与雾计算协同强化学习的交通红绿灯控制系统。所提供的交通红绿灯控制系统,包括多个交通红绿灯控制设备与云计算平台,所述多个交通红绿灯控制设备耦合到所述云计算平台;交通红绿灯控制设备包括:毫米波雷达、激光雷达、融合感知单元与AIoT设备;所述毫米波雷达与激光雷达分别耦合所述融合感知单元,所述毫米波雷达与激光雷达各自捕获的图像或信号被提供给所述融合感知单元;融合感知单元同其所属的交通红绿灯控制设备的AIoT设备耦合,融合感知单元输出的交通状况信息提供给所述AIoT设备;AIoT设备将其所属交通红绿灯控制设备的融合感知单元输出的交通状况信息的部分或全部提供给所述云计算平台,并从所述云计算平台获取控制信息;AIoT设备根据其所属交通红绿灯控制设备的融合感知单元提供的交通状况信息与所述云计算平台提供的控制信息控制同交通红绿灯控制设备对应的交通红绿灯。

著录项

  • 公开/公告号CN113012432B

    专利类型发明专利

  • 公开/公告日2022-07-08

    原文格式PDF

  • 申请/专利权人 武强;

    申请/专利号CN202110274798.9

  • 发明设计人 武强;

    申请日2021-03-15

  • 分类号G08G1/01(2006.01);G08G1/04(2006.01);G08G1/07(2006.01);G08G1/095(2006.01);H04L67/1097(2022.01);

  • 代理机构北京卓特专利代理事务所(普通合伙) 11572;

  • 代理人段旺

  • 地址 730070 甘肃省兰州市安宁区建宁路127号301室

  • 入库时间 2022-08-23 14:00:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-08

    授权

    发明专利权授予

说明书

技术领域

本申请涉及信息处理设备与信息处理系统,具体地,涉及云计算与雾计算协同强化学习的交通红绿灯控制系统。

背景技术

城市交通拥堵已经对全球经济、环境造成了严重的影响。提升城市交通信号控制效率,是缓解城市交通拥堵相对“高效、低成本”方法之一。因为城市交通环境具有复杂性、不确定性,其内部运行的机理无法精确地进行分析建模,所以城市交通信号控制比较适合采用人工智能的方法进行控制。但是,目前大多数红绿灯控制方式是采用各颜色信号灯具有固定时长的策略,这导致经常存在“车辆拥堵路段红灯不能行;道路畅通路段开绿灯没车过”的情况。

机器学习技术已经得到越来越多的应用。中国专利申请CN107134156A提供了基于深度学习的智能交通灯系统及其控制交通灯的方法,中国专利申请CN109544913A提供了基于深度Q网络学习的交通灯动态配时算法。

毫米波雷达被用于检测路口车流量。诸如中国专利申请CN111583671A中提供了毫米波雷达路口车流量监测方法及其系统。

发明内容

为了利用机器学习技术对交通红绿灯实施控制,需要准确获知路口的路况信息,包括车辆/行人信息、排队长度、路口通过时间等。进一步地,由于城市交通的复杂性和不可预测性,单个路口的交通红绿灯控制不能达到缓解交通拥堵的目的。除了当前路口的路况信息,与当前路口的道路网络相关的邻近路口的路况信息和/或交通红绿灯控制信息也影响当前路口的车辆/行人流量。因而各路口的交通红绿灯控制设备需要彼此协同。然而交通路口的状态信息,来源于摄像头、雷达、车辆等诸多设备,这些设备具有数量多、数据量大、地域上广泛分布等特征,这使得城市交通红绿灯的控制不适合采用将全部数据传输到云计算平台统一处理的方式,而是希望采用分布在路口附近的边缘计算设备与统一的云计算平台协同的方式控制交通红绿灯,以获得本地、局部以及全局的优化。并且,交通红绿灯控制设备需要部署在路口现场,并在全天候条件下工作,因而还需要具有低成本、易部署以及适用于多种天气条件、环境条件的工作场景。

为了解决上述一个或多个技术问题并获得上述一个或多个技术效果,提供了根据本申请的多种实施例。

根据本申请的第一方面,提供了根据本申请第一方面的第一交通红绿灯控制设备,包括毫米波雷达、激光雷达、融合感知单元与AIoT设备;所述毫米波雷达与激光雷达分别耦合所述融合感知单元,所述毫米波雷达与激光雷达各自捕获的图像或信号被提供给所述融合感知单元;所述融合感知单元同所述AIoT设备耦合,所述融合感知单元输出的交通状况信息提供给所述AIoT设备;所述AIoT设备根据所述融合感知单元提供的交通状况信息控制同交通红绿灯控制设备对应的交通红绿灯。

根据本申请第一方面的第一交通红绿灯控制设备,提供了根据本申请第一方面的第二交通红绿灯控制设备,其中所述AIoT设备包括交通红绿灯控制单元与交通红绿灯驱动电路;所述交通红绿灯驱动电路耦合所述交通红绿灯,并驱动所述交通红绿灯的各颜色信号灯的点亮与熄灭;所述交通红绿灯控制单元同所述交通红绿灯驱动电路耦合,并调节所述交通红绿灯驱动电路驱动所述交通红绿灯的各颜色信号灯的点亮与熄灭的时间。

根据本申请第一方面的第二交通红绿灯控制设备,提供了根据本申请第一方面的第三交通红绿灯控制设备,其中所述AIoT设备还包括通信单元;所述通信单元将所述AIoT设备耦合到网络、边缘计算设备和/或同所述交通红绿灯控制设备所处路口相关的车辆;所述通信单元还耦合所述交通红绿灯控制单元,以向所述交通红绿灯控制单元提供同所述交通红绿灯控制设备所处路口不同的其他路口的交通状况信息。

根据本申请第一方面的第三交通红绿灯控制设备,提供了根据本申请第一方面的第四交通红绿灯控制设备,其中所述通信单元是5G无线通信单元、LoRa通信单元和/或NB-IoT通信单元。

根据本申请第一方面的第四交通红绿灯控制设备,提供了根据本申请第一方面的第五交通红绿灯控制设备,还包括摄像头;所述摄像头采集所述交通红绿灯控制设备所处路口的视频,并提供给所述融合感知单元。

根据本申请第一方面的第五交通红绿灯控制设备,提供了根据本申请第一方面的第六交通红绿灯控制设备,其中所述融合感知单元是已训练好的AI推断单元,根据所述毫米波雷达和/或所述激光雷达提供的所述交通红绿灯控制设备所处路口的图像或信号,输出的所述交通红绿灯控制设备所处路口的交通状况信息包括车辆排队长度和/或车辆通过时间。

根据本申请第一方面的第六交通红绿灯控制设备,提供了根据本申请第一方面的第七交通红绿灯控制设备,其中所述交通红绿灯控制单元是强化学习单元;所述强化学习单元将所述融合感知单元提供的车辆排队长度作为强化学习的状态,根据状态产生调节所述交通红绿灯驱动电路驱动所述交通红绿灯的各颜色信号灯的点亮与熄灭的时间的动作;以及将所述融合感知单元提供的车辆通过时间作为强化学习的奖励。

根据本申请第一方面的第七交通红绿灯控制设备,提供了根据本申请第一方面的第八交通红绿灯控制设备,其中所述强化学习单元将所述融合感知单元提供的车辆排队长度与所述通信单元提供的所述其他路口的交通状况信息作为强化学习的状态;以及将所述融合感知单元提供的车辆通过时间与所述通信单元提供的所述其他路口的车辆排队时间作为强化学习的奖励。

根据本申请第一方面的第八交通红绿灯控制设备,提供了根据本申请第一方面的第九交通红绿灯控制设备,其中所述AIoT设备存储或通过所述通信单元向网络提供所述毫米波雷达、所述激光雷达和/或所述摄像头捕获的图像、视频和/或信号。

根据本申请的第二方面,提供了根据本申请第二方面的第一交通红绿灯控制系统,包括多个边缘计算设备、多个交通红绿灯控制设备与云计算平台;其中第一多个交通红绿灯控制设备耦合到第一边缘计算设备;第二多个交通红绿灯控制设备耦合到第二边缘计算设备;所述第一边缘计算设备与所述第二边缘计算设备通过网络耦合到所述云计算平台;以及其中交通红绿灯控制设备是根据本申请第一方面的交通红绿灯控制设备。

根据本申请的第三方面,提供了根据本申请第三方面的第一交通红绿灯控制系统,包括多个交通红绿灯控制设备与云计算平台,所述多个交通红绿灯控制设备耦合到所述云计算平台;交通红绿灯控制设备包括:毫米波雷达、激光雷达、融合感知单元与AIoT设备;所述毫米波雷达与激光雷达分别耦合所述融合感知单元,所述毫米波雷达与激光雷达各自捕获的图像或信号被提供给所述融合感知单元;融合感知单元同其所属的交通红绿灯控制设备的AIoT设备耦合,融合感知单元输出的交通状况信息提供给所述AIoT设备;AIoT设备将其所属交通红绿灯控制设备的融合感知单元输出的交通状况信息的部分或全部提供给所述云计算平台,并从所述云计算平台获取控制信息;AIoT设备根据其所属交通红绿灯控制设备的融合感知单元提供的交通状况信息与所述云计算平台提供的控制信息控制同交通红绿灯控制设备对应的交通红绿灯。

根据本申请第三方面的第一交通红绿灯控制系统,提供了根据本申请第三方面的第二交通红绿灯控制系统,其中AIoT设备包括交通红绿灯控制单元与交通红绿灯驱动电路;所述交通红绿灯驱动电路耦合所述交通红绿灯,并驱动所述交通红绿灯的各颜色信号灯的点亮与熄灭;所述交通红绿灯控制单元同所述交通红绿灯驱动电路耦合,并通过执行雾计算强化学习算法控制所述交通红绿灯驱动电路驱动所述交通红绿灯的各颜色信号灯的点亮与熄灭的时间;所述云计算平台执行云计算强化学习算法生成提供给交通红绿灯控制设备的控制信息。

根据本申请第三方面的第二交通红绿灯控制系统,提供了根据本申请第三方面的第三交通红绿灯控制系统,根据权利要求2所述的交通红绿灯控制系统,其中所述云计算平台从所述多个交通红绿灯控制设备获取多个交通状况信息,根据所述多个交通状况信息作为云计算强化学习算法的状态信息,并根据云计算强化学习算法的状态信息生成多份控制信息并提供给对应的交通红绿灯控制设备之一。

根据本申请第三方面的第一至第三交通红绿灯控制系统之一,提供了根据本申请第三方面的第四交通红绿灯控制系统,其中AIoT设备响应于根据其所属交通红绿灯控制设备的融合感知单元提供的交通状况信息与所述云计算平台提供的控制信息生成雾计算强化学习算法的状态信息,根据雾计算强化学习算法的状态信息生成对应的动作来控制同交通红绿灯控制设备对应的交通红绿灯,还从其所属交通红绿灯控制设备的融合感知单元输出的交通状况信息中获取奖励信息,以更新雾计算强化学习算法的一个或多个参数;并将获取的奖励信息提供给所述云计算平台。

根据本申请第三方面的第四交通红绿灯控制系统,提供了根据本申请第三方面的第五交通红绿灯控制系统,其中AIoT设备根据获取的奖励信息更新其交通红绿灯控制单元的雾计算强化学习算法的参数;所述云计算平台根据从所述多个交通红绿灯控制设备的AIoT设备获取的奖励信息组合得到云计算强化学习算法的奖励信息,并更新云计算强化学习算法的一个或多个参数。

根据本申请第三方面的第五交通红绿灯控制系统,提供了根据本申请第三方面的第六交通红绿灯控制系统,其中交通红绿灯控制设备的融合感知单元输出的交通状况信息包括:交通红绿灯控制设备所处路口的排队长度、车辆通过路口的停车次数和/或车辆通过路口所需时间;交通红绿灯控制设备的AIoT设备根据其所属交通红绿灯控制设备的融合感知单元提供的排队长度与车辆通过路口的停车次数与所述云计算平台提供的控制信息作为雾计算强化学习算法的参数;交通红绿灯控制设备的AIoT设备根据其所属交通红绿灯控制设备的融合感知单元提供的车辆通过路口所需时间作为雾计算强化学习算法的奖励信息。

根据本申请第三方面的第六交通红绿灯控制系统,提供了根据本申请第三方面的第七交通红绿灯控制系统,其中所述云计算平台还获取紧急状况信息,以及将紧急状况信息与从多个交通红绿灯控制设备获取的多个交通状况信息作为云计算强化学习算法的状态信息;所述云计算平台还将所述紧急状况信息提供给多个交通红绿灯控制设备;AIoT设备根据雾计算强化学习算法的状态信息,还将从所述云计算平台接收的紧急状况信息的部分或全部提供同其耦合的一个或多个车辆。

根据本申请第三方面的第七交通红绿灯控制系统,提供了根据本申请第三方面的第八交通红绿灯控制系统,其中在交通红绿灯的t时刻的控制周期内,第i个交通红绿灯控制设备的融合感知单元获取其所在路口的排队长度

根据本申请第三方面的第八交通红绿灯控制系统,提供了根据本申请第三方面的第九交通红绿灯控制系统,其中在交通红绿灯的t时刻的控制周期内,第i个交通红绿灯控制设备的AIoT设备获取云计算平台提供的控制信息

根据本申请第三方面的第九交通红绿灯控制系统,提供了根据本申请第三方面的第十交通红绿灯控制系统,其中第i个交通红绿灯控制设备的AIoT设备还获取动作

根据本申请第三方面的第八到第十交通红绿灯控制系统之一,提供了根据本申请第三方面的第十一交通红绿灯控制系统,其中所述云计算平台将紧急状况信息

根据本申请第三方面的第十一交通红绿灯控制系统,提供了根据本申请第三方面的第十二交通红绿灯控制系统,其中所述云计算强化学习算法与各交通红绿灯控制设备的雾计算强化学习算法有各自的控制周期,所述云计算强化学习算法与各交通红绿灯控制设备的雾计算强化学习算法各自的控制周期相同或不同。

根据本申请第三方面的第十一交通红绿灯控制系统,提供了根据本申请第三方面的第十二交通红绿灯控制系统,其中所述云计算强化学习算法的每个控制周期开始前,等待所有的交通红绿灯控制设备各自都提供了状态信息S

根据本申请的第四方面,提供了根据本申请第四方面的第一交通红绿灯控制设备,所述交通红绿灯控制设备耦合到云计算平台;所述交通红绿灯控制设备包括:毫米波雷达、激光雷达、融合感知单元与AIoT设备;所述毫米波雷达与激光雷达分别耦合所述融合感知单元,所述毫米波雷达与激光雷达各自捕获的图像或信号被提供给所述融合感知单元;融合感知单元同其所属的交通红绿灯控制设备的AIoT设备耦合,融合感知单元输出的交通状况信息提供给所述AIoT设备;AIoT设备将其所属交通红绿灯控制设备的融合感知单元输出的交通状况信息的部分或全部提供给所述云计算平台,并从所述云计算平台获取控制信息;AIoT设备根据其所属交通红绿灯控制设备的融合感知单元提供的交通状况信息与所述云计算平台提供的控制信息控制同交通红绿灯控制设备对应的交通红绿灯。

附图说明

当连同附图阅读时,通过参考后面对示出性的实施例的详细描述,将最佳地理解本申请以及优选的使用模式和其进一步的目的和优点,其中附图包括:

图1展示了根据本申请实施例的交通红绿灯控制设备的框图;以及

图2展示了利用根据本申请实施例的交通红绿灯控制设备组成的交通红绿灯控制系统的示意图;

图3展示了利用根据本申请又一实施例的交通红绿灯控制设备及其交通红绿灯控制系统的示意图;

图4展示了根据本申请例的云计算平台与其耦合的多个交通红绿灯控制设备协同实施基于强化学习的控制过程的架构图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

图1展示了根据本申请实施例的交通红绿灯控制设备的框图。

根据本申请实施例的交通红绿灯控制设备包括毫米波雷达、激光雷达、融合感知单元与AI oT(人工智能物联网)设备。

根据本申请实施例的交通红绿灯控制设备同时包括毫米波雷达与激光雷达二者。毫米波雷达与激光雷达存在各自缺点,将二者在交通红绿灯控制设备,有利于弥补各自的不足。

激光雷达的缺点主要是工作时受天气和大气影响大,在大雨、浓烟、浓雾等坏天气里,衰减急剧加大,传播距离大受影响。其次,由于激光雷达的波束极窄,在空间搜索目标非常困难,只能在较小的范围内搜索、捕获目标。而毫米波雷达,即使在大雨、浓雾等恶劣天气中也能有效工作,并且能在较大空间范围内捕获目标。

毫米波雷达的不足在于精度低、探测范围短。而作为对比,激光雷达的探测精度更高、探测范围更大。

毫米波雷达无法检测行人,只能检测车辆,而激光雷达则对行人与车辆都能较好识别。

通过在交通红绿灯控制设备中同时设置毫米波雷达与激光雷达二者,使得根据本申请实施例的交通红绿灯控制设备在多种天气或环境下,都能探测到当前路口的车辆与行人二者,并且探测距离远,能覆盖邻近(驶进或驶出)当前路口的多个车辆。从而有助于识别当前路口一个、多个或各个方向的车辆/行人排队长度。

继续参看图1,毫米波雷达与激光雷达分别同融合感知单元耦合,各自向融合根治单元提供其所捕获的信息。可选地,交通红绿灯控制设备还包括摄像头。摄像头捕获的视频流也提供给例如融合感知单元。依然可选地,融合感知单元还获取通过例如无线网或车联网获取的同交通红绿灯控制设备所在的路口(称为当前路口)相关的车辆信息。

毫米波雷达与激光雷达各自向融合感知单元提供的信息是例如当前路口的图像或捕获的雷达回波信号。融合感知单元从图像和/或雷达回波以及可选的视频流中识别的目标物体(例如车辆、行人)的存在、位置、速度和/或运动方向等信息。融合感知单元是例如训练好的AI推断单元。依然可选地,训练AI推断单元,使其融合毫米波雷达、激光雷达提供的图像或信号,并输出当前路口的一个或多个方向的车辆排队长度与车辆通过当前路口的时间(或平均时间)。

可选地,根据本申请实施例的交通灯控制设备还包括摄像头,以采集当前路口的视频,并提供给融合感知单元。融合感知单元从摄像头提供的视频流与毫米波雷达与激光雷达各自提供的信号中获取有关车辆/行人的信息。

可以理解地,毫米波雷达、激光雷达、可选的摄像头与AI推断单元,各自都可以是例如本领域技术人员可获得的现有技术。

融合感知单元同AIoT设备耦合。AIoT设备获取融合感知单元提供的当前路口的有关车辆/行人的信息,并控制当前路口的交通红绿灯。根据本申请实施例的AIoT设备包括交通红绿灯控制单元与交通红绿灯驱动电路。可选地,AIoT设备还包括通信单元与处理器。

交通红绿灯控制单元是例如基于强化学习的计算单元(简称为强化学习单元)。交通红绿灯控制单元在线下已被训练好用于根据融合感知单元提供的信息控制交通红绿灯。可选地,在当前路口的现场,基于采集的车辆/行人信息还持续训练交通红绿灯控制单元以更新其例如Q矩阵。

在可选的实施方式中,将融合感知单元提供的当前路口的车辆排队长度,作为强化学习单元的状态数据。根据状态数据,强化学习单元控制交通红绿灯。强化学习单元的输出动作是例如对交通红绿灯的一种或多种灯光信号的保持时间的增加或减少。以及强化学习单元还将当前路口的车辆的排队时间作为奖励信息,并且可选地更新Q矩阵。

交通红绿灯控制单元的输出耦合到交通红绿灯驱动电路。交通红绿灯驱动电路用于驱动对应的交通红绿灯。交通红绿灯驱动电路控制交通红绿灯的每种颜色灯的点亮时间。交通红绿灯控制单元提供给信号灯驱动电路的是例如每种颜色灯的点亮时间的变化量(增加或减少,以及增加或减少的时间值)。

可选地,AIoT设备的通信单元是诸如5G无线通信单元、LoRa(长距离无线电,LongRange Radio)通信单元和/或NB-IoT(窄带物联网,Narrow Band Internet of Things)通信单元,从而AIoT得以接入因特网或私有/公有的物联网。可选地,AIoT设备的通信单元同与当前路口相关的车辆通信。

可选地,AIoT设备的通信单元从网络获取同当前路口相关的其他路口、道路和/或车辆的信息,并通过处理器提供给交通红绿灯控制单元。从而交通红绿灯控制单元根据同当前路口相关的其他路口、道路和/或车辆的信息进一步优化对当前路口的交通红绿灯的各颜色信号灯的点亮时间。

依然可选地,AIoT设备将融合感知单元向AIoT设备提供的当前路口的有关车辆/行人的信息,通过通信单元提供给网络或其他设备。依然可选地,AIoT设备将毫米波雷达、激光雷达和/或摄像头提供的图像或信号存储在本地存储设备种,以及可选地提供给网络或其他设备。

依然可选地,AIoT设备通过其通信单元还耦合到边缘计算设备。边缘计算设备耦合例如同其地理位置上邻近的多个根据本申请实施例的AIoT设备。边缘计算设备还例如通过网络耦合云计算平台。

图2展示了利用根据本申请实施例的交通红绿灯控制设备组成的交通红绿灯控制系统的示意图。

图2展示的交通红绿灯控制系统中的多个交通红绿灯控制设备(200、202、204与206)的每个例如都是图1展示的交通红绿灯控制设备,并且每个交通红绿灯控制设备各自部署在路口之一。这些交通红绿灯控制设备所部署的路口彼此邻近,从而这些路口的交通状况对其他路口的交通状况产生影响。

图2展示的多个交通红绿灯控制设备(200、202、204与206)各自耦合到边缘计算设备210,从而通过边缘计算设备210这些多个交通控制设备彼此交换路口的交通状况信息。作为举例,交通红绿灯控制设备200的AIoT设备从同其耦合的融合感知单元获取所在路口车辆的排队长度与排队时间,而通过交通红绿灯控制设备200的AIoT设备还从其他交通红绿灯控制设备(202、204与206)获得各自所在路口车辆的排队长度与排队时间。交通红绿灯控制设备200的交通红绿灯控制单元根据所接收的多个路口的排队长度与排队时间推断对于其所在路口最优的每种颜色信号灯的点亮时间。

图2展示的交通红绿灯控制系统中,包括多个边缘计算设备(210、212与214)。边缘计算设备(212与214)各自也耦合多个彼此邻近的多个交通红绿灯控制设备(图2中未示出)。多个边缘计算设备(210、212与214)还各自通过网络耦合到云计算平台。通过边缘计算设备与云平台,根据本申请实施例的交通红绿灯控制系统得以在更大范围内协同控制多个交通红绿灯,以优化较大区域或整个城市的交通管理。

图3展示了利用根据本申请又一实施例的交通红绿灯控制设备及其交通红绿灯控制系统的示意图。

图3展示的交通红绿灯控制系统包括多个交通红绿灯控制设备(310、320、330与340)。每个交通红绿灯控制设备各自部署在路口之一。每个路口包括部署在多个方向(例如对应于十字路口的4个方向)的每个的交通红绿灯。交通红绿灯控制设备(例如,300)控制其所在路口的例如4个交通红绿灯(分别用于指示路口A方向、路口B方向、路口C方向与路口D方向)。

交通红绿灯控制设备300包括毫米波雷达、激光雷达、融合感知单元、AIoT(人工智能物联网)设备与可选的摄像头。

根据本申请实施例的交通红绿灯控制设备同时包括毫米波雷达与激光雷达二者。毫米波雷达与激光雷达存在各自缺点,将二者在交通红绿灯控制设备,有利于弥补各自的不足。

作为举例,交通红绿灯控制设备300的融合感知单元获取所在路口车辆的排队长度、车辆通过该路口的停车次数和/或车辆通过该路口所需的红绿灯周期等该路口的交通状况信息。

交通红绿灯控制设备300的AIoT设备包括交通红绿灯控制单元、交通红绿灯驱动电路、通信单元以及可选的处理器。

交通红绿灯控制单元根据融合感知单元提供的路口的交通状态信息(L)作为路口的当前状态,根据路口的当前状态做出控制动作提供给交通红绿灯驱动电路,进而驱动该路口的各个交通红绿灯。

AIoT设备通过通信单元耦合到云计算平台,通信单元从云计算平台接收平台控制信息(C1/C2/C3/C4)。可选地,云计算平台还接收来自车辆的信息(CD),并转发给AIoT设备的通信单元。依然可选地,AIoT设备还通过通信单元直接获取来自车辆的信息。从而AIoT设备云计算平台和/或车辆本身获取的来自车辆的信息。

通信单元将平台控制信息和/或来自车辆的信息,也提供给交通红绿灯控制单元。交通红绿灯控制单元将从融合感知单元获取的路口的当前状态、平台控制信息和/或来自车辆的信息提供给交通红绿灯控制单元。作为举例,交通红绿灯控制单元是强化学习单元,并且将路口的当前状态、平台控制信息和/或来自车辆的信息,作为强化学习的状态数据。

交通红绿灯控制单元根据当前的状态数据做出动作(A),动作包括控制信息以控制交通红绿灯驱动电路。可选地,交通红绿灯控制单元做出的动作还包括通过通信单元提供给云计算平台和/或车辆的控制信息。

可选地,交通红绿灯控制设备300获取的所在路口的交通状况信息也通过通信单元提供给云计算平台。例如,融合感知单元获取的交通状况信息还提供给通信单元,并由通信单元转发给云计算平台。

可选地,交通红绿灯控制设备300做出动作(A)后,还从路口的交通状况获取对应的奖励(R1/R2/R3/R4),并提供给云计算平台。

依然可选地,AIoT设备获取的来自车辆的信息包括例如紧急状况信息,诸如车辆是执行任务的消防车。AIoT设备将从云计算平台的获取的来自车辆的信息,例如转发给同其直接通信的其他车辆。可选地,AIoT设备将其直接获取的来自车辆的信息,例如转发给云计算平台。

云计算平台同交通红绿灯控制设备(310、320、330与340)的每个通信。云计算平台获取多个交通红绿灯控制设备(310、320、330与340)的交通状况信息,将其组合作为自身的强化学习单元的状态信息。云计算平台的强化学习单元根据状态信息做出动作,动作代表了发送给各交通红绿灯控制设备的平台控制信息。根据本申请的实施例,各交通红绿灯控制设备的交通红绿灯控制单元,将从云计算平台获取的平台控制信息,作为自身用于强化学习的状态信息,而非直接根据平台控制信息来控制交通红绿灯驱动电路。

根据本申请的实施例,云计算平台与其耦合的多个交通红绿灯控制设备协同实施基于强化学习的控制过程来协作完成对各交通红绿灯控制设备所耦合的交通红绿等的控制,以优化诸如城市范围的交通管理过程。在本申请中,将云计算平台与其耦合的多个交通红绿灯控制设备协同实施基于强化学习的控制过程中,由云计算平台实施的部分称为云计算强化学习算法,由各交通红绿灯控制设备的交通红绿灯控制单元实施的部分称为雾计算强化学习算法。

图4展示了根据本申请例的云计算平台与其耦合的多个交通红绿灯控制设备协同实施基于强化学习的控制过程的架构图。

强化学习需要根据环境的当前状态产生相应的动作,并根据环境对于所产生动作的奖励改进或调整根据环境状态产生动作的策略。

参看图4,云计算强化学习算法获取与其耦合的多个交通红绿灯控制设备各自的状态,将各交通红绿灯控制设备的状态(记为S

云计算平台还收集各交通红绿灯控制设备的奖励(记为R

各交通红绿灯控制设备的雾计算强化学习算法获取其所在路口的交通状态与云计算平台向其提供的控制信息

作为举例,虽然,云计算平台提供给交通红绿灯控制设备i的控制信息

交通红绿灯控制设备还获取例如车辆通过所在路口的等待时间或平均等待时间作为奖励(记为R

交通红绿灯控制设备还将其状态

可选地,云计算平台还获取来自车辆的信息,并将来自车辆的信息提供给一个或多个交通红绿灯控制设备。交通红绿灯控制设备将所接收的来自车辆的信息,也作为状态

根据本申请实施例,云计算强化学习算法在t时刻根据获取的状态S

p(A

根据动作A

根据本申请的实施例,还对云计算强化学习算法进行训练,以更新其参数集合θ的一个或多个参数。

用训练样本对云计算强化学习算法进行训练。将用于一个训练回合(Episode)的训练样本记为((S

在一个训练回合(Episode)中,根据多个或每个训练周期的训练数据(S

来更新参数集合θ的一个或多个参数,其中

以及使用多个训练样本,在多个训练回合(Episode)中进行训练。可选地,从训练样本集合中,随机选择多个训练样本进行训练。

云计算强化学习算法中,根据例如

可选地,云计算平台在工作过程中,进行在线的学习。例如,每当响应于根据状态S

根据本申请的实施例,云计算平台的云计算强化学习算法在t时刻生成了动作At,并根据动作At向同其耦合的各个交通红绿灯控制设备提供控制信息

作为举例,

可选地,

根据本申请实施例,雾计算强化学习算法在t时刻根据获取的状态

可选地,第i个交通红绿灯控制设备运行的雾计算强化学习算法,根据t时刻做出的动作

各交通红绿灯控制设备运行的雾计算强化学习算法,还从其所在路口获得动作

根据本申请的实施例,还对雾计算强化学习算法进行训练,以更新其参数集合θ

用训练样本对雾计算强化学习算法进行训练。将用于雾计算强化学习算法的一个训练回合(Episode)的训练样本记为

在一个训练回合(Episode)中,根据多个或每个训练周期的训练数据

来更新参数集合θ的一个或多个参数,其中

以及使用多个训练样本,在多个训练回合(Episode)中进行训练。可选地,从训练样本集合中,随机选择多个训练样本进行训练。

根据本申请的可选实施例,对交通红绿灯控制系统的云计算强化学习算法与各交通灯控制设备的雾计算强化学习算法独立地训练。

根据本申请的依然可选实施例,对交通红绿灯控制系统的云计算强化学习算法与各交通灯控制设备的雾计算强化学习算法联合地训练。每个训练回合(Episode)的训练样本包括用于各交通灯控制设备的雾计算强化学习算法的样本

根据本申请的一种实施例,在交通红绿灯的一个控制周期(也由时刻t表达),为了根据云计算强化学习算法与雾计算强化学习算法进行协同的控制,首先,一个或多个交通红绿灯控制设备通过其融合感知单元获取其所在路口的交通状况,包括例如

可选地,各交通红绿灯控制设备还获得动作

可选地,协同的云计算强化学习算法与雾计算强化学习算法无需同步,从而各算法执行的时刻t不必是相同的时刻t,而是各算法有各自的控制周期。例如,雾计算强化学习算法以其所控制的交通红绿灯的一次信号周期(例如包括一次红灯与一次绿灯)为控制周期,而云计算强化学习算法以例如1分钟的指定时间长度为控制周期。在云计算强化学习算法的控制周期内,获取各交通红绿灯控制设备已经向其提供的最近的状态S

依然可选地,协同的云计算强化学习算法与雾计算强化学习算法同步。云计算强化学习算法的每个控制周期开始前,会等待所有的交通红绿灯控制设备向其提供最新的状态S

虽然当前申请参考的示例被描述,其只是为了解释的目的而不是对本申请的限制,对实施方式的改变,增加和/或删除可以被做出而不脱离本申请的范围。

这些实施方式所涉及的、从上面描述和相关联的附图中呈现的教导获益的领域中的技术人员将认识到这里记载的本申请的很多修改和其他实施方式。因此,应该理解,本申请不限于公开的具体实施方式,旨在将修改和其他实施方式包括在所附权利要求书的范围内。尽管在这里采用了特定的术语,但是仅在一般意义和描述意义上使用它们并且不是为了限制的目的而使用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号