首页> 中国专利> 一种基于深度强化学习的景点人流辅助引导系统和方法

一种基于深度强化学习的景点人流辅助引导系统和方法

摘要

本发明涉及一种基于深度强化学习的景点人流辅助引导系统和方法。主要包括数据采集模块和数据处理模块,所述数据采集模块用于获取环境数据,所述环境数据为当前景点的人数信息以及与当前景点直接相邻的景点的人数信息,所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型获得最优引导策略。上述系统通过收集环境数据,并通过决策单元获得最优引导策略。该系统可实时采集相应的环境数据,并依据这些环境数据自适应调节引导策略。通过引导策略可辅助引导各个景点的人流朝不同景点疏散。有效缓解景点拥堵情况。

著录项

  • 公开/公告号CN112801348A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 浙江贝迩熊科技有限公司;

    申请/专利号CN202110037223.5

  • 发明设计人 陈建平;黄泽天;傅启明;

    申请日2021-01-12

  • 分类号G06Q10/04(20120101);G06K9/62(20060101);G06Q50/26(20120101);

  • 代理机构11427 北京科家知识产权代理事务所(普通合伙);

  • 代理人宫建华

  • 地址 315114 浙江省宁波市鄞州区东吴镇东村村

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明涉及景区管理领域,特别是涉及基于深度强化学习的景点人流辅助引导系统和方法。

背景技术

传统景区能够对进入景区的人流数据进行统计,但对于景区内各个景点的人流数据并没有进行统计。这种传统景区存在以下不足:1、缺乏对游客进行引导的系统,使游客容易在某些景点聚集,造成拥堵情况的发生,且该景点拥堵后,游客无法获得有效的信息,不知该去往哪个景点比较合适。2、无法有效对人群密集景点进行早期预警与管理。

发明内容

基于此,提供一种基于深度强化学习的景点人流辅助引导系统。该系统可辅助引导各个景点的人流朝不同景点疏散。

一种基于深度强化学习的景区景点人流辅助引导系统,

包括数据采集模块和数据处理模块,

所述数据采集模块用于获取环境数据,所述环境数据为当前景点的人数信息以及与当前景点直接相邻的景点的人数信息,

所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型获得最优引导策略。

上述系统通过收集环境数据,并通过决策单元获得最优引导策略。该系统可实时采集相应的环境数据,并依据这些环境数据自适应调节引导策略。通过引导策略可辅助引导各个景点的人流朝不同景点疏散。有效缓解景点拥堵情况。

在其中一个实施例中,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型获得最优引导策略包括:

通过人流预测单元预测获得m分钟后的当前景点的人数,

将人流引导问题建模为一个MDP模型,并定义其中的状态,动作以及立即奖赏函数:

状态,用s表示,设t时刻当前景点的人数为N

s

动作,用a表示,t时刻的动作为设置第i个相邻景点的引导灯,设置第i个相邻景点的引导灯用O

立即奖赏函数,用r表示,

r=(100/N

r=100-(1000/N

其中,N

建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];

利用DQN深度强化学习算法求解最优引导策略。

在其中一个实施例中,所述人流预测单元采用DQN的网络进行预测,人流预测单元的输入为当前景点的实时采集的人数信息,以及与当前景点直接相邻的各个景点的实时采集的人数信息,人流预测单元的输出为预测的m分钟后的当前景点的人数。

在其中一个实施例中,还包括应答模块,所述应答模块用于对接收到的请求信号进行应答,所述应答包括:发送推荐的相邻景点。

在其中一个实施例中,所述推荐的相邻景点的生成规则包括:

引导灯为黄色和绿色的景点为可推荐景点,当前景点有n个相邻景点为可推荐景点时,各个相邻景点被推荐的概率为:

|N

其中N

在其中一个实施例中,按照各个相邻景点被推荐的概率确定各个相邻景点的推荐比例,将同一时间段发送请求信号的总人数按推荐比例进行分组,并按照分组结果推荐对应的相邻景点。

一种基于深度强化学习的景区景点人流辅助引导方法,

包括:

首先,采集环境数据,所述环境数据为当前景点的人数信息以及与当前景点直接相邻的景点的人数信息,

然后,根据所述环境数据建立环境模型,根据所述环境模型求解最优引导策略。

在其中一个实施例中,所述根据所述环境数据建立环境模型,根据所述环境模型求解最优引导策略包括:

预测m分钟后的当前景点的人数;

将人流引导问题建模为一个MDP模型,并定义其中的状态,动作以及立即奖赏函数:

状态,用s表示,设t时刻当前景点的人数为N

s

动作,用a表示,t时刻的动作为设置第i个相邻景点的引导灯,设置第i个相邻景点的引导灯用O

立即奖赏函数,用r表示,

r=(100/N

r=100-(1000/N

其中,N

建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];

利用DQN深度强化学习算法求解最优引导策略。

在其中一个实施例中,采用DQN的网络预测m分钟后的当前景点的人数,DQN的网络输入为当前景点的实时采集的人数信息,以及与当前景点直接相邻的各个景点的实时采集的人数信息,DQN的网络输出为预测的m分钟后的当前景点的人数。

在其中一个实施例中,还包括对接收到的请求信号进行应答,所述应答包括:发送推荐的相邻景点。

附图说明

图1为本发明的实施例的景区景点人流辅助引导系统的结构图。

图2为DQN算法的原理图。

图3为本发明的实施例的景区景点人流辅助引导系统的运行流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。

需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

如图1所示,本发明的实施例提供了一种基于深度强化学习的景区景点人流辅助引导系统。该系统包括数据采集模块和数据处理模块,所述数据采集模块用于获取环境数据,所述环境数据为当前景点的人数信息以及与当前景点直接相邻的景点的人数信息。

具体的,可在各个景点设置数据采集模块,每个所述数据采集模块包括支持USB传输的电子摄像头、与电子摄像头相连的人数统计单元以及与人数统计单元连接的第一通信模块。电子摄像头实时获取景点内的游客的图像信息,人数统计单元根据这些图像信息并结合现有技术的各种模型或算法来统计景点内的人数。例如,通过已经训练好的RCNN算法实现对人的识别与标记,利用均值漂移算法对已经标记的人进行目标跟踪,并通过不断迭代更新人目标位置并实时标记。最终统计出景点内的人数。也可以利用其它算法和模型来统计人数。这里就不再赘述。

所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型获得最优引导策略。

具体的,上述数据处理模块可采用NVIDIA Jetson TK1开发组件。NVIDIA JetsonTK1开发组件可通过USB接口与第二通信模块相连,第二通信模块与上述第一通信模块相连。这样就可将上述人数统计单元的数据传输给NVIDIA Jetson TK1开发组件。

具体的,上述第一通信模块和第二通信模块可为无线通信模块或有线通信模块等。

具体的,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型获得最优引导策略包括:

通过人流预测单元预测获得m分钟后的当前景点的人数。例如,可预测20分钟后的当前景点的人数。也就是m为20。

具体的,本实施例中,所述人流预测单元设置在所述数据处理模块内。人流预测单元采用现有技术中的DQN的网络进行预测,人流预测单元的输入为当前景点的实时采集的人数信息,以及与当前景点直接相邻的各个景点的实时采集的人数信息,人流预测单元的输出为预测的m分钟后的当前景点的人数。

可以理解,上述的人流预测单元也可应用其它的现有技术实现,也就是应用现有技术来实现对m分钟后的当前景点人数的预测。

本实施例中,将人流引导问题建模为一个MDP模型,并定义其中的状态,动作以及立即奖赏函数。

状态,用s表示,设t时刻当前景点的人数为N

s

动作,用a表示,t时刻的动作为设置第i个相邻景点的引导灯,设置第i个相邻景点的引导灯用O

立即奖赏函数,用r表示,

r=(100/N

r=100-(1000/N

其中,N

建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。

利用DQN深度强化学习算法求解最优引导策略。

进一步的是,上述利用DQN深度强化学习算法求解最优引导策略包括:

1)初始化记忆回放单元,容量是N,用于储存训练的样本。

2)初始化当前值网络,随机初始化权重参数ω。

初始化目标值网络,结构以及初始化权重与当前值网络相同;

3)将显示路况的照片通过当前值网络,得到任意状态s下的Q(s,a)通过当前值网络计算出值函数后,使用∈-greedy策略来选择动作a,每一次状态转移即做出动作记为一个时间步t,将每个时间步得到的数据(s,a,r,s’)存入回放记忆单元。

4)定义一个loss function:

L(ω)=E[(r+γmaxa′Q(s′,a′;ω

5)从回放记忆单元中随机抽取一个(s,a,r,s’),将(s,a),s’,r分别传给当前值网络,目标值网络和L(ω),对L(ω)关于ω使用梯度下降法进行更新,求解出最优策略,DQN算法更新值函数的方式如下:

Q(s,a)←Q(s,a)+α[r+γmax

s←s′

a←a′

其中γ为折扣因子,根据实际收敛情况而定。

6)每N次迭代后更新目标值网络的参数为当前值网络的参数。

具体设置时,可在景区内的每个景点分别单独设置上述辅助引导系统。具体的,可在每个景点设置一个屏幕,屏幕上将与当前景点直接相邻的各个景点的引导灯的颜色进行显示。引导灯为绿色表示该景点畅通,引导灯为黄色表示该景点正常,引导灯为红色表示该景点拥堵。游客根据引导灯的颜色来自行判断去哪个景点游玩。上述引导灯的颜色是根据上述决策单元获得的最优引导策略来控制的。这样就可以给当前景点的游客一个引导策略,让当前景点的游客根据其它景点的拥堵情况自行选择某个景点前往游玩。

可以理解,上述屏幕显示的是图像化的引导灯。这里,也可以设置一个引导牌。该引导牌上设置各个景点的实体的引导灯,也就是为每个景点设置三种颜色的实体的引导灯。并通过上述最优引导策略来控制各个景点哪个引导灯亮起。

进一步的是,由于每个景点都设置有一个屏幕,这样,游客到达下一个景点游玩后,可根据该景点屏幕显示的其它景点的引导灯的情况来选择自己的游玩路线。

例如,当前景点相邻的有A景点,B景点和C景点。如果A景点和B景点的引导灯都为红色,C景点的引导灯为绿色。则游客可根据上述信息,选择先去C景点游玩。这样就起到了对游客进行引导的目的。当游客到达C景点后,可根据C景点的屏幕或引导牌上的引导灯来自行判断下一步前往哪个景点游玩。

进一步的是,本实施例中,还包括应答模块,所述应答模块用于对接收到的请求信号进行应答,所述应答包括:发送推荐的相邻景点。也就是,游客可通过自己的手机终端的APP向本申请的系统发送请求信号。本申请的系统接收到请求信号后,先判断该请求信号的发送位置,根据发送位置确定当前景点的位置,然后判断与当前景点相邻的各个景点的拥堵情况,具体可根据各个相邻景点的引导灯的颜色来判断。最后通过应答模块向游客的手机发送推荐的景点。

具体的,所述推荐的相邻景点的生成规则包括:引导灯为黄色和绿色的景点为可推荐景点,当前景点有n个相邻景点为可推荐景点时,各个相邻景点被推荐的概率为:|N

进一步的是,按照各个相邻景点被推荐的概率确定各个相邻景点的推荐比例,将同一时间段发送请求信号的总人数按推荐比例进行分组,并按照分组结果推荐对应的相邻景点。

例如,当前景点在一个时段内有100人发送请求信号。此时有3个景点为可推荐景点,三个经景点分别为景点A、景点B和景点C。景点A的推荐概率为50%,景点B的推荐概率为40%,景点C的推荐概率为10%,则推荐比例为5:4:1。按照该比例将100人进行分组,50人为第一组,40人为第二组,10人为第三组。第一组推荐A景点,第二组推荐B景点,第三组推荐C景点。这样推荐可有效避免各个景点拥堵情况的发生。

可以理解,本申请中,也可以按照其它方式来推荐景点。具体的,可以优先将绿色引导灯的各个景点随机发送给客户。如果没有绿色引导灯的景点,则将黄色引导灯的各个景区随机发送给客户。如果目前各个相邻景点的引导灯都是红色,则提示客户相邻各个景区都拥堵,请自行选择喜欢的景点。

当然,也可以向一定比例的人发送绿色引导灯的景点,向一定比例的人发送黄色引导灯的景点。例如70%发送绿色引导灯的景点,30%发送黄色引导灯的景点。

本申请的实施例还提供了一种基于深度强化学习的景区景点人流辅助引导方法,该方法包括:

首先,采集环境数据,所述环境数据为当前景点的人数信息以及与当前景点直接相邻的景点的人数信息,

然后,根据所述环境数据建立环境模型,根据所述环境模型求解最优引导策略。

本实施例中,所述根据所述环境数据建立环境模型,根据所述环境模型求解最优引导策略包括:

预测m分钟后的当前景点的人数;

将人流引导问题建模为一个MDP模型,并定义其中的状态,动作以及立即奖赏函数:

状态,用s表示,设t时刻当前景点的人数为N

s

动作,用a表示,t时刻的动作为设置第i个相邻景点的引导灯,设置第i个相邻景点的引导灯用O

立即奖赏函数,用r表示,

r=(100/N

r=100-(1000/N

其中,N

建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];

利用DQN深度强化学习算法求解最优引导策略。

本实施例中,采用DQN的网络预测m分钟后的当前景点的人数,DQN的网络输入为当前景点的实时采集的人数信息,以及与当前景点直接相邻的各个景点的实时采集的人数信息,DQN的网络输出为预测的m分钟后的当前景点的人数。

本实施例中,还包括对接收到的请求信号进行应答,所述应答包括:发送推荐的相邻景点。推荐方法可参考上述对引导系统的描述。这里就不再赘述。

本申请具有以下有益效果:1、可以提供更加细致准确的人流控制最优策略。2、随着训练的不断进行,系统所得到的策略其缓解各个景点拥堵的效果会越来越好,进而带来整个景区的拥堵状态降低。3、系统可以适应景区任意景点的情况而不依赖于特定的景点的物理环境。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号