公开/公告号CN112348186A
专利类型发明专利
公开/公告日2021-02-09
原文格式PDF
申请/专利权人 中国石油大学(华东);
申请/专利号CN202011231603.4
申请日2020-11-06
分类号G06N3/08(20060101);
代理机构
代理人
地址 266580 山东省青岛市黄岛区长江西路66号
入库时间 2023-06-19 09:52:39
技术领域
本发明涉及平行数据、深度强化学习、社会演化领域,具体涉及到一种基于平行数据的社会演化方法。
背景技术
极端自然灾害的发生威胁着经济社会活动的安全,根据灾害发生的时间和地点尽快分析灾情,推演事件发展趋势,并以减少总损失为目标,做出明智的决策,关系着社会发展。考虑社会建模的多种因素,进行综合决策,提出了基于平行数据的社会演化方法。目前还没有接近本发明的技术。
发明内容
为解决现有技术中的缺点和不足,本发明提出了基于平行数据的社会演化方法,根据平行数据理论形成虚拟世界,通过强化学习算法对虚拟世界进行模型和探索,分析每一步结果可能产生的影响,推测社会演化方向,最终实现最优决策。
本发明的技术方案为:
步骤(1)、综合考虑多种因素,建模经济、社会价值模型;
步骤(2)、建模当前社会的状态,作为强化学习可以感知的环境;
步骤(3)、根据经济、社会价值模型,建模强化学习的奖励机制;
步骤(4)、根据当前的环境,建模强化学习的动作空间;
步骤(5)、步骤(2)(3)(4)的结果分别作为强化学习的环境、奖励、动作,选用DeepDeterministic Policy Gradient(DDPG)强化学习模型,通过探索选取当前最优的一个动作,得到奖励,然后计算损失反向传播进行训练。
步骤(6)、通过选择步骤(5)的动作,相关的环境状态发生变化,实现社会演化,重复步骤(2)、(3)、(4)、(5),直到训练结束,最终得到最优的动作序列。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于平行数据的社会演化模型的整体架构图。
图2为本发明社会推演模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明中基于平行数据的社会演化方法,将平行数据与强化学习进行结合,平行数据作为强化学习的环境,根据经济社会价值模型定义奖励函数,把可以采取的决策方案作为强化学习的动作空间,通过智能体不断探索,最终得到最优决策,决策会对平行世界的数据产生影响,从而实现社会演化方向的建模。
下面结合图1,对基于平行数据的社会演化方法具体流程进行详细说明:
步骤(1)、综合考虑多种因素,建模经济、社会价值模型;
步骤(2)、建模当前社会的状态,作为强化学习可以感知的环境;
步骤(3)、根据经济、社会价值模型,建模强化学习的奖励机制;
步骤(4)、根据当前的环境,建模强化学习的动作空间;
步骤(5)、步骤(2)(3)(4)的结果分别作为强化学习的环境、奖励、动作,选用DeepDeterministic Policy Gradient(DDPG)强化学习模型,通过探索选取当前最优的一个动作,得到奖励,然后计算损失反向传播进行训练。
步骤(6)、通过选择步骤(5)的动作,相关的环境状态发生变化,实现社会演化,重复步骤(2)、(3)、(4)、(5),直到训练结束,最终得到最优的动作序列。
本发明基于平行数据的思想,提出了一种基于平行数据的社会演化方法,以推演事件的演化过程。在强化学习的基础上,设计社会决策机制,提高模型的通用性、健壮性和高效性,为异常事件的处理提供最优策略。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 不断变化的数据集的单个演化视觉表示的社会注释
机译: 基于服务质量的资源确定和分配设备,以及高速数据包访问量演化和长期演化系统的过程
机译: 基于服务质量的资源确定和分配设备,以及高速数据包访问量演化和长期演化系统的过程