首页> 中国专利> 政务流程的建模方法、调度方法、智能设备和存储介质

政务流程的建模方法、调度方法、智能设备和存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了一种政务流程的建模方法、调度方法、智能设备和存储介质，涉及流程调度管理技术领域，该通过对政务流程进行结构划分，获取各结构之间的关联性，从而可根据映射关系和各结构之间的关联性建立政务流程对应的Petri网流程模型，从而将不规范且抽象的政务流程的流程信息转换成计算机可识别的模型，同时，通过库所映射政务流程的各项资源的状态，变迁映射政务流程的活动，托肯映射政务流程的具体资源对象，从而着重考虑了资源因素，体现了政务流程调度问题所具有的资源限制，当建立上述的映射关系后，通过该方法建立的模型实现了针对调度问题的模型化描述，形式化地体现了调度过程的状态，从而为后续求解政务调度过程的最优解提供了可能。

著录项

公开/公告号CN112766782A

专利类型发明专利
公开/公告日2021-05-07

原文格式PDF
申请/专利权人哈尔滨工业大学(深圳);
展开▼

申请/专利号CN202110115237.4
发明设计人李旭涛;陈武桥;龙永深;
展开▼

申请日2021-01-28
分类号G06Q10/06(20120101);G06Q10/04(20120101);G06Q50/26(20120101);G06N7/00(20060101);
代理机构11473 北京隆源天恒知识产权代理事务所(普通合伙);
代理人吴航
地址 518055 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明涉及流程调度管理技术领域，具体而言，涉及一种政务流程的建模方法、调度方法、智能设备和存储介质。

背景技术

目前，政务流程仍然采用传统工作过程中使用的资源抢占式调度方法。例如，当政府接收到一个工作，会评估是否有足够的资源可以执行该工作，如果有，立即抢占相应资源开始执行工作，如果没有，则先需要等待，直到有执行该工作的资源；如果有多项工作同时需要某一项资源，则进行随机抢占，一方占用则另一方等待。

由于资源抢占式调度方法仅基于局部信息做出判断，而并未有效地利用全局信息，因此，资源抢占式调度方法难以得到全局最优解，即难以获得最优的调度方案。

下面举例说明资源抢占式调度的缺陷：

某地住建部住房保障处下设业务受理部，综合业务部，保障房管理处，财务部，管理委员会五个子机构向民众提供住房保障相关的政府业务。其中业务受理部直接向民众开放，用于业务受理。其余四个部门处理业务。该保障处采取传统的工作模式，各个部门按业务先后顺序逐一处理，即来什么做什么，先来先做，后来后做。在处理业务的过程中，由于人力资源的有限，经常会出现类似这样的问题(假设某时刻每个部门只有能承接一项任务)：

1)如图3所示，综合业务部有两项业务待处理，第一项处理后将发往财务部，第二项处理后将发往保障房管理部，此时财务部持续繁忙，业务需要等待，保障房管理部持续空闲，业务可以直接处理。如果综合处理部先处理第二项任务再处理第一项任务，相对原有顺序处理，第二项任务的时间会有效缩短。

2)如图4所示，保障房管理部有一项10小时的业务待处理，综合业务部还有一项业务将在一小时后送达保障房管理部，处理一小时。两项业务均会发往财务部，各自处理1小时。如果先处理第一项业务，第一项业务将耗费11小时，第二项业务将耗费11小时，如果先处理第二项业务，则第一项业务将耗费12小时，第一项业务耗费2小时，同时财务部可以提前1小时完成工作。

由以上案例可知，由于资源的有限，业务在处理的过程中，可能会产生不必要的等待，延迟处理时间。因此，需要优化政务流程的调度方法，通过宏观把控各个部门的状况，根据需求合理安排各个部门的工作，从而缩短甚至消除这种不必要的等待，提升政府资源的利用率，从而提高政府工作效率和民众满意度。

发明内容

本发明解决的问题是现有的流程建模方案大多针对流程重造或辅助流程设计，忽视了流程调度问题所具有的限制和着重考虑的因素。

为解决上述问题，本发明实施例第一方面提供一种基于Petri网的政务流程的建模方法，包括：

对政务流程进行结构划分，获取各结构之间的关联性；

根据所述政务流程的各结构与Petri网的对象的映射关系以及各所述结构之间的关联性建立所述政务流程的Petri网流程模型；其中，所述对象包括库所、变迁和托肯，所述库所映射所述政务流程的各项资源的状态，所述变迁映射所述政务流程的活动，所述托肯映射所述政务流程的具体资源对象；

获取映射全局共享循环使用的资源对象的托肯，将所述映射全局共享循环使用的资源对象的托肯定义为资源托肯，将与所述资源托肯对应的库所定义为资源库所。

进一步地，所述根据所述政务流程的各结构与Petri网对象的映射关系以及各所述结构之间的关联性建立所述政务流程的Petri网流程模型包括：

根据所述映射关系及各所述结构之间的关联性以自顶向下的方式建立政务流程的Petri网初始模型；

根据所述映射关系对所述Petri网初始模型中的各对象填充具体的属性值。

进一步地，所述Petri网为赋时变迁Petri网，所述赋时变迁Petri网定义为：

TTPN＝(P，T，I，O，M

其中，P为库所的集合，T为变迁的集合，I为输入函数，O为输出函数，M

进一步地，所述变迁包括初始变迁和结束变迁，所述初始变迁和所述结束变迁的时延为0，所述初始变迁映射所述政务流程的流程实例的开始，所述结束变迁映射所述政务流程的流程实例的结束。

本发明第二方面提供一种政务流程的调度方法，包括：

定义所述政务流程的调度过程的状态，其中，所述状态的集合为所述状态集；

将所述政务流程的调度过程建模为马尔科夫决策过程，其中，建模为马尔科夫决策过程的所述调度过程包括智能体，所述智能体观测如上所述的基于Petri网的政务流程的建模方法建立的Petri网流程模型获取所述状态；

通过深度强化学习算法求解所述政务流程的调度过程的最优解，以获取最优调度方案。

进一步地，所述将政务流程的调度过程建模为马尔科夫决策过程包括：

定义所述调度过程的状态，所述状态至少包括所述Petri网流程模型的资源的状态、流程的状态、流程实例的状态、时间状态和调度状态，所述状态的集合为所述调度过程的状态集；

构建所述调度过程的动作集，所述动作集由调度和不调度两个动作组成；

确定所述调度过程的奖励函数和衰减因子。

进一步地，所述将所述政务流程的调度过程建模为马尔科夫决策过程还包括：

获取所述Petri网流程模型在t时刻的资源状态和流程实例状态，根据所述资源状态和流程实例状态获取t时刻的可调度活动实例列表；

通过预设的所述决策活动实例选择机制遍历可调度活动实例列表，确定待决策活动，将待决策活动作为t时刻状态的组成部分；

获取智能体输出的动作，执行所述智能体输出的动作生成t+1时刻的状态，并同时向所述智能体发送奖励。

进一步地，所述通过深度强化学习算法求解所述政务流程的调度过程的最优解包括：

通过DDQN求解所述政务流程的调度过程的最优解；

所述通过DDQN求解所述政务流程的调度过程的最优解包括：

确定所述DDQN的输入参数，所述输入参数包括迭代轮数T，状态特征维度N,所述动作集A,步长α，所述衰减因子γ,探索率∈,当前Q网络Q，目标Q网络Q′,批量梯度下降的样本数m,目标Q网络参数更新频率C；

随机初始化所有的状态和动作对应的价值Q，随机初始化当前Q网络的所有参数w,初始化目标Q网络Q′的参数w′＝w，清空经验回放的集合D；

进行迭代，在迭代终止后输出迭代结果；

获取所述DDQN输出的Q网络参数；

其中，迭代过程包括：

步骤一：初始化所述调度过程的状态s为当前状态序列的第一个状态，得到其特征向量φ(s)；

步骤二：在Q网络中使用φ(s)作为输入，得到Q网络的所有动作对应的Q值输出，用∈-贪婪法在当前Q值输出中选择对应的动作a

步骤三：在状态s执行当前动作a

步骤四：将{φ(s)，a

步骤五：s＝s′；

步骤六：从经验回放集合D中采样m个样本

其中，

步骤七：使用均方差损失函数

步骤八：如果T％C＝1,则更新目标Q网络参数w′＝w；

步骤九：如果s′是终止状态，当前轮迭代完毕，否则转到步骤二。

本发明第三方面提供一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于Petri网的政务流程的建模方法或如上所述的政务流程的调度方法。

本发明第四方面提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于Petri网的政务流程的建模方法或如上所述的政务流程的调度方法。

本发明的有益效果：通过对政务流程进行结构划分，获取各结构之间的关联性，从而在确定政务流程与Petri网的对象的映射关系后，可根据映射关系和各结构之间的关联性建立政务流程对应的Petri网流程模型，从而将不规范且抽象的政务流程的流程信息转换成计算机可识别的模型，同时，通过库所映射政务流程的各项资源的状态，变迁映射政务流程的活动，托肯映射政务流程的具体资源对象，从而着重考虑了资源因素，体现了政务流程调度问题所具有的资源限制，由于政务流程调度问题重点关注的是全局共享循环使用的资源对象，因此还通过资源托肯来映射全局共享循环使用的资源对象，当建立上述的映射关系后，通过该方法建立的模型实现了针对调度问题的模型化描述，形式化地体现了调度过程的状态，从而为后续求解政务调度过程的最优解提供了可能。

附图说明

图1为本发明实施例的基于Petri网的政务流程的建模方法的流程图；

图2为本发明实施例的政务流程的调度方法的流程图；

图3为本发明实施例的综合业务部的业务处理顺序图；

图4为本发明实施例的保障房管理部的业务处理顺序图；

图5为本发明实施例的Petri网的对象的示意图；

图6为本发明实施例的审批活动的模型示意图；

图7为本发明实施例的子流程示意图；

图8为本发明实施例的顺序活动模型示意图；

图9为本发明实施例的并发活动的与分叉的模型示意图；

图10为本发明实施例的并发活动的与合并模型示意图；

图11为本发明实施例的选择活动的或分叉模型示意图；

图12为本发明实施例的选择活动的或合并模型示意图；

图13为本发明实施例的循环活动模型示意图；

图14为本发明实施例的死锁示例图；

图15为本发明实施例的马尔科夫决策过程的强化学习框架示意图；

图16为本发明实施例的智能设备的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书描述的“第一”、“第二”和“第三”等术语，仅用于区分装置/组件/子组件/部件等，不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，由此，限定有如“第一”、“第二”和“第三”等的特征可以明示或者隐含地表示包括至少一个该特征，除非另有明确具体的限定，“多个”的含义是至少两个，例如两个，三个等，对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

由于求解调度问题的最优解的计算量较大，因此必须通过计算机求解政务流程的调度问题的最优解，因此，需要对政务流程建立相应的计算机模型，以便于计算机识别，但现有的流程建模方案大多针对流程重造或辅助流程设计，这些方案多用于理论研究，忽视了流程调度问题所具有的限制和着重考虑的因素，例如资源约束和全局循环共享的资源对象。

如图1所示，本发明实施例第一方面提供一种基于Petri网的政务流程的建模方法，包括：

S101：对政务流程进行结构划分，获取各结构之间的关联性。

建立基于Petri网的流程模型的基础是要对政务流程本身具有全面的认知。对政务流程的认知应该从政务流程的五个基本要素出发，了解政务流程实现需要执行的操作，每一个操作需要满足的条件，操作执行的主体，各个操作之间的逻辑关系，以及控制各个操作的规则，例如对各个操作的时间约束等。

因此，在对政务流程有足够的认知后，可以对政务流程进行结构划分，通过对政务流程进行结构划分，可以将不规范且抽象的政务流程信息进行初步的规范，从而对政务流程进行建模时，能够将流程的各结构与Petri网的对象建立相应的映射关系，然后通过各结构之间的关联性构建相应的Petri网流程模型。

本实施例中，可以两种方式建立模型，第一是将政务流程直接划分到活动层次，然后确定各活动的关联性，根据政务流程的各结构与Petri网的对象的映射关系建立Petri网初始模型；如图7所示，第二是首先根据政务流程整体建立全局的模型，明确政务流程的整体目标和主要结构，在此模型建立的基础上，逐一分析，细化下层网络，对每一个Petri网变迁，判断是否需要拆分细化，如需要，建立相应的子流程模型，替代原有变迁，可以这样理解，将政务流程划分为多个子流程，然后判断子流程是否可以继续进行划分，逐一分析，细化下层网络活动层，建立最终的Petri网初始模型。其中，本实施例优选采用第二种方法建立模型。

当Petri网初始模型建立完成后，需要根据映射关系对所述Petri网初始模型中的各对象填充具体的属性值，例如审批活动、审批人员；从而建立对应于具体流程的Petri网流程模型。

S102：根据所述政务流程的各结构与Petri网的对象的映射关系以及各所述结构之间的关联性建立所述政务流程的Petri网流程模型；其中，所述对象包括库所、变迁和托肯，所述库所映射所述政务流程的各项资源的状态，所述变迁映射所述政务流程的活动，所述托肯映射所述政务流程的具体资源对象。

本实施例中，政务流程的各结构与Petri网的对象的映射关系如下，库所(Place)映射政务流程各项资源的状态，也可以理解为政务流程各个阶段的状态；库所中的托肯(Token)表示具体的资源对象，如工作人员、处理设备；变迁(Transition)用于表示流程的各项活动，例如审批流程中的审批活动。

如图5所示，Petri网是一种过程模型，本实施例中，Petri网的对象包括：库所、变迁、逻辑变迁、托肯。

逻辑变迁是特殊的变迁形式，分为逻辑与变迁和逻辑或变迁，共包括与分叉、与合并、或分叉、或合并四种变迁形式。与分叉变迁表示该变迁完成之后会同时引发两种或两种以上的变迁活动。与合并变迁则表示该变迁的触发建立在两个或以上变迁均完成的情形。或分叉变迁表示该变迁完成后可能引发两种及以上的变迁活动，但最终只会选择一种。或合并变迁则与之对应，表示该变迁由两个及以上的变迁集中的一个变迁引发。在现实世界的流程实例中，逻辑变迁经常成对存在。

在确定以上Petri网的对后，可以对流程中的各种类型的活动进行建模分析，活动类型包括：顺序活动、并发活动和选择活动。

如图8所示，顺序活动，一个活动T在一个紧前活动P1(f)(或开始节点)之后触发，活动结束时触发一个紧后活动B(P3)(或结束节点)，称这样的活动为顺序活动。图6即是典型的顺序活动模型。

并发活动，是指两个或以上的任务同时发生的情况，任务之间是逻辑与的关系。使用以下两个模型来描述并发活动：

如图9所示，与分叉模型，指一个条件触发两个及以上的变迁。

如图10所示，与合并模型，指一个变迁的发生需要两个及以上变迁的完成。

如图11和图12所示，选择活动，是指在两个及以上的任务中选择一个，任务之间是逻辑或的关系，与并发活动类似，同样使用或分叉模型以及或合并模型来描述选择活动。

如图13所示，循环活动，指流程中需要反复执行的活动。如各项材料审批，往往涉及循环活动，材料不合格需要退回修改再审核。循环活动其实可以看作一个变形的选择活动。进入循环与进行下一步操作之间是逻辑或的关系。

可选地，所述根据所述政务流程的各结构与Petri网对象的映射关系以及各所述结构之间的关联性建立所述政务流程的Petri网流程模型包括：

根据所述映射关系及各所述结构之间的关联性以自顶向下的方式建立政务流程的Petri网初始模型；

根据所述映射关系对所述Petri网初始模型中的各对象填充具体的属性值。

可选地，所述Petri网为赋时变迁Petri网，所述赋时变迁Petri网(为了便于描述，下文简称赋时变迁Petri网为TTPN)定义为：

TTPN＝(P，T，I，O，M

其中，P为库所的集合，T为变迁的集合，I为输入函数，O为输出函数，M

TTPN(Timed Transition Petri Net)的运行规则与普通Petri网的运行规则类似。但是，变迁的开始需要所有输入均满足条件，即输入Place中均存在Token。一旦变迁开始，输入Place的相应Token被移除。经过相应时延后，变迁才会结束，输出Place中增加相应Token。

可选地，所述变迁包括初始变迁和结束变迁，所述初始变迁和所述结束变迁的时延为0，所述初始变迁映射所述政务流程的流程实例的开始，所述结束变迁映射所述政务流程的流程实例的结束。

由于政务流程调度系统调度的是政务流程实例中的活动实例，且需要处理多个政务流程实例，为更好地界定流程实例的开始和结束，在政务流程模型中添加一个初始变迁和一个结束变迁，两个变迁的时延均为0，输入输出均为空，变迁不改变资源的状态。添加初始变迁之后，初始变迁的结束标志着流程实例的开始，结束变迁的结束标志着流程实例的结束。初始变迁结束之前，流程实例中的所有活动实例均不可开始。结束变迁结束之后，流程实例中的所有活动实例必须已经完成。

其中，流程实例和活动实例表示包括具体对象的具体活动或流程，流程包括多个流程实例，流程实例包括多个活动实例，以补办身份证为例，张三补办身份证的流程为流程实例，假设张三补办身份证的流程包括活动一和活动二，那么活动一和活动二为活动实例。

通过将所述Petri网限制为赋时变迁Petri网，可以避免多项目调度可能存在的死锁问题。

如图14所示，死锁是一种特殊的资源冲突，表现为流程一中的活动和流程二中的活动共同占有对方所需的资源，互相限制，最终均无法进行。

但是，多项目间的资源死锁问题在基于赋时变迁Petri网建模的Petri网流程模型上是不存在的。在使用赋时变迁Petri网建模时，同一变迁对于不同输入资源的占用时段是相同的。

以图14为例，变迁T1的发生必须要普通库所P1和资源库所W1，W2均含有Token的情况下才能开始。变迁开始时，所有输入库所中的Token移除，直到变迁结束，输出所有Token。因此，在该实例中，不存在T1占用W1的Token,T2占用W2的Token，然后T1等待W2的Token,T2等待W1的Token这样资源互相占用并等待的死锁情况，则不存在变迁占用部分资源并等待部分资源的情况，因而间接的避免了死锁问题。

S103：获取映射全局共享循环使用的资源对象的托肯，将所述映射全局共享循环使用的资源对象的托肯定义为资源托肯，将与所述资源托肯对应的库所定义为资源库所。

其中，由于本申请的研究对象是政务流程调度问题，重点关注的是全局共享循环使用的资源对象，如计算机、人等，而非特定流程中涉及的特定资源如审批文件。如图6所示，该图描述了一个审批活动，审批T的进行需要审批文件f到达(P1中有Token f)并且审批人员m空闲时才可(P2中有Token m)才可进行。审批执行时P1和P2同时失去对应Token,审批结束后，产生输出(P3中出现Token o),同时P2中的Token m再次出现。在此审批流程中，资源m即审批人员参与活动但不发生变化，是属于全局共享循环使用的资源对象，亦是对流程调度产生资源约束的对象。为了将这种特殊资源与普通的输入输出资源区分开来，把对应Token分别命名为资源Token和普通Token，相应Place分为资源Place和普通Place。

应用中，将与所述资源托肯对应的库所定义为资源库所之后还包括：

将变迁与所述资源库所构成的自循环结构替换为新属性的结构块。

在顺序活动中，变迁与普通库所之间形成A→T→B的顺序结构，与资源库所之间形成C→T→C的自循环结构，图5即是典型的顺序活动模型。实际上，该循环结构在循环一次后便会终止，因为变迁T的产生同时需要资源托肯和普通托肯。基于Petri网模型易于理解和分析的目的，根据Petri网的等效替换性质，我们构造新的Petri网结构块T′＝C→T→C替换原有变迁过程C→T→C，得到新的顺序活动模型，图5中的自循环结构替换为一个新属性的结构块后如图6所示。对于后续的活动类型也采取同样的操作，这样可以起到简化Petri网的目的。

通过对政务流程进行结构划分，获取各结构之间的关联性，从而在确定政务流程与Petri网的对象的映射关系后，可根据映射关系和各结构之间的关联性建立政务流程对应的Petri网流程模型，从而将不规范且抽象的政务流程的流程信息转换成计算机可识别的模型，同时，通过库所映射政务流程的各项资源的状态，变迁映射政务流程的活动，托肯映射政务流程的具体资源对象，从而着重考虑了资源因素，体现了政务流程调度问题所具有的资源限制，由于政务流程调度问题重点关注的是全局共享循环使用的资源对象，因此还通过资源托肯来映射全局共享循环使用的资源对象，当建立上述的映射关系后，通过该方法建立的模型实现了针对调度问题的模型化描述，形式化地体现了调度过程的状态，从而为后续求解政务流程的调度过程的最优解提供了可能。

如图2所示，本发明另一实施例提供一种政务流程的调度方法，包括：

S201：定义所述政务流程的调度过程的状态；

其中，调度过程的状态包括任何与调度相关的状态信息，例如可用资源总量、资源属性、正在执行的流程实例信息等。

S202：将政务流程的调度过程建模为马尔科夫决策过程，其中，建模为马尔科夫决策过程的所述调度过程包括智能体，所述智能体观测如上所述的基于Petri网的政务流程的建模方法建立的Petri网流程模型获取所述状态。

其中，马尔科夫决策过程是一种随机控制过程，即对于每个时间节点，当该过程处于某状态s时，决策者可采取在该状态下被允许的任意动作a，此后下一步系统状态s′将随机产生，同时回馈给决策者相应的奖励。如图15所示，本实施例中，马尔科夫决策过程是一个从交互中达成目标的强化学习问题的一个直接的框架。学习者和决策者叫做智能体(Agent)。Agent进行交互的其它一切Agent之外的东西都叫做环境。Agent不断的选择动作action，而环境也给出相应的反应，并且向Agent表现出新的状态state。环境同时也给出一个数值作为反馈或者说奖励(reward)。Agent的目标就是通过选择不同的action来最大化这个反馈值。

它可以用一个五元组(S，A，P，R，γ)表示:

S代表了状态的集合(维度有限的)。

A代表了决策过程中动作的集合(维度有限的)。

P描述了状态转移矩阵

R表示奖励函数，R(s)描述了在状态s下执行某动作的期望(立即)奖励，R(s，a)＝E[R

γ表示衰减因子(discounted factor),γ∈[0，1]。

可选地，所述将所述政务流程的调度过程建模为马尔科夫决策过程包括：

构建所述调度过程的动作集，所述动作集由调度和不调度两个动作组成；

确定所述调度过程的奖励函数和衰减因子。

在政务流程的调度过程中，状态主要包括以下几个部分：

政府资源的状态，其至少包括政府的各类资源总量、资源的各项属性、各个资源可用时间段、t时间点是否空闲、t时间点占用该资源的活动实例信息。

政务流程的状态，其至少包括政府运行的政务流程信息、政务流程的结构(即政务流程活动之间的逻辑关联信息)、政务流程活动需求资源列表、政务活动运行时间的概率分布。

政务流程实例的状态，其至少包括政府t时刻正在执行的政务流程实例信息、各类政务流程实例个数列表、各个流程实例的执行状态、政务流程实例子单位政务流程活动实例的状态、是否可执行、是否已执行。

时间状态，其包括政府t时刻对应的时间信息、时间t是否工作时间、时间t自然时间段；

调度状态，至少包括调度过程的状态、t时刻所在的调度阶段、t时刻各个活动实例的调度决策标志。

可选地，所述将所述政务流程的调度过程建模为马尔科夫决策过程还包括：

获取所述Petri网流程模型在t时刻的资源状态和流程实例状态，根据所述资源状态和流程实例状态获取t时刻的可调度活动实例列表；

通过预设的所述决策活动实例选择机制遍历可调度活动实例列表，确定待决策活动，将待决策活动作为t时刻状态的组成部分；

获取所述智能体输出的动作，执行所述智能体输出的动作生成t+1时刻的状态，并同时向所述智能体发送奖励。

本实施例中，由于流程具有不确定性，则调度过程的状态是变化地，调度过程的状态集是一个无限集，不同时刻的状态不同，不同状态的空闲资源不同，且待决策活动实例具有唯一性，因此，历史状态中的待决策活动实例不具有可学习性，则需要预设置一个决策活动实例选择机制，通过决策活动实例选择机制来遍历可调度活动实例列表，选择出待决策活动，并将该待决策作为对应状态的组成部分。

在政务流程调度过程中，动作集仅包含两个动作，调度与不调度。调度动作即是调度s对应的待决策活动，待决策活动会在调度后执行并立即占用相应资源。不调度则是不调度对应的待决策活动,直接进入下一个状态，决策活动实例选择机制会不断地将执行不调度的待决策活动移除，即在接下来的状态中不进行调度，直到政府的资源状态发生变化，保证决策过程会遍历所有的可调度活动实例列表。

本实施例中，流程的状态转移矩阵是复杂的，不可具体表示的，和很多的马尔科夫决策决策过程类似，状态s在执行动作a后进入的下一个状态s′由环境给出。

政务流程的奖励函数根据不同的优化目标进行设置，可以设置为稀疏奖励或者形式化奖励。整个调度过程的总奖励应该与目标优化程度成正相关。一个调度过程获得的总奖励越多，则目标优化程度越高。

衰减因子表达了对未来的重视程度，衰减因子越小，表示对未来越不重视，越趋近于1，则表示对未来越重视。衰减因子在政务流程调度问题中表现为进行调度时，对尚未进入可调度状态的活动实例的重视程度。

至此，我们将政务流程调度问题建模成了一个马尔科夫决策问题。

马尔科夫决策过程的求解过程即是确定最优策略的过程，最优策略能使得智能体执行该策略能得到最大的回报总和G

但是如果要使得上式有定义，收益序列必须有限，即

其中T是终结时间点。

如果没有终结时刻，则回报可能是无限的，为了得到有限的回报，可以对未来的受益进行折扣，也就是衰减因子存在的原因。定义折后回报：

我们一般使用π来表示一个策略,使用π(a|s)来表示某状态s采取动作a的概率,公示表示为:

π(a|s)＝P(At＝a|St＝s)

策略完整定义了智能体在所有状态下的所有行为和其概率。

当智能体采用策略π时，累积回报服从一个分布，累积回报在状态s处的期望值定义为状态值函数：

相应地，状态-行为值函数为：

状态-行为值函数表示了执行策略π时，在状态s执行动作a的期望回报，也被称为Q值。

计算状态值函数的目的是为了构建学习算法从数据中得到最优策略。每个策略对应着一个状态值函数，最优策略自然对应着最优状态值函数。

S203：通过深度强化学习算法求解所述政务流程的调度过程的最优解，以获取最优调度方案。

深度强化学习算法使用深度神经网络端到端地拟合强化学习中的价值函数，相当于从高维数据中抽象出了有用的特征作为状态再用强化学习进行迭代。而政务流程的调度过程的状态是较为复杂的，理论上来说，政务流程的调度过程的状态是无限的。因此，本实施例中采用深度强化学习算法来求解政务流程的调度过程的最优策略。

可选地，所述通过深度强化学习算法求解所述政务流程的调度过程的最优解包括：

通过DDQN(Double Deep Q Network)求解所述政务流程的调度过程的最优解；

所述通过DDQN求解所述政务流程的调度过程的最优解包括：

确定所述DDQN的输入参数，所述输入参数包括迭代轮数T，状态特征维度N,所述动作集A,步长α，所述衰减因子γ,探索率∈,当前Q网络Q，目标Q网络Q′,批量梯度下降的样本数m,目标Q网络参数更新频率C；其中，状态最终要转换成向量，状态特征维度是状态转换为的向量的维度；

随机初始化所有的状态和动作对应的价值Q，随机初始化当前Q网络的所有参数w,初始化目标Q网络Q′的参数w′＝w，清空经验回放的集合D；

进行迭代，在迭代终止后输出迭代结果；

获取所述DDQN输出的Q网络参数；

其中，迭代过程包括：

步骤一：初始化所述调度过程的状态s′为当前状态序列的第一个状态，得到其特征向量φ(s)；

步骤二：在Q网络中使用φ(s)作为输入，得到Q网络的所有动作对应的Q值输出，用∈-贪婪法在当前Q值输出中选择对应的动作a

步骤三：在状态s执行当前动作a

步骤四：将{φ(s)，a

步骤五：s＝s′；

步骤六：从经验回放集合D中采样m个样本

其中，

步骤七：使用均方差损失函数

步骤八：如果T％C＝1,则更新目标Q网络参数w′＝w；

步骤九：如果s′是终止状态，当前轮迭代完毕，否则转到步骤二。

通过对流程进行结构划分，并获取各所述结构之间的关联性，从而在确定各结构与Petri网的对象的对应关系后，建立与流程对应的Petri网流程模型，以将不规范且抽象的政务流程的流程信息转换成计算机可识别的模型，在计算机识别该流程的基础上，将Petri网流程模型的调度过程建模为马尔科夫决策过程，形式化地定义调度过程的状态、动作和奖励，然后通过深度强化学习算法求解马尔科夫决策过程的最优解，从而生成最优的调度方案。

应用中，模型的智能体在经过训练之后即可实现智能化的调度决策，输出比资源抢占式调度能获得更优管理目标的调度方案。在此过程中，可以构建一个模拟政务流程运行的模拟环境，智能体首先和模拟环境进行交互学习，习得初步的经验后再放入实际环境中，与实际环境进行交互，习得更深层次的，更符合实际环境的知识

如图16所示，本发明另一实施例提供一种智能设备16，包括存储器161、处理器160以及存储在所述存储器161中并可在所述处理器160上运行的计算机程序162，所述处理器160执行所述计算机程序162时实现如上所述的基于Petri网的政务流程的建模方法的步骤或如上所述的政务流程的调度方法的步骤。例如图1所示的S101至S103。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，存储介质不包括电载波信号和电信信号。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

虽然本公开披露如上，但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 数据存储方法及装置、电子设备、存储介质 [P] . 世界知识产权组织专利： WO2020/143410A1 . 2020-07-16

机译：数据存储方法及装置、电子设备、存储介质
2. 去隔行插值方法、装置及系统、视频处理方法和存储介质 [P] . 世界知识产权组织专利： WO2020/142916A1 . 2020-07-16

机译：去隔行插值方法、装置及系统、视频处理方法和存储介质
3. 下行数据发送方法、接收方法、装置和存储介质 [P] . 世界知识产权组织专利： WO2020/142911A1 . 2020-07-16

机译：下行数据发送方法、接收方法、装置和存储介质