首页> 中国专利> 利用强化学习实现的排班规划的方法和系统

利用强化学习实现的排班规划的方法和系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了利用强化学习实现的排班规划的方法，包括如下步骤：S1、需要实现对企业门店和员工进行可视化的动态管理，其中门店信息包括销量数据、门店信息、商圈信息、天气信息，本发明结构科学合理，使用安全方便，本发明集成数据管理、核心算法、应用系统于一体，基于算法进行排班规划，可以不断进行自学习优化，达成最优的连锁门店排班安排。通过基于地图的可视化UI界面输出，便于人员的使用和管理，本发明对后台规则和算法做封装，只需要通过操作前端UI界面即可实现智能排班的规划。

著录项

公开/公告号CN112396257A

专利类型发明专利
公开/公告日2021-02-23

原文格式PDF
申请/专利权人亿景智联(北京)科技有限公司;
展开▼

申请/专利号CN202011545014.3
发明设计人田鹏飞;吴丹;
展开▼

申请日2020-12-24
分类号G06Q10/04(20120101);G06Q10/06(20120101);G06N20/00(20190101);
代理机构32327 南京鼎傲知识产权代理事务所(普通合伙);
代理人刘蔼民
地址 100085 北京市海淀区上地信息产业基地创业路6号3层3015
入库时间 2023-06-19 10:00:31

说明书

技术领域

本发明涉及人工智能技术领域，具体为利用强化学习实现的排班规划的方法和系统。

背景技术

排班是许多连锁企业的一项日常管理工作内容，合理的对各门店进行销量预测以及对门店员工进行合理的排班安排，可以提升企业服务能力和用工效率，一套公平、合理的排班软件不仅能调用员工积极性,也能提高工作效率,对企业具有非常重要意义；

在排班规划中，利用强化学习（Reinforcement Learning）可以寻找到最优化的排班规划，强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，求解强化学习问题所使用的算法可分为策略搜索算法和值函数（value function）算法两类；

强化学习的主要组成除了Agent和环境以外还应该包括策略、报酬代价函数和值函数,环境的模型是可选的元素，策略定义了Agent在某一时刻该选择什么行动报酬函数是对Agent上一步所选择执行的动作好坏的评价,它确定了强化学习的目标,将Agent感知到的环境状态映射为一个能够表示程度的标量值报酬函数表示了短期内的即时回报,而值函数则表示长远的报酬，某状态的值函数就是这个状态的回报在时间上累计的总和；

标准强化学习框架结构由状态感知器、学习器和动作选择器三个模块组成，状态感知器把环境状态映射成Agnet内部感知,动作选择器根据当前策略选择动作作用于环境,学习器根据环境状态的奖赏值以及内部感知,更新的策略知识，强化学习技术的基本原理是如果的某个动作导致环境正的奖赏强化信号,那么以后产生这个动作的趋势便会加强,反之,产生这个动作的趋势减弱。

发明内容

本发明提供利用强化学习实现的排班规划的方法和系统，可以有效解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：利用强化学习实现的排班规划的方法，包括如下步骤：

S1、需要实现对企业门店和员工进行可视化的动态管理，其中门店信息包括销量数据、门店信息、商圈信息、天气信息；

S2、根据各门店的销量预测数据利用强化学习寻找最优的排班方案、招聘和培养计划，最后将排班方案与企业业务系统对接，可以对门店进行直接的工作指导，在完成以上的排班规划的基础上，可以通过数据反馈进行自动化的迭代优化。

根据上述技术方案，所述员工中员工信息包括员工基础信息、员工岗位、员工级别、员工状态、员工技能、从业次数、工资水平、休假安排和工作时长。

根据上述技术方案，所述实现对企业门店和员工进行可视化的动态管理，利用地理信息GIS技术将企业门店相关数据实现可视化上图，同时将现有的员工数据也完成上图，实现资源的网格化管理。

根据上述技术方案，所述强化学习寻找最优的排班方案、招聘和培养计划；

当在其环境中做出每个动作时，就会提供奖励或惩罚信息，以表示结果状态的正确与否，利用强化学习将各个门店的人员未来的需求与现有资源进行合理安排和规划，对空缺的岗位的招聘和培养计划做出合理预测。

根据上述技术方案，所述强化学习寻找最优的排班方案，强化学习按照以下的步骤实现：

S1、结构化网店、员工相关信息，定义系统状态；

S2、定义强化学习的Agent，根据Q函数值和控制策略来选择动作，并根据该动作对应的权值组合进行计算，选择最小成本的人员派给门店；

S3、定义报酬函数，通过报酬函数对排班动作给出一个正确的评价信息，报酬函数的定义与调度优化的目标函数直接或间接相关；

S4、泛化与逼近，将所有状态一动作对的Q值存放在一张二维的Q表中，其值在每个时间步被修改一次，Q表作为动作选择的依据，而动作选择的策略则是选取当前状态下具有最大Q值的动作，通过对所有状态或动作进行遍历寻找到最佳的方案；

S5、仿真测试，通过计算机仿真来验证学习算法解决排班问题的有效性。

根据上述技术方案，所述排班方案与企业业务系统对接，对接方案支持多种CRM系统以及ERP系统，对接的接口支持RPC和RESTFUL模式，并且提供APP端支持，可以将排班规划同步到业务系统，同时也能将业务数据进行及时的反馈。

根据上述技术方案，所述数据反馈进行自动化的迭代优化，根据实际的门店排班情况计算成本和合理性，反馈到系统进行模型的自适应优化。

根据上述技术方案，一种利用强化学习实现的排班规划的系统，根据利用强化学习实现的排班规划的方法所生成的系统。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，本发明集成数据管理、核心算法、应用系统于一体，基于算法进行排班规划，可以不断进行自学习优化，达成最优的连锁门店排班安排。通过基于地图的可视化UI界面输出，便于人员的使用和管理，本发明对后台规则和算法做封装，只需要通过操作前端UI界面即可实现智能排班的规划。

具体实施方式

以下对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：本发明提供技术方案，利用强化学习实现的排班规划的方法，包括如下步骤：