首页> 中国专利> 一种配送中心的选址方法及装置

一种配送中心的选址方法及装置

摘要

本申请公开了一种配送中心的选址方法及装置,主要应用于军事领域。该方法包括:根据目标区域的环境参数,构建目标区域的目标仿真环境;将配送中心在目标仿真环境中的当前选址位置输入至用于配送中心选址的强化学习模型;获取强化学习模型输出的配送中心在目标仿真环境中的建议选址位置;建议选址位置与当前选址位置不一致时,建议选址位置用于变更配送中心在目标区域的选址位置。通过仿真环境建模可以获得精确度较高的仿真环境,而将环境建模和强化学习相结合,便可依托于精准的仿真环境,利用强化学习算法动态选取配送中心在仿真环境中的建议选址位置,从而获得配送中心的最优选址位置,实现配送中心的合理选址,最大化地发挥配送中心的作用。

著录项

  • 公开/公告号CN114971502A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 白杨时代(北京)科技有限公司;

    申请/专利号CN202210902137.0

  • 发明设计人 黄安付;彭鹏;尹辉;

    申请日2022-07-29

  • 分类号G06Q10/08(2012.01);G06N20/00(2019.01);G06Q30/02(2012.01);G06F30/27(2020.01);

  • 代理机构北京信远达知识产权代理有限公司 11304;

  • 代理人赵晓荣

  • 地址 100094 北京市海淀区北清路81号院二区3号楼10层1002-3室

  • 入库时间 2023-06-19 16:34:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-05

    授权

    发明专利权授予

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06Q10/08 专利申请号:2022109021370 申请日:20220729

    实质审查的生效

说明书

技术领域

本申请涉及物流技术领域,尤其涉及一种配送中心的选址方法及装置。

背景技术

近年来,随着大数据、物联网等新兴技术的发展,物流管理变得尤为重要。物流管理可以将对物流活动的运输、配送、仓储、包装等环节进行管理,使物品可以准确、及时地从供应低送达至接收地。尤其是在军事领域中,军事物流可以实现军事装备补给,满足军队需要,保障军事行动的顺利进行。

而在军事物流体系中,配送中心可以称为是其中心枢纽环节,发挥着重要的作用。因此,为了提高整个军事物流体系的效率,需要合理地进行配送中心选址,从而最大化地发挥配送中心的作用。

发明内容

本申请实施例提供了一种配送中心的选址方法及装置,可以合理地进行配送中心的选址,从而最大化地发挥配送中心的作用。

第一方面,本申请实施例提供了一种配送中心的选址方法,包括:

根据目标区域的环境参数,构建所述目标区域的目标仿真环境;

将配送中心在所述目标仿真环境中的当前选址位置输入至用于配送中心选址的强化学习模型;

获取所述强化学习模型输出的所述配送中心在所述目标仿真环境中的建议选址位置;所述建议选址位置与所述当前选址位置不一致时,所述建议选址位置用于变更所述配送中心在所述目标区域的选址位置。

可选地,所述强化学习模型通过如下步骤获取:

确定所述强化学习模型的构建参数,并根据所述构建参数搭建初始模型;

基于所述初始模型的输出值和所述构建参数更新所述初始模型而得到新的模型;

以所述新的模型的输出值和所述构建参数继续更新所述新的模型,循环迭代直至所述新的模型收敛而得到所述强化学习模型。

可选地,所述构建参数包括所述强化学习模型的状态信息集合、动作信息集合和动作奖励真实值;

所述确定所述强化学习模型的构建参数,包括:

以所述配送中心在所述目标仿真环境中的多个不同的可用模拟位置构建所述状态信息集合;

根据所述多个不同的可用模拟位置和预先设定的选址限制条件,分别确定所述配送中心在所述目标仿真环境中的多个不同的可选位置,并以所述多个不同的可选位置构建所述动作信息集合;

基于预先设定的多个选址因素分别确定所述配送中心从所述多个不同的可用模拟位置移至对应的所述多个不同的可选位置的动作奖励真实值。

可选地,所述根据所述构建参数搭建初始模型,包括:

根据所述状态信息集合和所述动作信息集合构建初始矩阵作为所述初始模型;所述初始矩阵中,每一列表示所述状态信息集合中的一个可用模拟位置,每一行表示所述动作信息集合中的一个可选位置;

将所述初始矩阵的所有元素的值置0作为所述初始模型的输出值;所述输出值用于表示所述初始模型的初始动作奖励估计值。

可选地,所述基于所述初始模型的输出值和所述构建参数更新所述初始模型而得到新的模型,包括:

从所述状态信息集合中择一作为所述配送中心的当前模拟位置;

根据所述当前模拟位置和所述选址限制条件,从所述动作信息集合中确定多个不同的当前可选位置;

基于所述多个选址因素,分别确定所述配送中心从所述当前模拟位置移至所述多个不同的当前可选位置的当前动作奖励真实值;

基于预先设定的强化学习率,并根据所述初始动作奖励估计值和所述当前动作奖励真实值,确定新的动作奖励估计值;

利用所述新的动作奖励估计值更新所述初始矩阵而得到所述新的强化学习模型。

可选地,所述基于预先设定的强化学习率,并根据所述初始动作奖励估计值和所述当前动作奖励真实值,确定新的动作奖励估计值,包括:

获取所述初始动作奖励估计值和所述当前动作奖励真实值之间的奖励估计误差;

基于预先设定的强化学习率,并根据所述初始动作奖励估计值和所述奖励估计误差,确定所述新的动作奖励估计值。

可选地,所述获取所述强化学习模型输出的所述配送中心在所述目标仿真环境中的建议选址位置,包括:

分别获取所述强化学习模型输出的所述配送中心从所述可用模拟位置移至所述多个不同的可选位置的动作奖励估计值;

根据获取到的动作奖励估计值中的最大值从所述多个不同的可选位置中确定所述建议选址位置。

可选地,所述基于预先设定的多个选址因素分别确定所述配送中心从所述多个不同的可用模拟位置移至对应的所述多个不同的可选位置的动作奖励真实值,包括:

获取所述多个选址因素对应的奖励权重;

基于所述奖励权重,分别确定所述配送中心从所述多个不同的可用模拟位置移至对应的所述多个不同的可选位置的动作奖励真实值。

可选地,所述环境参数包括地理参数、磁场参数和气象参数;

所述根据目标区域的环境参数,构建所述目标区域的目标仿真环境,包括:

根据所述地理参数,构建所述目标仿真环境中的地理环境;

根据所述磁场参数,构建所述目标仿真环境中的磁场环境;

根据所述气象参数,构建所述目标仿真环境中的气象环境。

第二方面,本申请实施例提供了一种配送中心的选址装置,包括:

目标仿真环境构建模块,用于根据目标区域的环境参数,构建所述目标区域的目标仿真环境;

强化学习模块,用于将配送中心在所述目标仿真环境中的当前选址位置输入至用于配送中心选址的强化学习模型;

配送中心选址模块,用于获取所述强化学习模型输出的所述配送中心在所述目标仿真环境中的建议选址位置;所述建议选址位置与所述当前选址位置不一致时,所述建议选址位置用于变更所述配送中心在所述目标区域的选址位置。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请实施例中,可以先根据目标区域的环境参数,构建目标区域的目标仿真环境,而后便可将配送中心在目标仿真环境中的当前选址位置输入至用于配送中心选址的强化学习模型,以获取强化学习模型输出的配送中心在目标仿真环境中的建议选址位置。如此,在建议选址位置与当前选址位置不一致时,可以将配送中心在目标区域的选址位置变更为该建议选址位置。通过仿真环境建模,可以获得精确度较高的仿真环境,而将环境建模和强化学习相结合,便可依托于精准的仿真环境,利用强化学习算法动态地选取配送中心在仿真环境中的建议选址位置,从而获得配送中心的最优选址位置,实现对配送中心的合理选址,提高物流体系的物流效率,最大化地发挥配送中心的作用。

附图说明

图1为本申请实施例提供的一种配送中心的选址方法的流程图;

图2为本申请实施例提供的一种获取强化学习模型的实现方式的流程图;

图3为本申请实施例提供的一个军事仿真环境的示意图;

图4为本申请实施例提供的一个基于军事仿真环境计算动作奖励真实值的示意图;

图5a为本申请实施例提供的一个初始模型的示意图;

图5b为本申请实施例提供的一个新的强化学习模型的示意图;

图6为本申请实施例提供的一种配送中心的选址装置的结构示意图。

具体实施方式

为了便于理解本申请技术方案,下面结合一些基本概念。

强化学习是一种智能体以试错的方式进行学习的算法,其使智能体通过与环境进行交互而获得奖励指导行为。强化学习的目标是通过不断地试错,使智能体获得最大的奖励。强化学习主要包含四个基本要素,即智能体、状态信息、动作信息和动作奖励。

其中,智能体是指在某一状态下“生存”的计算实体。例如,在配送中心选址场景中,智能体为需要选址的配送中心。

状态信息是指智能体当前所处的环境情况。可以理解地,在配送中心选址场景中,状态信息为配送中心的可用模拟位置。

动作信息是指智能体下一时刻所采取的行动。相应地,在配送中心选址场景中,动作信息为在配送中心在下一个选址决策时选出的可选位置。也就是说,动作信息表示配送中心在下一次选址决策中,可以从可用模拟位置移至可选位置。

动作奖励是指智能体采取行动后实际获得的奖励。可以理解地,该奖励包括正向的奖励以及反向的损失,因此动作奖励需要区分正负。在配送中心选址场景中,动作奖励为配送中心从可用模拟位置移至可选位置后的评分。

正如前文所述,发明人在针对物流管理的研究中发现:而在物流管理中,配送中心可以称为是其中心枢纽环节,发挥着重要的作用。因此,为了提高整个物流体系的效率,需要合理地进行配送中心选址,从而最大化地发挥配送中心的作用。

基于此,为了合理地进行配送中心的选址,本申请实施例提供了一种配送中心的选址方法。该方法包括:可以先根据目标区域的环境参数,构建目标区域的目标仿真环境,而后便可将配送中心在目标仿真环境中的当前选址位置输入至用于配送中心选址的强化学习模型,以获取强化学习模型输出的配送中心在目标仿真环境中的建议选址位置。如此,在建议选址位置与当前选址位置不一致时,可以将配送中心在目标区域的位置变更为该建议选址位置。

通过仿真环境建模,可以获得精确度较高的仿真环境,而将环境建模和强化学习相结合,便可依托于精准的仿真环境,利用强化学习算法动态地选取配送中心在仿真环境中的建议选址位置,从而获得配送中心的最优选址位置,实现对配送中心的合理选址,提高物流体系的物流效率,最大化地发挥配送中心的作用。

为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的一种配送中心的选址方法的流程图。结合图1所示,本申请实施例提供的配送中心的选址方法,可以包括:

S101:根据目标区域的环境参数,构建目标区域的目标仿真环境。

目标区域是指需要建立配送中心的选址区域。在实际应用中,若目标区域位于平原、丘陵等平坦的地区,目标区域可以为连续空间;若目标区域位于高原、山脉等陡峭的地区,则目标区域可以为离散空间。针对目标区域为离散空间的情况,本申请实施例可以预先从中筛选并剔除不宜建立配送中心的位置,如地势崎岖、险峻的位置,并将剩余位置作为目标区域。

目标区域的环境参数至少可以包括地理参数、磁场参数和气象参数。其中,本申请实施例对于环境参数的获取方式可不做具体限定。例如,地理参数可以基于卫星遥感技术获取;磁场参数可以基于电磁测量表获取;气象参数可以基于天气服务器获取。进一步地,为了获得更为精确的目标仿真环境,磁场参数具体可以包括磁场的实际监测信息以及磁场的随机波动信息,相应地,气象参数具体可以包括从设定历史时间段至今的气象参数以及气象的随机异常信息。相应地,基于上述三种类型的环境参数可以分别构建三种类型的仿真环境,具体来说,S101可以包括:根据地理参数,构建目标仿真环境中的地理环境;根据磁场参数,构建目标仿真环境中的磁场环境;根据气象参数,构建目标仿真环境中的气象环境。如此,综合考虑三种不同的三种环境构建目标仿真环境,可以精确模拟出实际的情况,从而为后续的强化学习奠定基础,避免学习结果和现实差异较大,提高了强化学习的准确性。

S102:将配送中心在目标仿真环境中的当前选址位置输入至用于配送中心选址的强化学习模型。

这里,如果在目标区域内预先建立有配送中心,或者,在目标区域内预先确定有选址位置,则配送中心在目标仿真环境中的当前选址位置,可以与该预先建立配送中心的选址位置或预先确定的选址位置相匹配。

S103:获取强化学习模型输出的配送中心在目标仿真环境中的建议选址位置。

如此,在建议选址位置与当前选址位置不一致时,建议选址位置可以用于变更配送中心在目标区域的选址位置。而在建议选址位置与当前选址位置一致时,配送中心则无需变更在目标区域的选址位置。如此,可以指导配送中心的选址策略,实现对配送中心的合理选址,提高物流体系的物流效率,最大化地发挥配送中心的作用。

进一步地,本申请实施例还可以提供强化学习模型的获取方式,技术详情请参见下文所做的介绍。

基于上述S101-S103的相关内容可知,本申请实施例中,可以先根据目标区域的环境参数,构建目标区域的目标仿真环境,而后便可将配送中心在目标仿真环境中的当前选址位置输入至用于配送中心选址的强化学习模型,以获取强化学习模型输出的配送中心在目标仿真环境中的建议选址位置。如此,在建议选址位置与当前选址位置不一致时,可以将配送中心在目标区域的选址位置变更为该建议选址位置。通过仿真环境建模,可以获得精确度较高的仿真环境,而将环境建模和强化学习相结合,便可依托于精准的仿真环境,利用强化学习算法动态地选取配送中心在仿真环境中的建议选址位置,从而获得配送中心的最优选址位置,实现对配送中心的合理选址,提高物流体系的物流效率,最大化地发挥配送中心的作用。

为了实现对配送中心的合理选址,本申请实施例可以采用强化学习获取配送中心的建议选址位置。基于此,本申请实施例可以提供获取强化学习模型的一种可能的实现方式,其具体可以包括S201-S203。下面分别结合实施例和附图,对S201-S203进行描述。

图2为本申请实施例提供的一种获取强化学习模型的实现方式的流程图。结合图2所示,S201-S203具体可以包括:

S201:确定强化学习模型的构建参数,并根据构建参数搭建初始模型。

构建参数可以包括强化学习模型的状态信息集合、动作信息集合和动作奖励真实值。由于配送中心在目标仿真环境中可以分别以多个不同的位置作为可用模拟位置,相应地,多个可用模拟位置可以分别对应多个不同的可选位置,针对于此,强化学习模型的构建参数的确定过程,其具体可以包括:以配送中心在目标仿真环境中的多个不同的可用模拟位置构建状态信息集合;根据多个不同的可用模拟位置和预先设定的选址限制条件,分别确定配送中心在目标仿真环境中的多个不同的可选位置,并以多个不同的可选位置构建动作信息集合;基于预先设定的多个选址因素分别确定配送中心从多个不同的可用模拟位置移至对应的多个不同的可选位置的动作奖励真实值。

在实际应用中,如果多个不同的可用模拟位置分别表示为S1、S2和S3,并且,S2位于S1和S3之间,那么预先设定的选址限制条件,例如为仅允许从自身或相邻的其他可用模拟位置中选址。这里,由于可选位置在强化学习模型中用于表示动作信息A,因此,为了使可选位置与动作信息对应,在本申请实施例中,以A表示可选位置。也就是说,S1对应的多个不同的可选位置分别为A1(S1所在的位置)和A2(S2所在的位置),S2对应的多个不同的可选位置分别为A1、A2和A3(S3所在的位置),S3对应的多个不同的可选位置分别为A2和A3。对应于此,多个不同的可用模拟位置构建的状态信息集合可以为{S1,S2,S3},多个不同的可选位置构建的动作信息集合则可以为{A1,A2,A3}。

另外,预先设定的多个选址因素,可以根据配送中心的实际需求来设置,本申请实施例可不做具体限定。例如,在物品为应急物资的场景中,配送中心的选址因素可以包括交通便利程度、建筑面积、与需要物资供应的地区之间的距离等。在物品为军备物资的场景中,配送中心的选址因素可以包括交通便利程度、与军区之间的距离、隐蔽程度、安全程度等。进一步地,对于动作奖励真实值的具体确定过程,本申请实施例亦可不做具体限定,为了便于理解,下面结合一种可能的实施方式进行说明。

在一种可能的实施方式中,动作奖励真实值的具体确定过程,可以包括:获取多个选址因素对应的奖励权重;基于奖励权重,分别确定配送中心从多个不同的可用模拟位置移至对应的多个不同的可选位置的动作奖励真实值。通过设置选址因素对应的奖励权重,可以确定出更为合理的动作奖励真实值,从而利用强化学习算法实现对配送中心的合理选址,提高物流体系的物流效率,最大化地发挥配送中心的作用。在实际应用中,多个选址因素例如为交通便利程度,以及与需要物资供应的地区之间的距离,且多个选址因素对应的奖励权重例如为交通便利程度的奖励为±30,与需要物资供应的地区之间的距离的奖励为±10。对应于此,从靠近需要物资供应的地区、远离交通干线的可用模拟位置S1,移动至远离物资供应的地区、靠近交通干线的可选位置S2,所对应的动作奖励真实值为20(具体计算方式为:移动后更靠近交通干线,交通便利程度的奖励为+30,但更远离需要物资供应的地区,与需要物资供应的地区之间的距离的奖励为-10,因此,动作奖励真实值为+30-10)。

另外,对于初始模型的搭建方式,其具体可以包括:根据状态信息集合和动作信息集合构建初始矩阵作为初始模型;将初始矩阵的所有元素的值置0作为初始模型的输出值。其中,在初始矩阵中,每一列表示状态信息集合中的一个可用模拟位置,每一行表示动作信息集合中的一个可选位置,输出值用于表示初始模型的初始动作奖励估计值。这里,本申请实施例可不具体限定初始矩阵的表示形式,为了便于理解,下面采用表1的形式进行说明。

表1

结合表1所示,表1的行表示初始矩阵的行,也就是用于表示动作信息集合中的可选位置;表1的列表示初始矩阵的列,也就是用于表示状态信息集合中的可用模拟位置,表1的所有元素值分别用于表示从一个可用模拟位置移动至可选位置的初始动作奖励估计值,且所有初始动作奖励估计值均为0。进一步地,表1中状态信息集合可以包括{S1,S2,S3},表1中动作信息集合也可以包括{A1,A2,A3}。

S202:基于初始模型的输出值和构建参数更新初始模型而得到新的模型。

对于初始模型的更新方式,本申请实施例可不做具体限定,为了便于理解,下面结合一种可能的实施方式进行说明。

在一种可能的实施方式中,S202具体可以包括:从状态信息集合中择一作为配送中心的当前模拟位置;根据当前模拟位置和选址限制条件,从动作信息集合中确定多个不同的当前可选位置;基于多个选址因素,分别确定配送中心从当前模拟位置移至多个不同的当前可选位置的当前动作奖励真实值;基于预先设定的强化学习率,并根据初始动作奖励估计值和当前动作奖励真实值,确定新的动作奖励估计值;利用新的动作奖励估计值更新初始矩阵而得到新的强化学习模型。结合上述设置选址限制条件的示例来说,由于状态信息集合中的可用模拟位置包括S1、S2和S3,因此,需要先选择其中一个作为当前模拟位置,下面选出的当前模拟位置以S1为例,S2位于S1和S3之间,因此S1所对应的当前可选位置可以为A1和A2,因此需要确定配送中心的选址位置在S1保持不变,以及从S1移至S2(也就是A2)这两种选址方式分别对应的当前动作奖励真实值,并进一步确定两种选址方式分别对应的新的动作奖励估计值,以更新初始矩阵。

进一步地,确定新的动作奖励估计值的操作,具体可以包括:获取初始动作奖励估计值和当前动作奖励真实值之间的奖励估计误差;基于预先设定的强化学习率,并根据初始动作奖励估计值和奖励估计误差,确定新的动作奖励估计值。如此,基于奖励估计误差,也就是现实与估计的差距,可以不断更新估计值,从而使得后续强化学习模型输出的估计值与现实一致,也就是估计值收敛于真实值,提高强化学习模型的准确性,从而实现对配送中心的合理选址。

其中,本申请实施例可以提供如下公式(1)对奖励估计误差的获取方式进行说明。

其中,

进一步地,本申请实施例可以提供如下公式(2)对新的动作奖励估计值的确定方式进行说明。

其中,

可以理解地,在上述初始矩阵的更新过程中,不仅可以从状态信息集合中择一作为当前模拟位置,并针对其进行相关操作,例如是确定该初始模型位置对应的多个当前可选位置、确定当前动作奖励真实值等操作,还可以分别针对状态信息集合中的其他可选模拟位置进行上述操作,从而在经过循环迭代后,实现对初始矩阵的更新。为了便于理解针对状态信息集合中的某一特定位置而进行初始矩阵的更新的实现方式,在本申请实施例中,以从状态信息集合中择一作为当前模拟位置的形式做出详细说明。

另外,仍结合上表1所示,若计算出从S1移至S2(也就是A2)这一选址方式对应的新的动作奖励估计值为+20,那么利用新的动作奖励估计值更新初始矩阵而得到的新的强化学习模型,可如表2所示。

表2

结合表2所示,由于预先设定的选址限制条件,配送中心无法从S1移至S3(也就是A3),因此,可以将配送中心从S1移至S3的动作奖励估计值设置为标定的负值,如-100、-150等,以表示在此处选址的可能性较低。

S203:以新的模型的输出值和构建参数继续更新新的模型,循环迭代直至新的模型收敛而得到强化学习模型。

结合上表2所示,若从S1移至S2(也就是A2)这一选址方式对应的动作奖励估计值为+20,那么可以基于该动作奖励估计值和构建参数继续更新该模型。也就是重新选定当次更新时的可用模拟位置,根据重新选定的可用模拟位置和选址限制条件从动作信息集合中重新确定当次更新时的多个不同的可选位置,并基于多个选址因素,分别确定配送中心从重新选定的可用模拟位置移至当次更新时的多个不同的可选位置的动作奖励真实值,再基于预先设定的强化学习率,并根据该动作奖励估计值和当次更新时的动作奖励真实值,确定当次更新时的动作奖励估计值,利用该当次更新时的动作奖励估计值更新表2所示的矩阵而得到新的强化学习模型。

基于上述S201-S203的相关内容可知,本申请实施例中,在目标仿真环境中不断迭代更新,得到准确性较高的强化学习模型,最终就可以利用强化学习算法动态地选取配送中心在仿真环境中的建议选址位置,从而获得配送中心的最优选址位置,实现对配送中心的合理选址,提高物流体系的物流效率,最大化地发挥配送中心的作用。

另外,针对上述实施例中的步骤S103,在本申请实施例中,可以提供一种可能的实施方式进行说明。

在一种可能的实施方式中,上述实施例S103,具体可以包括:分别获取强化学习模型输出的配送中心从可用模拟位置移至多个不同的可选位置的动作奖励估计值;根据获取到的动作奖励估计值中的最大值从多个不同的可选位置中确定建议选址位置。如此,通过动作奖励估计值的最大值,确定建议选址位置,便可获得配送中心的最优选址位置,实现对配送中心的合理选址,提高物流体系的物流效率,最大化地发挥配送中心的作用。

在实际应用中,本申请实施例提供的技术方案可以应用于军事领域,例如应用于军事配送中心的选址,从而通过合理选址的军事配送中心提高整个军事物流体系的效率,保障军事行动的顺利进行。基于此,下面分别结合实施例和附图对该军事配送中心的选址方案进行描述。

图3为本申请实施例提供的一个军事仿真环境的示意图;图4为本申请实施例提供的一个基于军事仿真环境计算动作奖励真实值的示意图;图5a为本申请实施例提供的一个初始模型的示意图;图5b为本申请实施例提供的一个新的强化学习模型的示意图。

在一种实现方式中,预先设定的选址因素可以包括交通便利程度(奖励为±30),以及与军区之间的距离(奖励为±10)。预先设定的选址条件可以包括仅允许从自身或相邻的其他可用模拟位置中选址,以及不允许跨越军区进行选址。结合图3所示,其中以曲线表示交通干线,以圆形框表示可用模拟位置,以三角框表示军区,相应地,可用模拟位置与交通干线之间的距离表示交通便利程度。基于上述设定,强化学习的状态信息集合可以包括军事配送中心在军事仿真环境中的多个不同的可用模拟位置S1、S2、S3、S4、S5和S6。强化学习的动作信息集合可以包括军事配送中心在军事仿真环境中的多个不同的可选位置A1(S1所在的位置)、A2(S2所在的位置)、A3(S3所在的位置)、A4(S4所在的位置)、A5(S5所在的位置)和A6(S6所在的位置),在图3中具体可以体现为:S1对应的多个不同的可选位置分别为A1、A2和A4;S2对应的多个不同的可选位置分别为A1、A2、A3和A5;S3对应的多个不同的可选位置分别为A2、A3和A5;S4对应的多个不同的可选位置分别为A1、A4、A5和A6;S5对应的多个不同的可选位置分别为A2、A3、A4、A5和A6,S6对应的多个不同的可选位置分别为A4、A5和A6。进一步地,结合图4所示,军事配送中心在S1保持不动,以及从S1分别移至S2(也就是A2)和S4(也就是A4)这三种选址方式所对应的动作奖励真实值分别为0、10、20;军事配送中心在S2保持不动,以及从S2分别移至S1(也就是A1)、S3(也就是A3)和S5(也就是A5)这四种选址方式对应的动作奖励真实值分别为0、-10、-10、-10;军事配送中心在S3保持不动,以及从S3分别移至S2和S5这三种选址方式所对应的动作奖励真实值分别为0、10、0;军事配送中心在S4保持不动,以及从S4分别移至S1、S5和S6(也就是A6)这四种选址方式所对应的动作奖励真实值分别为0、-20、-20、60;军事配送中心在S5保持不动,以及从S5分别移至S2、S3、S4、S6这五种选址方式所对应的动作奖励真实值分别为0、10、0、20、80;军事配送中心在S6保持不动,以及从S6分别移至S4和S5这三种选址方式所对应的动作奖励真实值分别为0、-60、-80。

进一步地,如图5a所示,可以基于上述构建参数构建初始矩阵作为初始模型。在该初始矩阵中,每一列表示状态信息集合中的一个可用模拟位置,也就是S1、S2、S3、S4、S5和S6;每一行表示动作信息集合中的一个可选位置,也就是A1、A2、A3、A4、A5和A6;矩阵中的所有元素的值为0,用于表示该初始模型的初始动作奖励估计值。在首次迭代时,如果从状态信息集合中选择S4作为军事配送中心的当前模拟位置,那么可以确定出当前可选位置分别为A1、A4、A5和A6,且这四种选址方式所对应的动作奖励真实值分别为-20、0、-20、60。在此情况下,结合上述公式(1)、(2)和表1,若重新选定的可用模拟位置为S6,那么可以确定出该重新选定的可用模拟位置对应的可选位置分别为A4、A5和A6,且这三种选址方式所对应的动作奖励估计值分别为0、0、0。进一步地,若强化学习率设定为1、奖励性衰变系数设定为0.8,则军事配送中心在S4保持不动,以及从S4分别移至S1、S5和S6这四种选址方式分别对应的新的动作奖励估计值为-20、0、-20、60,也就是说在首次迭代时,可以确定军事配送中心从S4移至S6的动作奖励估计值最大,S6即为军事配送中心在军事仿真环境中的建议选址位置,以上述新的动作奖励估计值更新初始矩阵而得到的新的强化学习模型,可如图5b所示。另外,在图5b中,由于S4所对应的当前可选位置不包含A2和A3,因此,可以将军事配送中心从S4分别移至S2和S3的动作奖励估计值设定为-100。如此循环迭代,不断依据新的动作奖励估计值和构建参数对模型进行更新,直至新的模型收敛而得到强化学习模型。

基于上述实施例提供的配送中心的选址方法,本申请实施例还提供了一种配送中心的选址装置。下面分别结合实施例和附图,对该配送中心的选址装置进行描述。

图6为本申请实施例提供的一种配送中心的选址装置的结构示意图。结合图6所示,本申请实施例提供的配送中心的选址装置600,可以包括:

目标仿真环境构建模块601,用于根据目标区域的环境参数,构建目标区域的目标仿真环境;

强化学习模块602,用于将配送中心在目标仿真环境中的当前选址位置输入至用于配送中心选址的强化学习模型;

配送中心选址模块603,用于获取强化学习模型输出的配送中心在目标仿真环境中的建议选址位置;建议选址位置与当前选址位置不一致时,建议选址位置用于变更配送中心在目标区域的选址位置。

在本申请实施例中,通过目标仿真环境构建模块601、强化学习模块602和配送中心选址模块603三者的配合,可以通过仿真环境建模获得精确度较高的仿真环境,而将环境建模和强化学习相结合,便可依托于精准的仿真环境,利用强化学习算法动态地选取配送中心在仿真环境中的建议选址位置,从而获得配送中心的最优选址位置,实现对配送中心的合理选址,提高物流体系的物流效率,最大化地发挥配送中心的作用。

作为一种实施方式,为了实现对配送中心的合理选址,强化学习模型可以通过如下模块获取:

初始模型构建模块,用于确定强化学习模型的构建参数,并根据构建参数搭建初始模型;

初始模型更新模块,用于基于初始模型的输出值和构建参数更新初始模型而得到新的模型;

循环更新模块,用于以新的模型的输出值和构建参数继续更新新的模型,循环迭代直至新的模型收敛而得到强化学习模型。

作为一种实施方式,为了实现对配送中心的合理选址,构建参数可以包括强化学习模型的状态信息集合、动作信息集合和动作奖励真实值。相应地,初始模型构建模块,具体可以包括:

第一构建模块,用于以配送中心在目标仿真环境中的多个不同的可用模拟位置构建状态信息集合;

第二构建模块,用于根据多个不同的可用模拟位置和预先设定的选址限制条件,分别确定述配送中心在目标仿真环境中的多个不同的可选位置,并以多个不同的可选位置构建动作信息集合;

第三构建模块,用于基于预先设定的多个选址因素分别确定配送中心从多个不同的可用模拟位置移至对应的多个不同的可选位置的动作奖励真实值。

作为一种实施方式,为了实现对配送中心的合理选址,初始模型构建模块,具体还可以包括:

第四构建模块,用于根据状态信息集合和动作信息集合构建初始矩阵作为初始模型;初始矩阵中,每一列表示状态信息集合中的一个可用模拟位置,每一行表示动作信息集合中的一个可选位置;

第五构建模块,用于将初始矩阵的所有元素的值置0作为初始模型的输出值;输出值用于表示初始模型的初始动作奖励估计值。

作为一种实施方式,为了实现对配送中心的合理选址,初始模型更新模块,具体可以包括:

第一更新模块,用于从状态信息集合中择一作为配送中心的当前模拟位置;

第二更新模块,用于根据当前模拟位置和选址限制条件,从动作信息集合中确定多个不同的当前可选位置;

第三更新模块,用于基于多个选址因素,分别确定配送中心从当前模拟位置移至多个不同的当前可选位置的当前动作奖励真实值;

第四更新模块,用于基于预先设定的强化学习率,并根据初始动作奖励估计值和当前动作奖励真实值,确定新的动作奖励估计值;

第五更新模块,用于利用新的动作奖励估计值更新初始矩阵而得到新的强化学习模型。

作为一种实施方式,为了实现对配送中心的合理选址,第四更新模块,具体可以用于:

获取初始动作奖励估计值和当前动作奖励真实值之间的奖励估计误差;

基于预先设定的强化学习率,并根据初始动作奖励估计值和奖励估计误差,确定新的动作奖励估计值。

作为一种实施方式,为了实现对配送中心的合理选址,配送中心选址模块603,具体可以包括:

第一选址模块,用于分别获取强化学习模型输出的配送中心从可用模拟位置移至多个不同的可选位置的动作奖励估计值;

第二选址模块,用于根据获取到的动作奖励估计值中的最大值从多个不同的可选位置中确定建议选址位置。

作为一种实施方式,为了实现对配送中心的合理选址,第三构建模块,具体可以用于:

获取多个选址因素对应的奖励权重;

基于奖励权重,分别确定配送中心从多个不同的可用模拟位置移至对应的多个不同的可选位置的动作奖励真实值。

作为一种实施方式,为了实现对配送中心的合理选址,环境参数包括地理参数、磁场参数和气象参数。相应地,目标仿真环境构建模块601具体可以包括:

地理环境构建模块,用于根据地理参数,构建目标仿真环境中的地理环境;

磁场环境构建模块,用于根据磁场参数,构建目标仿真环境中的磁场环境;

气象环境构建模块,用于根据气象参数,构建目标仿真环境中的气象环境。

以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号