首页> 中国专利> 条例推荐的策略梯度方法

条例推荐的策略梯度方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了条例推荐的策略梯度方法，包括：获取态势数据x、条例y以及与x匹配的条例；选择与x不匹配但最相似的K个条例作为负样本，用于拒绝错误匹配，结构化的态势数据，分别使用基于规则的独热编码以及分类器编码语义向量得到它们的中间特征，然后拼接得到态势向量；对于条例y，使用LSTM从条例文本词向量中提取特征向量；使用MLP评估器学习两者间的匹配关系，判断策略网络学习是否正确；策略网络学习态势和条例的匹配结果，并以最大化策略网络在所有采样态势数据上获得的总奖励为目标，对策略网络进行优化；输出态势和条例数据的匹配结果。本发明可自动输出态势和条例数据的匹配结果。

著录项

公开/公告号CN114896366A

专利类型发明专利
公开/公告日2022-08-12

原文格式PDF
申请/专利权人中国人民解放军国防科技大学;
展开▼

申请/专利号CN202210511144.8
发明设计人成清;黄金才;程光权;刘忠;杜航;吴克宇;范长俊;张小可;
展开▼

申请日2022-05-11
分类号G06F16/33(2019.01);G06F16/9535(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构长沙大珂知识产权代理事务所(普通合伙) 43236;
代理人伍志祥
地址 410073 湖南省长沙市开福区德雅路109号
入库时间 2023-06-19 16:22:17

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-30

实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022105111448 申请日:20220511

实质审查的生效

说明书

技术领域

本发明属于人工智能技术领域，尤其涉及条例推荐的策略梯度方法。

背景技术

条例数据是针对某种情况采取某种措施的规定，是文本类型数据。例如：条例1-1：发现XX国XX类型船只在XX区域进行XX活动时，可以派出XX类型装备对其实施XX措施，若该船只出现XX举动，可以对其采取XX措施。态势数据是应对目标当前的状态信息，是由多个元素组成的结构化数据。对于自然语言分析来说，需要分析文本数据中是否存在结构化的数据，并对匹配的数据进行推荐，可以从海量数据中自动筛选出需要的数据。现有技术中对条例数据和态势数据的匹配研究还不充分。

发明内容

有鉴于此，本发明提出了条例推荐的策略梯度方法。

本发明公开的条例推荐的策略梯度方法，所述条例推荐为判断态势和条例数据是否匹配，包括以下步骤：

获取态势数据x、条例y以及与x匹配的条例；

选择与x不匹配但最相似的K个条例作为负样本，用于拒绝错误匹配，结构化的态势数据，分别使用基于规则的one-hot编码以及分类器编码语义向量得到它们的中间特征，然后拼接得到态势向量V

对于条例数据y，使用LSTM从条例文本词向量中提取特征向量V

使用MLP评估器学习两者间的匹配关系，并根据匹配关系标签，判断策略网络学习是否正确，若正确则给予正的奖励，否则给与负的奖励；

策略网络学习态势和条例的匹配结果，并以最大化策略网络在所有采样态势数据上获得的总奖励为目标，对策略网络进行优化；

输出态势和条例数据的匹配结果。

进一步的，所述策略网络包括智能体agent和环境env两个模块，所述智能体agent初始化状态，并按随机策略采取行动，行动使环境中的状态发生改变，同时环境产生反馈信号，所述智能体agent根据反馈信号调整策略，并按调整后的策略采取行动，所述智能体agent通过不断与环境env进行交互，使得总奖励最大化。

进一步的，环境包括历史信息、状态空间、行动空间和状态的转移过程，其中历史信息定义如下：

为每个态势选取不匹配的K个最相似的条例，得到K+1候选对，那么定义状态空间为：

其中其中

调整策略分为两个步骤，一个是策略评估，得到采取当前策略中的各个动作所能得到的奖赏，二是策略改进，根据策略评估的结果选择最优的动作；这两个步骤不停的迭代更新直到收敛，得到最优的策略。

进一步的，在策略改进的过程中，在策略中引入随机性进行探索，让agent以小概率p

对于学习难度较大的样本，以一定概率跳过，使用以下方法评估样本

其中τ为一超参数,

其中，超参数η为折扣系数，超参数p

进一步的，PRsim方法如下：

通过命名实体识别或人工标注方法将条例数据y按x的schema结构化为y

对x和y′使用态势数据编码器提取特征得到V

评估各个维度特征的重要性，并按重要性配置权重向量W；

计算

进一步的，使用下式更新策略网络:

其中，θ为策略。

本发明可自动输出态势和条例数据的匹配结果。

附图说明

图1本发明的模型架构图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

本发明将条例推荐定义为判断态势和条例是否匹配的一个决策问题，从而将连续判断每一种态势和其备选条例是否匹配的过程定义为一个序列决策过程，那么求解序列匹配的最佳策略就是一个序列决策问题。该方法构建一个策略网络学习态势和条例的匹配结果，并以最大化策略网络在所有(采样)态势数据上获得的总奖励为目标，对策略网络进行优化，从而求解序列决策问题。

图1展示了基于策略梯度方法的条例推荐模型的结构，对于输入的态势数据x、条例y以及与x匹配的条例，本方法选择与x不匹配但最相似的K个条例作为负样本，用于拒绝错误匹配。对于结构化的态势数据，我们分别使用基于规则的one-hot编码以及textCNN等分类器编码语义向量得到它们的中间特征，然后拼接得到态势向量V

态势数据：应对目标当前的状态信息，是由多个元素组成的结构化数据，如名称、类型、所属势力、经度、纬度、历史活动类型及次数等。一条态势数据x定义为如下格式的结构化数据：

本发明的输入输出如下：

1)输入：态势-条例对，态势数据的编码，态势-条例对的匹配(推荐)标签；

2)输出：预测的态势-条例对的匹配(推荐)结果(是或否)。

本发明的强化学习过程定义

强化学习主要包含智能体agent和环境env两个模块。下图展示了agent和环境交互的过程：首先，agent初始化状态，并按随机策略采取行动，行动使环境中的状态发生改变，同时环境产生反馈信号，agent根据反馈信号调整策略，并按调整后的策略采取行动……，agent通过不断与环境进行交互，使得总奖励最大化。

代理Agent模块

对于条例推荐问题，定义条例数据集Y＝{y

状态s：一个状态s＝(x,y)，其中x表示一条态势，y表示一个条例。

状态标签l：l∈{0,1}，对于s＝(x,y)，当x,y匹配时，l＝1；否则l＝0。

行动a：行动a∈{0,1}，当a＝1时表示agent选择的策略为：评估x,y为匹配的，否则评估x,y为不匹配的。

策略π：策略π(a|s)是状态到行动的一个映射，表示agent对状态s中x,y匹配问题的评估方法；

奖励r：

环境Env模块

状态空间、行动空间以及状态的转移过程等都由环境所定义，本方法定义环境的部分要素如下：

历史信息：

状态空间：对于上述的条例推荐问题，为每个态势选取不匹配的K个最相似的条例，得到K+1候选对，那么定义状态空间为：

随机探索方法：有模型的强化学习学习分为两个步骤，一个是策略评估，得到采取当前策略中的各个动作所能得到的奖赏，二是策略改进，根据策略评估的结果选择最优的动作。这两个步骤不停的迭代更新直到收敛，得到最优的策略。在策略改进的过程中，强化学习常常在策略中引入随机性进行探索，于是让agent以小概率p

探索策略：对于学习难度较大的样本，以一定概率跳过，本方法使用以下方法评估样本

其中τ为一超参数,

其中，超参数η为折扣系数，超参数p

本发明模型构建

本发明的方法主要包含了两个重要部分：态势数据编码器、探索策略。态势数据编码器：对于结构化的态势数据(主体类型、势力power、地理位置等)，根据数据特点选用不同方法进行编码，通过将各维度数据的编码拼接起来，组成态势数据的整体嵌入。首先，对于具有抽象数据特征的数据，可先进行数据标注，然后训练多分类模型作为特征提取器，如对活动类型使用textCNN提取语义特征。对于特征较为具体的数据，可直接使用规则推理得到它们的one-hot(独热)编码。例如，将X国、Y国、Z国、J国分别编码为[1,0,0]′、[0，1,0]′、[0,0,1]′、[0,1,1]′；通过几何关系计算可将具体的经纬度值(地理位置)归类到预先划分好的区域中，从而得到其one-hot编码。

探索策略：由于学习难度大的样本容易引入更多的误差，本方法使用PRsim方法近似评估条例-态势数据对的相似度，进而评估样本的学习难度，然后通过更少地采样学习难度大的样本，减少偏差的引入。

算法1：基于策略梯度的条例推荐算法

下面介绍生成态势-条例对数据集的方法，该方法为每个态势数据产生一定数量的候选条例对。

算法2：态势-条例对数据集获取方法

其中PRsim算法定义如下：

算法3：态势-条例匹配度评估方法PRsim

1.条例推荐步骤

1)态势-条例对数据集构造：通过人工标注为每个态势数据找到与其匹配的条例，初始化参数K，按算法2获取数据集态势-条例对数据集D，并按8:2的比例将D划分为训练集和验证集。

2)本发明模型构造及训练：按图1构建策略网络，输入训练集，调节模型超参数τ,p

3)条例推荐：遍历条例数据集，将态势数据和条例数据输入训练好的策略网络，输出行动。若行动为1，表示推荐该条例，否则不推荐。

本发明可自动输出态势和条例数据的匹配结果。

本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于梯度策略决策算法的个性化运动推荐方法 [P] . 中国专利： CN113611389A . 2021-11-05
2. 一种案件法律条例推荐方法及系统 [P] . 中国专利： CN107818138B . 2020-05-19
3. RULES RECOMMENDATION REGULATION [P] . SE7506663L . 1976-12-12

机译：规则推荐条例
4. METHOD AND APPARATUS FOR RECOMMENDING GAME PLAY STRATEGY [P] . 韩国专利： KR20200092242A . 2020-08-03

机译：推荐游戏策略的方法和装置
5. Authorization policy recommendation method and apparatus, server, and storage medium [P] . 美国专利： US10686843B2 . 2020-06-16

机译：授权策略推荐方法及装置，服务器和存储介质