首页> 中国专利> 一种基于深度学习的政策解读方法

一种基于深度学习的政策解读方法

摘要

本发明涉及政策解读技术领域,且公开了一种基于深度学习的政策解读方法,包括以下步骤:S1、分析政策:通过深度学习算法对政策进行分析;S2、政策分析结果抽取:通过抽取引擎对其进行内容或抽取;S3、政策内容分类:基于s2的基础上进分类;S4、输出解读结果;S5、知识库完善。本发明中,利用深度学习技术完成政策文本的理解,抽取出政策关键词,政策,以及提炼相关政策形成Pair(政策,政策内容)以及(政策,关键词)。利用上述抽取的数据,完善相关的知识库以及搜索,提供相关的API以供使用,解决了政策实体抽取困难,政策分类效率低下;政策内容抽取效率低下;政策问答不准确;迭代训练困难;政策时效性更新缓慢等问题。

著录项

  • 公开/公告号CN112541352A

    专利类型发明专利

  • 公开/公告日2021-03-23

    原文格式PDF

  • 申请/专利权人 上海永骁智能技术有限公司;

    申请/专利号CN202011540465.8

  • 发明设计人 邓志勇;胡乃庄;黄金;

    申请日2020-12-23

  • 分类号G06F40/289(20200101);G06F16/35(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构31387 上海中外企专利代理事务所(特殊普通合伙);

  • 代理人孙旭华

  • 地址 200237 上海市徐汇区嘉川路245号3号楼607室

  • 入库时间 2023-06-19 10:21:15

说明书

技术领域

本发明涉及政策解读技术领域,具体为一种基于深度学习的政策解读方法。

背景技术

政策文件,指的是国家政权机关、政党组织和其他社会政治集团为了实现自己所代表的阶级、阶层的利益与意志,以权威形式标准化地规定在一定的历史时期内,应该达到的奋斗目标、遵循的行动原则、完成的明确任务、实行的工作方式、采取的一般步骤和具体措施的文件。

现有文件在解读过程中存在以下问题:

1、政策实体抽取困难;

2、政策分类效率低下;

3、政策内容抽取效率低下;

4、政策问答不准确;

5、迭代训练困难;

6、政策时效性更新缓慢。为此,我们提出一种基于深度学习的政策解读方法。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于深度学习的政策解读方法,解决了上述的问题。

(二)技术方案

为实现上述所述目的,本发明提供如下技术方案:一种基于深度学习的政策解读方法,包括以下步骤:

S1、分析政策:通过深度学习算法对政策进行分析;

S2、政策分析结果抽取:通过抽取引擎对其进行内容或抽取;

S3、政策内容分类:基于s2的基础上进分类;

S4、输出解读结果;

S5、知识库完善。

优选的,所述S1中,分析政策:通过深度学习算法对政策进行分析的具体步骤为:

步骤1,用户通过系统将政策进行输入(文本,文件);

步骤2,根据步骤1构建的两个Pair,进行人工确认,此确认步骤可认为是标注的一种形式;

步骤3,确认完全后,两个Pair数据进入相关知识库,以提供相关的QA过程。

优选的,所述步骤1用户通过系统将政策进行输入(文本,文件)中,通过以下步骤进行处理;

步骤1.1将输入的数据做数据预处理;

步骤1.2实体抽取,针对政策进行相关实体的抽取,并建立政策-实体Pair。

步骤1.3政策内容抽取,针对政策进行相关内容的抽取,并建立政策-内容Pair。

优选的,所述步骤1.2实体抽取,针对政策进行相关实体的抽取,并建立政策-实体Pair中,具体做法如下:

1).针对政策文本进行分词以及新词发现;

2).分词新词发现结果之后得到结果与积累的政策领域词库进行比对,如果有相关词汇则将此词汇和其对应的政策领域组成Pair返回;

3).利用深度学习算法,BERT+BiLSTM+CRF,以及积累的语料进行训练而得的模型进行预测,标注数据格式为:B(begin):实体开始,I(Inside):实体内部,O(outside):非实体,E(end):实体结尾,S(single):单个实体,将输入为:政策文本,输出为:相关实体--①;

4).同时利用BERT的分类模型对政策进行分类预测其领域分类,

相关特征为:文本的WordEmbedding;

输入为:政策文本,输出为:领域分类--②;

5).将①和②组成Pair返回。

优选的,所述步骤1.3政策内容抽取,针对政策进行相关内容的抽取,并建立政策-内容Pair中,具体方法如下:

1).利用大量政策文本训练TextRank,Bert-Extract,XGBoost模型,其中,TextRank为无监督模型,Bert-Extract为基于WordEmbedding模型,XgBoost为分类模型,特征为:WordEmbedding;

2).利用规则进行抽取,段首,段尾,文章起始段,文章结束段。

优选的,所述S5、知识库完善中,采用数据反补:具体为将确认结果和引擎预测结果相比较,得到相对应的标注数据。

优选的,所述数据反补抽取中,分类引擎的训练方式由定时触发,规则触发,手动训练三种构成。

优选的,所述定时触发方式具体为:

1)、可自定义训练区间,比如1周/1月定时训练一次;

2)、训练完成的模型自动生成模型文件,并推送到生产环境;

3)、生产系统会根据定时任务的时间来验证模型文件;

4)、验证通过替换线上模型。

优选的,所述规则触发方式具体为:

1)、配置规则:

a)确认结果与引擎预测相异数据量达到阈值(用户设置);

b)确认结果数量达到阈值(用户设置);

NOTE:以上两种方式优先级为a>b;

2)、当以优先级触发上述1.中规则时,触发定时方式2,3,4。

优选的,所述手动训练方式具体为:

1)、数据预处理;

2)、超参数确认;

3)、系统参数;

a)、是否替换生产环境模型;

b)、是否验证模型;

c)、模型过期时间;

4)、训练;

5)、根据3)中系统参数设置决定是否自动化推送到生产系统还是手动推送。

(三)有益效果

与现有技术相比,本发明提供了一种基于深度学习的政策解读方法,具备以下有益效果:

该基于深度学习的政策解读方法,利用深度学习技术完成政策文本的理解,抽取出政策关键词,政策,以及提炼相关政策形成Pair(政策,政策内容)以及(政策,关键词)。利用上述抽取的数据,完善相关的知识库以及搜索,提供相关的API以供使用,解决了政策实体抽取困难,政策分类效率低下;政策内容抽取效率低下;政策问答不准确;迭代训练困难;政策时效性更新缓慢等问题。

附图说明

图1为本发明软件架构图;

图2为本发明运行方式图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例:如图1-2所示:一种基于深度学习的政策解读方法,包括以下步骤:

S1、分析政策:通过深度学习算法对政策进行分析;

S2、政策分析结果抽取:通过抽取引擎对其进行内容或抽取;

S3、政策内容分类:基于s2的基础上进分类;

S4、输出解读结果;

S5、知识库完善。

所述S1中,分析政策:通过深度学习算法对政策进行分析的具体步骤为:

步骤1,用户通过系统将政策进行输入(文本,文件);

步骤2,根据步骤1构建的两个Pair,进行人工确认,此确认步骤可认为是标注的一种形式;

步骤3,确认完全后,两个Pair数据进入相关知识库,以提供相关的QA过程。

所述步骤1用户通过系统将政策进行输入(文本,文件)中,通过以下步骤进行处理;

步骤1.1将输入的数据做数据预处理;

步骤1.2实体抽取,针对政策进行相关实体的抽取,并建立政策-实体Pair。

步骤1.3政策内容抽取,针对政策进行相关内容的抽取,并建立政策-内容Pair。

所述步骤1.2实体抽取,针对政策进行相关实体的抽取,并建立政策-实体Pair中,具体做法如下:

1).针对政策文本进行分词以及新词发现;

2).分词新词发现结果之后得到结果与积累的政策领域词库进行比对,如果有相关词汇则将此词汇和其对应的政策领域组成Pair返回;

3).利用深度学习算法,BERT+BiLSTM+CRF,以及积累的语料进行训练而得的模型进行预测,标注数据格式为:B(begin):实体开始,I(Inside):实体内部,O(outside):非实体,E(end):实体结尾,S(single):单个实体,将输入为:政策文本,输出为:相关实体--①;

4).同时利用BERT的分类模型对政策进行分类预测其领域分类,

相关特征为:文本的WordEmbedding;

输入为:政策文本,输出为:领域分类--②;

5).将①和②组成Pair返回。

所述步骤1.3政策内容抽取,针对政策进行相关内容的抽取,并建立政策-内容Pair中,具体方法如下:

1).利用大量政策文本训练TextRank,Bert-Extract,XGBoost模型,其中,TextRank为无监督模型,Bert-Extract为基于WordEmbedding模型,XgBoost为分类模型,特征为:WordEmbedding;

2).利用规则进行抽取,段首,段尾,文章起始段,文章结束段。

所述S5、知识库完善中,采用数据反补:具体为将确认结果和引擎预测结果相比较,得到相对应的标注数据。

所述数据反补抽取中,分类引擎的训练方式由定时触发,规则触发,手动训练三种构成。

所述定时触发方式具体为:

1)、可自定义训练区间,比如1周/1月定时训练一次;

2)、训练完成的模型自动生成模型文件,并推送到生产环境;

3)、生产系统会根据定时任务的时间来验证模型文件;

4)、验证通过替换线上模型。

所述规则触发方式具体为:

1)、配置规则:

a)确认结果与引擎预测相异数据量达到阈值(用户设置);

b)确认结果数量达到阈值(用户设置);

NOTE:以上两种方式优先级为a>b;

2)、当以优先级触发上述1.中规则时,触发定时方式2,3,4。

所述手动训练方式具体为:

1)、数据预处理;

2)、超参数确认;

3)、系统参数;

a)、是否替换生产环境模型;

b)、是否验证模型;

c)、模型过期时间;

4)、训练;

5)、根据3)中系统参数设置决定是否自动化推送到生产系统还是手动推送。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号