公开/公告号CN112668329A
专利类型发明专利
公开/公告日2021-04-16
原文格式PDF
申请/专利权人 广州博士信息技术研究院有限公司;
申请/专利号CN202011585410.9
申请日2020-12-28
分类号G06F40/289(20200101);G06F40/242(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);G06Q50/26(20120101);
代理机构44663 广州博士科创知识产权代理有限公司;
代理人李永锋
地址 510000 广东省广州市高新技术产业开发区科学城科珠路203号1201D
入库时间 2023-06-19 10:38:35
技术领域
本发明涉及政策分类技术领域,尤其是一种基于机器学习的政策文本分类方法。
背景技术
社会政策与人类发展新的人类发展视角强调以人为中心的发展观,强调经济与社会发展要围绕着满足人的各种需要,提高人的生活质量,并解决人类社会所面临的各种问题。
产业政策作为国家用来发展产业的辅助工具,对于优化产业结构有不可忽视的作用,可以推动国民经济又好又快地发展。
近年来,中央和地方政府相继出台各种政策,保民生,促经济做出努力,特别当前为应对疫情冲击,在帮扶企业、稳定就业、扩大内需等方面,各地各部门陆续出台了一系列政策措施。
为了方便企业和普通民众了了解政策,响应政策,所以需要讲各地各部门的政策采集回来,进行分类整理,加工,系统化输出。
政策按照性质主要分为以下几大类:政策快讯,政策法规,申报通知,政策公示,政策活动,政策解读等。按照行政级别,又可以分为:国家级,省级,市级,区(县)级别。按照产业分类,又可以分为:新一代信息技术产业,高端装备制造产业,新材料产业,生物产业,新能源汽车产业,新能源产业,节能环保产业,数字创意产业,相关服务业。
政策数据量大,维度多,需要一种技术实现智能分类。当前没有相应的人工智能技术应用于政策文本精准分类,只能人工一条条数据处理,效率非常低下。
少数用一些开发语言编写的脚本,进行正则表达式分类。传统的人工处理效率低下,数据量越大,平均准确率越低。传统的一些正则表达式分类,虽然比人工提升了一定效率,但这种方式存在缺陷,就是需要预先枚举出各种可能出现情况,然后硬编码好。枚举本身就是一种耗时耗力的工作,枚举各种可能情况更是难上加难。硬编码好的脚本,不能够适用多变的场景,准确率也无法保证。
发明内容
针对现有技术的不足,本发明提供一种基于机器学习的政策文本分类方法,本发明对政策文本进行处理,并在此之后,通过不断调整深度学习模型的各类参数来获取新的深度学习模型本。
本发明的技术方案为:一种基于机器学习的政策文本分类方法,所述的方法包括以下步骤:
S1)、将准备好的数据照政策快讯、政策法规、申报通知、政策公示、政策活动、政策解读分类标注,单文本标注;
S2)、将各个类别的数据作为训练的数据集,并且随机划分为80%训练集,15%测试集和5%评测集;
S3)、将政策的标题给以权重0.7和内容权重0.3,合并为文本,并将文本转化为向量;
S4)、选择CNN算法作为基础算法,加入政策维度函数,权重因子,配置100层,批次100,学习率2e-5,模型保存间隔500输入词向量序列,产生一个特征图,对特征图采用时间维度上的最大池化操作得到此卷积核对应的整句话的特征,
最后,将所有卷积核得到的特征拼接起来即为文本的定长向量表示,对于文本分类问题,将其连接至softmax即构建出完整的模型;
S5)、定义输出的数据,lod_level不为0指定输入数据为序列数据;
S6)、将向量加入到元组;
读取已经得到数的向量,按照分隔符'_!_'切割数据,去掉分行符'\n',把元组转换成字典,一个字对应一个数字。
S7)、定义分类器;
model=Doctor_CNN_net(words,dict_dim),words是文本向量,dict_dim字典元组。
S8)、定义损失函数和准确函数
S9)、定义优化方法
利用随机梯度下降法来获取损失函数的最小值;
S10)、网络训练;
S11)、模型评估;
S12)、模型预测。
进一步的,步骤S4)中,所述的CNN算法的层级结构如下:
数据输入层/Input layer;
卷积计算层/CONV layer;
ReLU激励层/ReLU layer;
池化层/Pooling layer;
全连接层/FC layer。
进一步的,步骤S4)中,所述的卷积计算层包括局部关联和窗口滑动两个特征,其中,所述的局部关联是将每个神经元看做一个滤波器filter;
所述的窗口滑动是指波器filter对局部数据计算。
进一步的,所述的池化层主要是保持特征不变性,去掉一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,是最能表达句子的特征;
其次,用于特征降维。
进一步的,步骤S6)中,将向量加入到元组具体步骤为:
先读取已经得到数的向量,后按照分隔符'_!_'切割数据,去掉分行符'\n',把元组转换成字典,一个字对应一个数字
进一步的,步骤S7)中,定义分类器包括以下步骤:
model=Doctor_CNN_net(words,dict_dim),参数words是文本向量,参数dict_dim字典元组,函数Doctor_CNN_net封装了CNN算法
进一步的,步骤S8)中,所述的损失函数是指,用数学的方法衡量假设函数预测结果与真实值之间的误差;所述的损失函数选用损失行数选择均方误差,对损失值求平均值来描述准确函数。
进一步的,步骤S10)中,所述的网络训练主要包括以下步骤:
S101)、初始化参数,创建一个GPU执行器部署到云端,执行分布式训练,其中利用GPU的算力;
S102)、定义数据映射器开始训练
DataFeeder负责将数据提供器返回的数据转成一种特殊的数据结构,使其可以输入到Executor中,定义绘制训练过程的损失值变化趋势的方法draw_train_process。
进一步的,步骤S11)中,所述的模型评估主要是通过创建推测用的executorScope指定作用域。
进一步的,步骤S12)中,通过load_inference_model,预测器会从params_dirname中读取已经训练好的模型,来对从未遇见过的数据进行预测。
本发明的有益效果为:
1、本发明通过将政策按照不同的类别进行分类,通过人工标记,通过政策分类维度定义与划分;
2、本发明政策分类模型算法以及配置的参数对数据进行训练,然后通过调整参数,将损失函数值逐渐收敛,从而进一步保证模型的准确性;
3、本发明通过深度学习算法训练和优化,开发一套云端服务和政策分类应用系统,取得了高效、准确的、智能的政策分类的效果,实现了大规模处理政策数据的分类的难题。
附图说明
图1为本发明方法的流程示意图;
图2为本发明政策分类神经网络的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
实施例1
如图1所示,本实施例提供一种基于机器学习的政策文本分类方法,所述的方法包括以下步骤:
S1)、将准备好的数据照政策快讯、政策法规、申报通知、政策公示、政策活动、政策解读分类标注,单文本标注;
S2)、将各个类别的数据作为训练的数据集,并且随机划分为80%训练集,15%测试集和5%评测集;
S3)、将政策的标题给以权重0.7和内容权重0.3,合并为文本,并将文本转化为向量;
S4)、选择CNN算法作为基础算法,加入政策维度函数,权重因子,配置100层,批次100,学习率2e-5,模型保存间隔500输入词向量序列,产生一个特征图,对特征图采用时间维度上的最大池化操作得到此卷积核对应的整句话的特征;
最后,将所有卷积核得到的特征拼接起来即为文本的定长向量表示,对于文本分类问题,将其连接至softmax即构建出完整的模型;
本实施例中,所述的CNN算法的层级结构参见图2,具体层级结构如下:
数据输入层/Input layer;
卷积计算层/CONV layer;
ReLU激励层/ReLU layer;
池化层/Pooling layer;
全连接层/FC layer。
其中,所述的卷积计算层包括局部关联和窗口滑动两个特征,其中,所述的局部关联是将每个神经元看做一个滤波器filter;所述的窗口滑动是指波器filter对局部数据计算。
而所述的池化层主要是保持特征不变性,去掉一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,是最能表达句子的特征;其次,用于特征降维。
S5)、定义输出的数据,lod_level不为0指定输入数据为序列数据;
S6)、将向量加入到元组;
读取已经得到数的向量,按照分隔符'_!_'切割数据,去掉分行符'\n',把元组转换成字典,一个字对应一个数字。
S7)、定义分类器;
model=Doctor_CNN_net(words,dict_dim),words是文本向量,dict_dim字典元组。
S8)、定义损失函数和准确函数,本实施例所述的损失函数是指,用数学的方法衡量假设函数预测结果与真实值之间的误差;所述的损失函数选用损失行数选择均方误差,对损失值求平均值来描述准确函数。
S9)、定义优化方法
利用随机梯度下降法来获取损失函数的最小值;
S10)、网络训练,本实施例中,所述的网络训练主要包括以下步骤:
S101)、初始化参数,创建一个GPU执行器部署到云端,执行分布式训练,其中利用GPU的算力;
S102)、定义数据映射器开始训练
DataFeeder负责将数据提供器返回的数据转成一种特殊的数据结构,使其可以输入到Executor中,定义绘制训练过程的损失值变化趋势的方法draw_train_process。
S11)、模型评估,本实施例中,所述的模型评估主要是通过创建推测用的executorScope指定作用域。
S12)、模型预测,本实施例通过load_inference_model,预测器会从params_dirname中读取已经训练好的模型,来对从未遇见过的数据进行预测。
本实施例中,所述的政策分类应用管理系统工作的步骤如下:
1、采集回来的数据,调用云端服务接口,返回每个类别的置信度。
2、判断置信度大于0.8的,确定入库。低于0.8的进入正则匹配。
3、正则匹配还不能分类的,进入人工处理。
4、处理好的数据,调用云端服务接口,反馈数据情况。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
机译: 一种基于分数的文本单元分类方法,计算机程序产品及其计算机
机译: 高效的多文本分类机器学习分类方法
机译: DOMP-数字偏移管理平台是第一个全球集成的偏移管理平台,它在偏移策略,政策指南,OEM合同,业务案例评估,合同管理和项目交付之间进行协调和管理,具有完全的敏捷性。 DOMP利用AI功能以及基于海量数据的机器学习和平台内预先建立的集成来实现一致性,透明性,基于复杂算法的全面实时分析,以实现更好的控制。