技术领域
本发明涉及一种基于深度学习的检修意见自动分类方法及系统,属于电网检修领域。
背景技术
检修意见对检修单的实施具有指导作用,为了防止在检修前、检修中、检修后出现问题,各部门对检修都会提出指导性的意见,意见的增加给实施人员增加了工作量,能够自动识别检修意见中意见种类,并在实施人员阅读时分别标记显示具有重要的意义。
当前调度、安自、自动化等各部门在编写检修单意见时,不会对输入内容进行按句分类标记。实施人员在进行检修意见的阅读过程中,采用无差别阅读,不能直观的获取当前检修意见中的重点、次重点等内容。如果强行要求各部门在编写意见时对意见进行分类,将增加意见编写人员的工作量,同时增加了系统使用的复杂度,易用性将受影响;所以实现检修意见的自动分类势在必行。
发明内容
本发明提供了一种基于深度学习的检修意见自动分类方法及系统,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种基于深度学习的检修意见自动分类方法,包括,
将待分类的检修意见进行按句拆分,并将拆分后的句子进行分词;
根据分词结果,构建词向量模型,并将词向量模型和预设词列表库中的词关联;其中,词列表库基于电力专业词汇的释义构建;
将分词结果和关联后的词向量模型输入预先训练的分类模型,获得分类结果。
将待分类的检修意见进行按句拆分,若拆分后的句子长度不小于阈值,则将该句子进行分词。
训练分类模型的过程为,
从历史检修单中获取检修意见,将其进行按句拆分;
对拆分后的句子进行标记,构建样本语料;
根据电力专业词汇表,从网络抓取电力专业词汇的释义,构建扩充语料;
对样本预料和扩充语料中的句子进行分词;
统计分词获得的词语,构建词列表库;
根据分词结果构建词向量模型,并将词向量模型和词列表库中的词关联;
将样本语料中训练语料的分词结果、关联后的词向量模型输入分类模型,进行训练。
标记包括0、1、2、3、4和5,其中,0代表“注意”,1表示“前置操作”,2表示“后置操作”,3表示“过程操作”,4表示“描述信息”,5表示“普通用语。
对样本预料和扩充语料中的句子进行分词,并去除停用词。
分类模型采用BI_LSTM模型。
一种基于深度学习的检修意见自动分类系统,包括,
拆分分词模块:将待分类的检修意见进行按句拆分,并将拆分后的句子进行分词;
词向量模型模块:根据分词结果,构建词向量模型,并将词向量模型和预设词列表库中的词关联;其中,词列表库基于电力专业词汇的释义构建;
分类模块:将分词结果和关联后的词向量模型输入预先训练的分类模型,获得分类结果。
还包括分类模型训练模块,分类模型训练模块包括,
拆分模块:从历史检修单中获取检修意见,将其进行按句拆分;
样本语料构建模块:对拆分后的句子进行标记,构建样本语料;
扩充语料构建模块:根据电力专业词汇表,从网络抓取电力专业词汇的释义,构建扩充语料;
分词模块:对样本预料和扩充语料中的句子进行分词;
词列表库构建模块:统计分词获得的词语,构建词列表库;
模型关联模块:根据分词结果构建词向量模型,并将词向量模型和词列表库中的词关联;
训练模块:将样本语料中训练语料的分词结果、关联后的词向量模型输入分类模型,进行训练。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于深度学习的检修意见自动分类方法。
一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行基于深度学习的检修意见自动分类方法的指令。
本发明所达到的有益效果:本发明利用分类模型,实现检修意见的自动分类;同时本发明将检修意见的词向量模型和词列表库中的词关联,对词向量进行扩充,减少计算维度。
附图说明
图1为本发明方法的流程图;
图2为训练分类模型的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于深度学习的检修意见自动分类方法,包括以下步骤:
步骤1,将待分类的检修意见进行按句拆分,并将拆分后的句子进行分词。
拆分获得的句子中,有部分是可忽略的句子,这里以句子的长度作为标准,即若拆分后的句子长度不小于阈值,则表明该句子可进行后续的分词,否则忽略该句子;其中阈值一般为5。句子分词可调用现有jieba分词工具。
步骤2,根据分词结果,构建词向量模型,并将词向量模型和预设词列表库中的词关联;其中,词列表库基于电力专业词汇的释义构建,词向量模型可调用word2vec工具构建。
步骤3,将分词结果和关联后的词向量模型输入预先训练的分类模型,获得分类结果;其中,分类模型采用BI_LSTM模型。
如图2所示,训练分类模型的具体过程如下:
31)从历史检修单中获取检修意见,将其进行按句拆分;
抽取最近5年的检修单中各部门编写的检修意见,将每一项意见按句进行拆分,对于字数少于5个的句子自动忽略。
32)对拆分后的句子进行标记,构建样本语料;
将步骤31)中的句子进行标记,标记包括0、1、2、3、4和5,其中,0代表“注意”,1表示“前置操作”,2表示“后置操作”,3表示“过程操作”,4表示“描述信息”,5表示“普通用语。
如:“联网状态下**单线复电操作:500kV**单线复电操作前(线路合环前),退出**站220kV稳控装置A、B套 单回联网线运行方式 压板”被标记为1;
样本语料中包括训练预料和测试预料,比例为8:2,其中训练预料用于训练分类模型,测试预料用于分类模型测试。
33)根据电力专业词汇表,从网络抓取电力专业词汇的释义,构建扩充语料;
根据电力专业词汇表,使用爬虫技术从百度百科等上抓取对应词汇的专业释义页面的内容,并去除HTML标签、广告连接等与词汇释义无关的内容构成扩充语料;
如“电流互感器”从百科上获取的最终释义如下:
电流互感器 是依据电磁感应原理将一次侧大电流转换成二次侧小电流来测量的仪器。电流互感器是由闭合的铁心和绕组组成。它的一次侧绕组匝数很少,串在需要测量的电流的线路中。因此它经常有线路的全部电流流过,二次侧绕组匝数比较多,串接在测量仪表和保护回路中,电流互感器在工作时,它的二次侧回路始终是闭合的,因此测量仪表和保护回路串联线圈的阻抗很小,电流互感器的工作状态接近短路。电流互感器是把一次侧大电流转换成二次侧小电流来测量 ,二次侧不可开路。
34)调用jieba分词工具对样本预料和扩充语料中的句子进行分词,并去除停用词。
35)统计分词获得的词语,构建词列表库(word_repository),在表中建立关联标识spe_tag。
36)根据分词结果构建60维的词向量模型(vector_repository),并将词向量模型和词列表库中的词关联,即词向量模型中增加词列表库中的关联标识spe_tag。
37)将样本语料中训练语料的分词结果、关联后的词向量模型输入分类模型,进行训练。
具体过程如下:
1)将训练语料的分词结果、关联后的词向量模型,分批输入上文中的BI_LSTM模型,最终得到一个1*6维的数组,并且数组中每一维的值都在0到1之间,同时计算训练语料和测试语料分类正确的概率,并缓存当前的模型;
2)重复进行1)中操作,当训练和测试语料的正确率趋于稳定时,说明随着模型训练批次增加分类识别正确率不会随之而增加,此时保存当前模型,即训练结束。
上述方法利用分类模型,实现检修意见的自动分类;同时该方法将检修意见的词向量模型和词列表库中的词关联,对词向量进行扩充,减少计算维度。
一种基于深度学习的检修意见自动分类系统,包括,
拆分分词模块:将待分类的检修意见进行按句拆分,并将拆分后的句子进行分词;
词向量模型模块:根据分词结果,构建词向量模型,并将词向量模型和预设词列表库中的词关联;其中,词列表库基于电力专业词汇的释义构建;
分类模块:将分词结果和关联后的词向量模型输入预先训练的分类模型,获得分类结果。
分类模型训练模块包括,
拆分模块:从历史检修单中获取检修意见,将其进行按句拆分;
样本语料构建模块:对拆分后的句子进行标记,构建样本语料;
扩充语料构建模块:根据电力专业词汇表,从网络抓取电力专业词汇的释义,构建扩充语料;
分词模块:对样本预料和扩充语料中的句子进行分词;
词列表库构建模块:统计分词获得的词语,构建词列表库;
模型关联模块:根据分词结果构建词向量模型,并将词向量模型和词列表库中的词关联;
训练模块:将样本语料中训练语料的分词结果、关联后的词向量模型输入分类模型,进行训练。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于深度学习的检修意见自动分类方法。
一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行基于深度学习的检修意见自动分类方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
机译: 一种基于Web的方法和系统,用于使用户能够从其他用户那里获取意见并向其他用户提供意见。
机译: 基于声音的自动任务分类方法,自动呼叫分类方法和自动任务分类系统
机译: 基于深度学习的血管分类方法及其系统