法律状态公告日
法律状态信息
法律状态
2019-01-22
授权
授权
2018-04-03
实质审查的生效 IPC(主分类):G06F17/30 申请日:20171109
实质审查的生效
2018-03-09
公开
公开
技术领域
本发明涉及特种设备检测技术领域,特别是一种基于编辑距离算法的特种设备故障分析方法及系统。
背景技术
现有的特种设备的检验报告,一般是通过工作人员在现场对特种设备进行检验,对检验的数据进行采集。其中,特种设备检验原始记录中包含有检验项目数据,该检验项目数据中存在一“不合格描述”的字段,该不合格描述的字段均为检验员自己手工填入,且填入的数据没有规则性;即不同的检验员填入的描述会不同,但是该描述中一些关键字都会存在。由于检验员填入的数据没有规则性,这样要想知道特种设备故障的情况,要从检验报告中去检查每个记录的“不合格描述”的字段的内容,这样不仅不直观,而且故障分析效率低。
发明内容
本发明要解决的技术问题之一,本发明的目的是提供一种基于编辑距离算法的特种设备故障分析方法;能对特种设备检验原始记录的检验项目数据的无规则不合格描述进行质量分析,从而能直观地得知特种设备故障情况。
本发明的技术问题之一采用以下方案实现:一种基于编辑距离算法的特种设备故障分析方法,所述方法具体为:
步骤S1、通过读取特种设备的检验项目数据中xml文件,获得xml文件中的特种设备不合格描述,所述不合格描述为特种设备的项目不合格的记录;
步骤S2、通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,获得各个不合格描述中相似度的值,所述相似度的值为0~100,100为完全相似,0为完全不相似;
步骤S3、根据聚类归集结果提取出相似度值大于70的为近似数据,并将近似数据进行分组,
步骤S4、建立一分词库,将分组后的近似数据与所述分词库中的分词进行匹配筛选,然后将分组后的近似数据以图形的方式进行展示,从而实现特种设备故障分析。
进一步的,所述分词库中包括有多个的分词,所述分词包括未提供年度自行检查记录分词、现场未提供电梯安全管理人员证分词、无有资质的维保单位配合分词、未见使用登记证分词、未提供有效的电梯维修保养合同分词、以及未提供限速器校验报告分词。
进一步的,所述步骤S1之前还包括:步骤S10:抽取特种设备检验原始记录的检验项目数据,该检验项目数据填入在excel表格中,其中检验项目数据中的“不合格描述”的字段均为检验员自己手工填入,且填入的数据没有规则性;然后将excel表格中的检验项目数据抽取到一特种设备检验平台中形成一xml文件。
进一步的,所述步骤S2进一步具体为:通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,将不合格描述进行聚类归集到一字段表中,并获得各个不合格描述中相似度的值。
本发明要解决的技术问题之二,本发明的目的是提供一种基于编辑距离算法的特种设备故障分析系统,能对特种设备检验原始记录的检验项目数据的无规则不合格描述进行质量分析,从而能直观地得知特种设备故障情况。
本发明的技术问题之二采用以下方案实现:一种基于编辑距离算法的特种设备故障分析系统,所述系统包括获取模块、编辑距离算法模块、分组模块以及图形展示模块;
所述获取模块,用于通过读取特种设备的检验项目数据中xml文件,获得xml文件中的特种设备不合格描述,所述不合格描述为特种设备的项目不合格的记录;
所述编辑距离算法模块,用于通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,获得各个不合格描述中相似度的值,所述相似度的值为0~100,100为完全相似,0为完全不相似;
所述分组模块,用于根据聚类归集结果提取出相似度值大于70的为近似数据,并将近似数据进行分组,
所述图形展示模块,用于建立一分词库,将分组后的近似数据与所述分词库中的分词进行匹配筛选,然后将分组后的近似数据以图形的方式进行展示,从而实现特种设备故障分析。
进一步的,所述分词库中包括有多个的分词,所述分词包括未提供年度自行检查记录分词、现场未提供电梯安全管理人员证分词、无有资质的维保单位配合分词、未见使用登记证分词、未提供有效的电梯维修保养合同分词、以及未提供限速器校验报告分词。
进一步的,所述系统还包括:检验项目数据填入模块,所述检验项目数据填入模块,用于抽取特种设备检验原始记录的检验项目数据,该检验项目数据填入在excel表格中,其中检验项目数据中的“不合格描述”的字段均为检验员自己手工填入,且填入的数据没有规则性;然后将excel表格中的检验项目数据抽取到一特种设备检验平台中形成一xml文件。
进一步的,所述步骤编辑距离算法模块进一步具体为:通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,将不合格描述进行聚类归集到一字段表中,并获得各个不合格描述中相似度的值。
本发明的有益效果在于:本发明通过读取xml文件中的特种设备不合格描述,通过编辑距离算法对不合格描述中的相似描述进行聚类归集,获取聚类归集的相似度;根据聚类归集结果提炼出分析因子大于70的为近似数据,并默认近似数据通过预设分词库以图形的方式展示出来,最后达到对无规则不合格描述进行质量分析的目的,从而能直观地得知特种设备故障情况,提高了特种设备故障分析的效率。
附图说明
图1是本发明的方法流程示意图。
图2是本发明一实施例中采集到的特种设备检验原始记录的结构示意图。
图3是本发明一实施例中检验项目数据抽取到一特种设备检验平台的结构示意图。
图4是本发明的一实施例中不合格描述进行分类归集到一TB_ANAS_JDANASITEMALL表中的结构示意图。
图5是本发明的一实施例中不合格描述数据被归类整理后的结构示意图。
图6是本发明的一实施例中通过统计因子数据分词库划分,进一步归类汇总统计数据后的结构示意图。
图7是本发明的一实施例中分组后的近似数据以图形展示的结构示意图。
图8是本发明的一实施例中图7中图形展示进入下一级的统计界面结构示意图。
图9是本发明的系统的结构示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
请参阅图1所示,本发明的一种基于编辑距离算法的特种设备故障分析方法,所述方法具体为:
步骤S1、通过读取特种设备的检验项目数据中xml文件,获得xml文件中的特种设备不合格描述,所述不合格描述为特种设备的项目不合格的记录;
步骤S2、通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,获得各个不合格描述中相似度的值,所述相似度的值为0~100,100为完全相似,0为完全不相似;
步骤S3、根据聚类归集结果提取出相似度值大于70的为近似数据,并将近似数据进行分组,
步骤S4、建立一分词库,将分组后的近似数据与所述分词库中的分词进行匹配筛选,然后将分组后的近似数据以图形的方式进行展示,从而实现特种设备故障分析;其中,所述分词库中包括有多个的分词,所述分词包括未提供年度自行检查记录分词、现场未提供电梯安全管理人员证分词、无有资质的维保单位配合分词、未见使用登记证分词、未提供有效的电梯维修保养合同分词、以及未提供限速器校验报告分词。
下面结合一实施例对本发明进行进一步说明:
1、获取XML文件中的不合格描述
XML文件1
<nopassdescs><nopassdesc>
<no>1</no>
<name>1.1</name>
<desc>未提供年度自行检查记录</desc>
<reispvalue/>
<reispdatavalue/>
<reispresult/>
</nopassdesc>
<nopassdesc>
<no>2</no>
<name>1.1</name>
<desc>电梯安全管理人员证缺失</desc>
<reispvalue/>
<reispdatavalue/>
<reispresult/>
</nopassdesc>
<nopassdesc>
<no>3</no>
<name>1.1</name>
<desc>无有资质的维保单位配合</desc>
<reispvalue/>
<reispdatavalue/>
<reispresult/>
</nopassdesc>
</nopassdescs>
<no>4</no>
<name>1.1</name>
<desc>电梯无故障与事故记录</desc>
<reispvalue/>
<reispdatavalue/>
<reispresult/>
</nopassdesc>
</nopassdescs>
XML文件2
<nopassdescs><nopassdesc>
<no>1</no>
<name>1.1</name>
<desc>未提供年度自行检验记录</desc>
<reispvalue/>
<reispdatavalue/>
<reispresult/>
</nopassdesc>
<nopassdesc>
<no>2</no>
<name>1.1</name>
<desc>未提供电梯安全管理人员证</desc>
<reispvalue/>
<reispdatavalue/>
<reispresult/>
</nopassdesc>
</nopassdescs>
2、通过数据抽取得出数据集合
3、根据编辑距离检测算法计算数据相似度
其中,最大匹配列是自行定义,即序号1,序号2,序号3中的最大匹配列先进行定义为1,2,3然后序号4,序号5中的最大匹配列是与序号1,序号2,序号3中相似的进行对应匹配,即序号4和序号1是对应,序号5和序号2是对应。
4、不合格描述分组
5、分词字典分配
根据专家经验建立的分词库,通过分词库的字典表对初步分组的数据进行二次筛选,得到界面展示应用数据。
6、最终数据分析
以上例最终结果分析为不合格原因为未提供年度自行检查记录,现场未提供电梯安全管理人员证,无有资质的维保单位配合。不合格比例为2:2:1。
请参阅图2至图8所示,本发明的另一具体实施例进行详细说明:
所述步骤S1之前还包括:步骤S10:抽取特种设备检验原始记录的检验项目数据,该检验项目数据填入在excel表格中,其中检验项目数据中的“不合格描述”的字段均为检验员自己手工填入,且填入的数据没有规则性;然后将excel表格中的检验项目数据抽取到一特种设备检验平台中形成一xml文件。
所述步骤S2进一步具体为:通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,将不合格描述进行聚类归集到一字段表中,并获得各个不合格描述中相似度的值。
则另一具体实施例为:
1、请参阅图2和图3,首先抽取特种设备检验原始记录的检验项目数据,其中“不合格描述”均为检验员自己手工填入,数据没有规则性;通过数据抽取中间件将EXCEL数据抽取到一特种设备检验平台中形成一xml文件;
2、参阅图4,通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,将不合格描述进行聚类归集到一字段表TB_ANAS_JDANASITEMALL中,并获得各个不合格描述中相似度的值。其中OLD_ITEM_NAME,OLD_ITEM_NO是实际填写数据;ITEM_NAME,ITEM_NO是归类数据;
3、参阅图5,归类后进行分组可以看到数据被归类整理的数据。
4、参阅图6,通过统计因子数据字典划分,进一步归类汇总统计数据。其中END为空时表示数据可以进行二级划分。QUERY_ARR字段为根据字段划分的统计因子。用于统计TB_ANAS_JDANASITEMALL表中对应的项目。
5、界面通过图表控件进行展示。如果为蓝色部分的,可根据上表定义进行分析,其分析结果如图7所示;
参阅图8,点击缺失后,进入下级统计界面。
请参阅图9所示,本发明的一种基于编辑距离算法的特种设备故障分析系统,所述系统包括获取模块、编辑距离算法模块、分组模块以及图形展示模块;
所述获取模块,用于通过读取特种设备的检验项目数据中xml文件,获得xml文件中的特种设备不合格描述,所述不合格描述为特种设备的项目不合格的记录;
所述编辑距离算法模块,用于通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,获得各个不合格描述中相似度的值,所述相似度的值为0~100,100为完全相似,0为完全不相似;
所述分组模块,用于根据聚类归集结果提取出相似度值大于70的为近似数据,并将近似数据进行分组,
所述图形展示模块,用于建立一分词库,将分组后的近似数据与所述分词库中的分词进行匹配筛选,然后将分组后的近似数据以图形的方式进行展示,从而实现特种设备故障分析;所述分词库中包括有多个的分词,所述分词包括未提供年度自行检查记录分词、现场未提供电梯安全管理人员证分词、无有资质的维保单位配合分词、未见使用登记证分词、未提供有效的电梯维修保养合同分词、以及未提供限速器校验报告分词。
所述系统还包括:检验项目数据填入模块,所述检验项目数据填入模块,用于抽取特种设备检验原始记录的检验项目数据,该检验项目数据填入在excel表格中,其中检验项目数据中的“不合格描述”的字段均为检验员自己手工填入,且填入的数据没有规则性;然后将excel表格中的检验项目数据抽取到一特种设备检验平台中形成一xml文件。
所述步骤编辑距离算法模块进一步具体为:通过编辑距离算法edit_distance对不合格描述中的相似描述进行聚类归集,将不合格描述进行聚类归集到一字段表中,并获得各个不合格描述中相似度的值。
总之,本发明通过读取xml文件中的特种设备不合格描述,通过编辑距离算法对不合格描述中的相似描述进行聚类归集,获取聚类归集的相似度;根据聚类归集结果提炼出分析因子大于70的为近似数据,并默认近似数据通过预设分词库以图形的方式展示出来,最后达到对无规则不合格描述进行质量分析的目的,从而能直观地得知特种设备故障情况,提高了特种设备故障分析的效率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
机译: 一种基于全球分布的联邦数据仓库为武器,军事和特种设备的生命周期管理系统构建自动化集成信息环境的方法
机译: 用于基于微处理器的系统的测试仪-通过顺序算法隔离故障,该算法在发生第一次故障时停止程序的运行
机译: 偏好分析设备,一种分析方法,一种存储方式,一种信息提供系统,一种信息提供服务服务器,一种信息提供方法和一种偏好分析算法,特别是用于计算用户的当前权益和偏好