技术领域
本发明涉及开放数据技术领域,具体地说,涉及一种开放数据的质量评估方法及系统。
背景技术
开放数据是一种要求一定的数据可以被任何人自由获取,没有来自版权、专利或其他机制限制。
在大数据时代,网络已经积累了大量且丰富的数据,网络数据为网络的广泛发展和深层次研究提供坚实的多维度的数据基础,″数据″俨然己成为网络研究的量化工具。但是由于网络是一个开放式的数据,在人们在网络中浏览信息时,无法对数据的信息环境进行多维度评估,从而使人们经常浏览到一些低质量信息,知识获取的效率非常低。
发明内容
本发明的目的在于提供一种开放数据的质量评估方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供一种开放数据的质量评估方法,包括如下方法步骤:
S1.1、定义开放数据质量:利用评估维度对网络的开放数据进行多维度定义;
S1.2、整理开放数据信息环境:对网络信息环境中的开放数据信息进行采集、汇总,并通过多维度的定义对汇总后的开放数据信息进行评估;
S1.3、权重计算:对评估后的开放数据信息进行相应维度的权重计算;
S1.4、评估循环:权重计算计算完成后,重复S1.2形成评估循环,使评估结果始终保持有效。
本发明目的之二在于,提供了一种开放数据的质量评估系统,包括上述中任意一项所述的开放数据的质量评估方法,包括网络开放数据评估平台,所述网络开放数据评估平台包括数据质量定义单元、数据信息环境整理单元、权重计算单元和评估循环单元;所述数据质量定义单元用于对网络的开放数据进行多维度定义;所述数据信息环境整理单元用于利用多维度定义对汇总后的开放数据信息进行评估;所述权重计算单元用于对评估后的开放数据信息进行相应维度的权重计算;所述评估循环单元用于重复利用多维度定义对汇总后的开放数据信息进行评估。
作为本技术方案的进一步改进,所述数据质量定义单元包括完整性定义模块、健康性定义模块、准确性定义模块和唯一性定义模块;所述完整性定义模块用于度量网络开放数据中的丢失以及不可用数据,并形成完整性定义维度;所述健康性定义模块用于度量网络开放数据的不良数据,并形成健康定义维度;所述准确性定义模块用于度量网络开放数据的准确性以及超期的网络数据,并形成准确性定义维度;所述唯一性定义模块用于度量重复数据以及属性重复的数据,并形成唯一性定义维度,从而利用多维度的定义实现对网络开放数据中信息的评估。
作为本技术方案的进一步改进,数据信息环境整理单元包括采集模块、汇总模块和评估模块;所述采集模块用于对网络的环境信息进行采集;所述汇总模块用于对采集模块采集的环境信息进行汇总,并将汇总的环境信息发生至评估模块,所述评估模块用于接收汇总模块汇总的环境信息,并利用完整性定义维度、健康定义维度、准确性定义维度和唯一性定义维度对汇总的环境信息进行质量评估。
作为本技术方案的进一步改进,所述权重计算单元包括模型建立模块和赋权模块;所述模型建立模块用于建立网络开放数据的评估模型;所述赋权模块用于对网络开放数据进行赋权。
作为本技术方案的进一步改进,所述模型建立模块采用TOPSIS理想点法建立评估模型,其建立方法如下:
S2.1、计算评估矩阵:设汇总模块模块汇总的环境信息有m个,数据质量定义单元定义的个数有n个,第i个环境信息在第j个定义上的值为x
S2.2、对定义矩阵标准化:对定义矩阵标准化,并取各评价指标的最大值max(x
作为本技术方案的进一步改进,所述赋权模块采用CRITIC赋权法,其赋权公式如下:
其中,P
作为本技术方案的进一步改进,所述赋权模块与模型建立模块利用矩阵归一化形成决策矩阵,其矩阵公式如下:
其中,z为矩阵归一化后的结果。
作为本技术方案的进一步改进,所述决策矩阵还包括加权矩阵,其矩阵公式如下:
其中,r
作为本技术方案的进一步改进,所述矩阵归一化后的结果计算公式如下:
与现有技术相比,本发明的有益效果:本发明中通过数据信息环境整理单元对网络信息环境中的开放数据信息进行采集、汇总,并通过多维度的定义对汇总后的开放数据信息进行评估,另外利用权重计算单元对开放数据信息进行加权处理,权重越高开放数据信息质量越高,反之,质量越低,从而降低了浏览低质量信息的可能性,提高知识获取的效率。
附图说明
图1为本发明的整体流程图;
图2为本发明的整体模块框图;
图3为本发明的数据质量定义单元模块框图;
图4为本发明的数据信息环境整理单元模块框图;
图5为本发明的权重计算单元模块框图。
100、网络开放数据评估平台;
110、数据质量定义单元;111、完整性定义模块;112、健康性定义模块;113、准确性定义模块;114、唯一性定义模块;
120、数据信息环境整理单元;121、采集模块;122、汇总模块;123、评估模块;
130、权重计算单元;131、模型建立模块;132、赋权模块;
140、评估循环单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图5,本发明提供一种技术方案:
本发明提供一种开放数据的质量评估方法及系统,包括如下方法步骤:
S1.1、定义开放数据质量:利用评估维度对网络的开放数据进行多维度定义;
S1.2、整理开放数据信息环境:对网络信息环境中的开放数据信息进行采集、汇总,并通过多维度的定义对汇总后的开放数据信息进行评估;
S1.3、权重计算:对评估后的开放数据信息进行相应维度的权重计算;
S1.4、评估循环:权重计算计算完成后,重复S1.2形成评估循环,使评估结果始终保持有效。
本实施例目的之二在于,提供了一种开放数据的质量评估系统,包括上述中任意一项的开放数据的质量评估方法,包括网络开放数据评估平台100,网络开放数据评估平台100包括数据质量定义单元110、数据信息环境整理单元120、权重计算单元130和评估循环单元140;数据质量定义单元110用于对网络的开放数据进行多维度定义;数据信息环境整理单元120用于利用多维度定义对汇总后的开放数据信息进行评估;权重计算单元130用于对评估后的开放数据信息进行相应维度的权重计算;评估循环单元140用于重复利用多维度定义对汇总后的开放数据信息进行评估。
进一步的,数据质量定义单元110包括完整性定义模块111、健康性定义模块112、准确性定义模块113和唯一性定义模块114;完整性定义模块111用于度量网络开放数据中的丢失以及不可用数据,并形成完整性定义维度;健康性定义模块112用于度量网络开放数据的不良数据,并形成健康定义维度;准确性定义模块113用于度量网络开放数据的准确性以及超期的网络数据,并形成准确性定义维度;唯一性定义模块114用于度量重复数据以及属性重复的数据,并形成唯一性定义维度。
具体的,数据信息环境整理单元120包括采集模块121、汇总模块122和评估模块123;采集模块121用于对网络的环境信息进行采集;汇总模块122用于对采集模块121采集的环境信息进行汇总,并将汇总的环境信息发生至评估模块123,评估模块123用于接收汇总模块122汇总的环境信息,并利用完整性定义维度、健康定义维度、准确性定义维度和唯一性定义维度对汇总的环境信息进行质量评估。
此外,权重计算单元130包括模型建立模块131和赋权模块132;模型建立模块131用于建立网络开放数据的评估模型;赋权模块132用于对网络开放数据进行赋权。
除此之外,模型建立模块131采用TOPSIS理想点法建立评估模型,其建立方法如下:
S2.1、计算评估矩阵:设汇总模块122模块汇总的环境信息有m个,数据质量定义单元110定义的个数有n个,第i个环境信息在第j个定义上的值为x
S2.2、对定义矩阵标准化:对定义矩阵标准化,并取各评价指标的最大值max(x
进一步的,赋权模块132采用CRITIC赋权法,其赋权公式如下:
其中,P
假设定义变异性用标准差σ
其中,j=1,2,…,i,P
此外,赋权模块132与模型建立模块131利用矩阵归一化形成决策矩阵,其矩阵公式如下:
其中,z为矩阵归一化后的结果。
除此之外,决策矩阵还包括加权矩阵,其矩阵公式如下:
其中,r
具体的,矩阵归一化后的结果计算公式如下:
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
机译: 一种用于制造芯片部件外部电极的金属粉末的质量评估方法,一种通过质量评估方法制备的用于芯片部件外部电极的金属粉末质量评估,一种使用金属粉末的金属浆料质量评估方法
机译: 一种使用氧化物半导体薄膜的质量评估方法,所述氧化物半导体薄膜的质量控制方法和所述质量评估方法的半导体制造设备。
机译: 数字时钟集成类型的空气质量测量装置,用于通过使用开放数据服务器呈现室内到室内空气质量比较分析