首页> 中国专利> 一种互联网数据质量评估方法及系统

一种互联网数据质量评估方法及系统

摘要

本发明涉及互联网大数据领域,具体涉及一种互联网数据质量评估方法及系统,结合概率论与数理统计专业知识,利用科学的统计推断方法,通过设计合理的模拟数据与真实数据作比较,给出适用于大规模互联网数据质量评估方法,可根据不同的数据、不同的业务需求做到动态可调整,实现完善的抽检评估系统,便于互联网数据质量管控人员高效快速的进行数据质量评估,质量评估系统易于操作使用及系统集成,从工程上提升互联网数据质量评估的效率,进一步降低了互联网数据质量评估工作的成本。

著录项

  • 公开/公告号CN113256135A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 西安麦仓数据服务有限公司;

    申请/专利号CN202110615173.4

  • 发明设计人 荆姝娟;张贝贝;

    申请日2021-06-02

  • 分类号G06Q10/06(20120101);G06F30/20(20200101);

  • 代理机构61273 陕西天秦知一专利代理事务所(普通合伙);

  • 代理人刘树涛

  • 地址 710006 陕西省西安市汇新路以东曲江国际金融中心1幢1单元12层11206号

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本发明涉及互联网大数据领域,具体涉及一种互联网数据质量评估方法及系统。

背景技术

随着互联网的普及,企业正在大规模的向互联网经营转型,大量的企业经营信息通过互联网发布,如企业收购信息、投资信息、土建信息、房屋交易信息、股权转让信息以及重大项目信息等,对于税务机关来说,企业是涉税的主体,在互联网中通过分析挖掘企业涉税数据,可以为税源管理带来更多有价值的信息。

在面对海量的互联网数据,人工检查工作强度大,人员成本高,同时人工检查难免存在误判的情况,现有的评估方法无法准确的评估互联网数据的质量,无法科学有效的给出数据质量评估值的置信区间并且无法应对灵活多变的业务需求场景。

发明内容

有鉴于此,本发明提出了一种互联网数据质量评估方法及系统,便于互联网数据质量管控人员高效快速的进行数据质量评估。

为了实现上述目的,本发明采用的技术方案如下:

所述方法包括:

S1定义互联网数据集的准确率为P;

S2利用抽样方式,在数据中抽取数据样本n,所述数据样本准确率为P′;

S3数据建模,推导互联网数据集的准确率P、数据样本n与数据样本准确率P′的可信程度关系;

S4量化评估P与P′之间的差异,即样本准确率P′可准确表示互联网数据集的准确率P;

S5实验验证数据建模在互联网数据质量评估问题上的有效性。

进一步地,在互联网数据集的准确率P在90%~100%的可信程度下,选择样本量最小的抽样方式,样本量是大于1的整数。

进一步地,所述样本量可以选择固定量或按照实际数据集设置固定比例。

进一步地,所述互联网数据的正确性服从Bemoulli分布,则互联网数据集合准确率P的期望为

进一步地,根据棣莫弗的中心极限定理可知,在相同的抽样方式下,多次抽样计算的准确率P′服从正态分布,平均值u=p,进一步地,多次抽样互联网数据集准确率标准差的公式为

进一步地,通过变换函数将所述互联网数据集样本准确率p′分布转换为标准的正态分布。

进一步地,定义互联网数据集准确率差异为Δp取值范围0<Δ p<1,即可接受的检查准率为p-Δp到p+Δp的闭区间,定义η表示抽样检查结果落到可接受检查准确率区间内的可信概率,通过以下公式

正态分布概率分布函数为

正态分布标准化处理函数

可变为标准的正态分布N(0,1)概率分布函数

函数

进一步地,通过前提假设与建模推导可以得出,抽样数量n、原始数据集的准确率p与准确率差异Δp最终决定可信概率。

本发明一种互联网数据质量评估方法及系统所述系统包括:

S1数据导入同步,其中可以导入CSV、Excel、数据库SQL等文件,将原始待检查数据进行导入,同时可以进行系统集成提供数据导入同步功能,数据集可以一次同步或增量同步。

S2自动抽样,根据公式一:

S3数据检查,系统提供便捷的数据检查与原始数据对比的界面操作,简化互联网数据检查中的与原始数据对比工作,提升互联网数据质量检查效率。

S4数据质量评估根据数据检查结果,给出互联网数据质量评估结果,包括互联网数据集的准确率p,互联网数据集准确率差异Δp,评估可信概率η。

本发明提出的一种互联网数据质量评估方法及系统具有以下优点和有益效果:

结合概率论与数理统计专业知识,利用科学的统计推断方法,通过设计合理的模拟数据与真实数据作比较,给出适用于大规模互联网数据质量评估方法,可根据不同的数据、不同的业务需求做到动态可调整,实现完善的抽检评估系统,便于互联网数据质量管控人员高效快速的进行数据质量评估,质量评估系统易于操作使用及系统集成,从工程上提升互联网数据质量评估的效率,进一步降低了互联网数据质量评估工作的成本。

根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本发明的原理。

图1为本发明一种互联网数据质量评估方法的流程图;

图2为数据质量评估系统框图;

图3为实验一,原始数据集数量是一万的实验,模拟和近似的功效水平与样本数量双侧检验图;

图4为实验一,原始数据集数量是十万的实验,模拟和近似的功效水平与样本数量双侧检验图;

图5为实验二,原始数据集数量是一万的实验,模拟和近似的功效水平与样本数量双侧检验图;

图6为实验二,原始数据集数量是十万的实验,模拟和近似的功效水平与样本数量双侧检验图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,一种互联网数据质量评估方法包括:

S1定义互联网数据集的准确率为P;

S2利用抽样方式,在数据中抽取数据样本n,所述数据样本准确率为P′;

S3数据建模,推导互联网数据集的准确率P、数据样本n与数据样本准确率P′可信程度的关系;

S4量化评估P与P′之间的差异,即样本准确率P′可准确表示互联网数据集的准确率P;

S5实验验证数据建模在互联网数据质量评估问题上的有效性。

优选地,在互联网数据集的准确率P在90%~100%的可信程度下,选择样本量最小的抽样方式,样本量是大于1的整数。

优选地,所述样本量可以选择固定量或按照实际数据集设置固定比例。

优选地,所述互联网数据的正确性服从Bernoulli分布,则互联网数据集合准确率P的期望为

优选地,根据棣莫弗的中心极限定理可知,在相同的抽样方式下,多次抽样计算的准确率P′服从正态分布,平均值u=p,进一步地,多次抽样互联网数据集准确率标准差的公式为

进一步地,通过变换函数将所述互联网数据集样本准确率p′分布转换为标准的正态分布。

进一步地,定义互联网数据集准确率差异为Δp取值范围0<Δ p<1,即可接受的检查准率为p-Δp到p+Δp的闭区间,定义η表示抽样检查结果落到可接受检查准确率区间内的可信概率,通过以下公式

正态分布概率分布函数为

正态分布标准化处理函数

可变为标准的正态分布N(0,1)概率分布函数

函数

优选地,通过前提假设与建模推导可以得出,抽样数量n、原始数据集的准确率p与准确率差异Δp最终决定可信概率。

如图2所示,一种互联网数据质量评估系统包括:

S1数据导入同步,其中可以导入CSV、Excel、数据库SQL等文件,将原始待检查数据进行导入,同时可以进行系统集成提供数据导入同步功能,数据集可以一次同步或增量同步。

S2自动抽样,根据公式一:

S3数据检查,系统提供便捷的数据检查与原始数据对比的界面操作,简化互联网数据检查中的与原始数据对比工作,提升互联网数据质量检查效率。

S4数据质量评估根据数据检查结果,给出互联网数据质量评估结果,包括互联网数据集的准确率p,互联网数据集准确率差异Δp,评估可信概率η。

通过实验数据证明互联网数据质量评估方法对互联网数据质量评估的有效性,可以针对不同的数据集合,原始互联网数据集准确率不同,以及允许的准确率误差范围与可信概率值,可以计算出所需要的最低抽样样本量;此方法可以在基础要求之下,尽可能少的进行样本抽样,从而减少大规模互联网数据质量评估的工作量及其成本。

为了验证评估方法准确性,以下通过模拟实验生成测试数据,本实验分别生成总样本量级为1万、10万的数据,根据Bernoulli分布的标准差为

计算得出的可信概率记作理论可信概率,通过实验得出的可信概率记作实验可信概率,通过上述生成的实验数据,根据不同的抽样样本量n进行简单随机抽样1000次,求出实验值,通过对比实验值与理论值的差异来验证模型的有效性。

实验一:Δp=0.03

(1)原始数据集数量是一万的实验

(2)原始数据集数量是十万的实验

实验二:Δp=0.05

(1)原始数据集数量是一万的实验

(2)原始数据集数量是十万的实验

通过观察实验数据可知:

1.模型得出的理论可信概率与实际的实验可信概率差异较小。

2.实验中原始数据集合的大小对实验结果无影响。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现,以上所描述的实施例仅仅是示意性的,例如,附图中的方法流程图和系统框图显示了根据本发明的系统、方法和计算机程序产品可实现的数据质检计算架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,这可根据实际数据情况而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在本公开中表示类似项,因此,一旦某一项在本公开中被定义,则在随后的内容中不需要对其进行进一步定义和解释。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号