首页> 外国专利> METHOD, APPARATUS AND COMPUTER PROGRAM FOR DETECTING DEVIATIONS IN DATA SOURCES

METHOD, APPARATUS AND COMPUTER PROGRAM FOR DETECTING DEVIATIONS IN DATA SOURCES

机译:用于检测数据源中的偏差的方法,装置和计算机程序

摘要

A method and apparatus is disclosed for detecting deviations in data repositories, each data repository comprising a plurality of data posts, each data post comprising a number of data attribute values. The method comprises identifying (102) comparable data post pairs, each pair comprising a first data post in a first data repository and a second data post in a second data repository, wherein the first data post in a comparable data post pair is comparable with the second data post of the same data post pair. The method further comprises comparing (104) data attribute values of the first data post with data attribute values of the second data post within a plurality of comparable data post pairs in order to determine quantified similarities between the data attribute values of the first data post and the data attribute values of the second data post of each of the plurality of comparable data post pair. The method further comprises calculating (106) statistical values of the quantified similarities by comparing comparable determined quantified similarities for each of the plurality of comparable data post pairs, and using (108) the calculated statistical values of the quantified similarities for detecting deviations for a first comparable data post pair.
机译:公开了一种用于检测数据存储库中的偏差的方法和装置,每个数据存储库包括多个数据记录,每个数据记录包括多个数据属性值。该方法包括识别(102)可比较的数据发布对,每个对包括第一数据存储库中的第一数据发布和第二数据存储库中的第二数据发布,其中可比较的数据发布对中的第一数据发布与可比较的数据发布对可比较。同一数据发布对中的第二个数据发布。该方法还包括在多个可比较的数据发布对中将第一数据发布的数据属性值与第二数据发布的数据属性值进行比较(104),以确定第一数据发布的数据属性值和第二数据发布的数据属性值之间的量化相似度。多个可比较数据发布对中的每个的第二数据发布的数据属性值。该方法还包括:通过比较多个可比较数据帖子对中的每一个的可比较确定的量化相似度,来计算(106)量化相似度的统计值;以及使用(108)所计算的量化相似度的统计值来检测第一相似度的偏差。可比较的数据发布对。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号