首页> 中文会议>第六届中国计算机学会大数据学术会议 >面向数据集成的多真值发现算法

面向数据集成的多真值发现算法

摘要

大数据时代,大规模数据往往由多个数据源组成并服务于多个数据驱动型应用程序.由于数据源的可信度不同,不同数据源往往会产生数据冲突,使得难以判断哪些信息是真实的.近年来,真值发现方法通过从多个数据源中找到最符合现实的真值来解决冲突而成为研究热门.当前真值发现算通常假设实体某个属性只有一个真值,然而在现实中,实体具有多个真值的情况更为常见.针对多值实体,本文提出了一个多真值发现算法,该算法将多真值发现转化为一个最优化问题.根据对目标函数的求解选取置信度最高的多个值作为实体的真值.同时在计算描述值的置信度时,提出一种非对称的支持度计算方法,结合相似值的支持对其置信度进行修正.通过两个真实数据集上的实验表明本文算法的准确性优于现有的真值发现算法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号