首页> 中文期刊> 《数据挖掘》 >一种基于属性显著度的实体解析算法

一种基于属性显著度的实体解析算法

         

摘要

实体解析(ER)是数据集成和数据清洗的一个重要步骤。在领域数据清洗与集成中,实体中不同的属性通常能表现出不同的区分能力,计算并利用属性的区分能力能够提高记录相似度的精确度。目前实体解析的方法有采用基于字符串的记录相似度算法以及基于机器学习的算法等方法来计算记录相似度,缺少考虑不同属性的重要程度。因此本文利用SimRank和PageRank算法的思想并结合随机抽样得到的属性显著度提出了一种基于属性显著度的计算记录相似度算法。首先,构造一个加权的属性记录对二部图来表示属性与记录对之间的关系;其次,根据属性显著度结合图论相似度算法提出了基于属性显著度的计算记录相似度的迭代算法。最后,构造一个记录图来表示记录对之间的匹配概率(二部图中的权值 w(ri,rj)),并使用改进的随机游走算法估计记录对匹配的概率。再将记录对的匹配概率反馈给加权的属性记录对二部图,并对基于属性显著度的计算记录相似度算法中的权值w(ri,rj) 进行修正,直到收敛。利用房地产领域数据集进行了实验评估,结果表明,本文提出的基于属性显著度的实体解析算法与主流方法相比,具有较高的精确度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号