首页> 中文期刊> 《数据挖掘》 >半结构化实体解析算法

半结构化实体解析算法

         

摘要

实体解析是指识别一个或多个数据集中的相似或相同的记录。该文主要针对模式未知的半结构化数据,提出了一种基于字符串相似度的实体解析算法,将记录分成多个子字符串,采用编辑相似度计算子字符串之间关联度,在此基础上引入二分图最大加权匹配算法度量记录之间的关联度。由于该方法的计算时间复杂度比较高,对于Web大数据集实体解析来说,所需的时间成本较大,因此,该文还提出了一种基于集合相似度的实体解析算法,将记录看作所有属性值的集合,每个属性值作为集合中的元素,用一个标记数组来表示每个元素,根据这些标记数组为每个记录创建一个签名,找出与签名相匹配的其他相似记录。并且采用优化后的最大匹配算法来选出真正相似的记录。最后,该文采用实际数据集进行实验验证了上述方法比传统方法更有效。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号