首页> 中文会议>2015年全国情报学博士生学术论坛 >数据集上基于Union-Find的传递闭包研究

数据集上基于Union-Find的传递闭包研究

摘要

探讨一种通过相关性和传递性对数据集进行分组的有效途径.利用分块思想,并在充分考虑相似重复记录分布的多样性,以及相似重复具有传递性的基础上,设计基于Union-Find的传递闭包算法,以综合多趟计算的结果,实现在数据集上分组.算法能有效地在数据集中计算出满足需求的分组,从而获得较完整的相似重复记录子集.没有对直接影响分组质量、包含错误和数据变体的属性值进行详细分析.提出的方法有助于解决实体解析中部分相似重复记录漏配的问题,且不受领域限制、扩展性较好.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号