首页> 中文学位 >数据集成中基于语义的实体解析技术的研究
【6h】

数据集成中基于语义的实体解析技术的研究

代理获取

目录

声明

摘要

第1章 引言

1.1 课题研究的背景和来源

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 本文的组织结构

第2章 相关工作

2.1 相关概念

2.2 实体解析相关算法

2.2.1 相似度计算

2.2.2 提高实体解析效率的算法

2.2.3 数据空间的实体解析

2.2.4 其他类别的实体解析

2.3 本章小结

第3章 基于覆盖性的实体解析

3.1 相似性判断及合并

3.1.1 相似函数

3.1.2 合并函数

3.2 ICAR性质

3.3 覆盖性

3.4 C-Swoosh算法

3.5 C-SNW算法

3.6 本章小结

第4章 基于多种语义关联的实体解析

4.1 语义关联

4.1.1 自下而上的迭代处理算法

4.1.2 自下而上的迭代处理算法

4.2 时间顺序语义

4.3 本章小结

第5章 性能实验与评价分析

5.1 实验环境

5.2 实验数据集及评测的标准

5.3 测试结果

5.4 本章小结

第6章 总结与结论

6.1 本文的主要贡献与结论

6.2 下一步工作

参考文献

致谢

攻硕期间科研及发表论文情况

展开▼

摘要

随着互联网的发展,数据集成变得越来越重要,数据集成就是将来自多个不同的数据源的数据集成到一起,以便于以集成和统一的方式为用户提供更便捷的信息服务。在数据集成中非常关键的一步是实体解析,数据集成过程中经常出现多条记录指代同一个实体的情况,将这些记录找出来的过程就是实体解析。
  为了提高实体解析的效率,有研究工作提出了ICAR性质,基于这些性质展开的实体解析可以减少记录对的匹配,但ICAR性质中的可被代表性在实际中要完全满足比较困难,且基于ICAR性质的解析算法中将指代同一个实体的相似记录全部都合并,这在实际应用中往往并不合理而且也很难应用。
  为了提高实体解析的准确性,考虑到记录之间可能存在一定的归属关联关系、交互关联关系以及时间顺序等语义关联信息,这对解析的准确性会有很大的帮助,但是结合这些语义关联关系进行实体解析的研究工作还比较少,因此,本文针对基于多种语义关联的实体解析技术开展研究。
  首先,为了更好的进行实体解析本文提出了介于ICAR性质中的可被代表性与不可被代表性之间的语义覆盖性的概念。利用这个性质在减少匹配记录对次数的同时,尽可能的让解析结果的表达更合理。基于覆盖性,提出了C-Swoosh算法和C-SNW算法。C-Swoosh算法在比较记录对的时候并没有考虑记录间的顺序,C-SNW算法将记录按照一定的Key值排序以后利用滑动窗口将相似的记录尽可能早的进行比较,从而尽早的将满足覆盖性的记录进行合并,最终达到减少记录间匹配次数的目标。
  其次,利用归属关联关系、交互关联关系以及时间顺序关系等多种语义关联关系相结合的方法来提高实体解析的准确率。根据多种语义关联关系结合时间顺序关系通过不断迭代处理的方式来捕获实体随着时间发生演化的情况,从而在较大程度上提高了实体解析的精度。
  最后,通过实验验证了本文所提算法确实获得较好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号