数据集成中基于语义的实体解析技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展，数据集成变得越来越重要，数据集成就是将来自多个不同的数据源的数据集成到一起，以便于以集成和统一的方式为用户提供更便捷的信息服务。在数据集成中非常关键的一步是实体解析，数据集成过程中经常出现多条记录指代同一个实体的情况，将这些记录找出来的过程就是实体解析。
　　为了提高实体解析的效率，有研究工作提出了ICAR性质，基于这些性质展开的实体解析可以减少记录对的匹配，但ICAR性质中的可被代表性在实际中要完全满足比较困难，且基于ICAR性质的解析算法中将指代同一个实体的相似记录全部都合并，这在实际应用中往往并不合理而且也很难应用。
　　为了提高实体解析的准确性，考虑到记录之间可能存在一定的归属关联关系、交互关联关系以及时间顺序等语义关联信息，这对解析的准确性会有很大的帮助，但是结合这些语义关联关系进行实体解析的研究工作还比较少，因此，本文针对基于多种语义关联的实体解析技术开展研究。
　　首先，为了更好的进行实体解析本文提出了介于ICAR性质中的可被代表性与不可被代表性之间的语义覆盖性的概念。利用这个性质在减少匹配记录对次数的同时，尽可能的让解析结果的表达更合理。基于覆盖性，提出了C-Swoosh算法和C-SNW算法。C-Swoosh算法在比较记录对的时候并没有考虑记录间的顺序，C-SNW算法将记录按照一定的Key值排序以后利用滑动窗口将相似的记录尽可能早的进行比较，从而尽早的将满足覆盖性的记录进行合并，最终达到减少记录间匹配次数的目标。
　　其次，利用归属关联关系、交互关联关系以及时间顺序关系等多种语义关联关系相结合的方法来提高实体解析的准确率。根据多种语义关联关系结合时间顺序关系通过不断迭代处理的方式来捕获实体随着时间发生演化的情况，从而在较大程度上提高了实体解析的精度。
　　最后，通过实验验证了本文所提算法确实获得较好的效果。

著录项

作者
张成远;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位硕士
导师姓名于戈;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
数据集成; 语义关联; 实体解析技术; ICAR性质;

相似文献

中文文献
外文文献
专利

1. 基于语义网技术的生物学数据集成研究 [J] . 魏韡 ,卜登立 ,周太平 . 井冈山大学学报 . 2009,第005期
2. 基于语义网技术的生物学数据集成研究 [J] . 魏韡 ,卜登立 ,周太平 . 井冈山学院学报：综合版 . 2009,第010期
3. 基于CWM的元数据集成中形式化推理技术的研究 [J] . 赵晓非 ,黄志球 . 计算机科学 . 2006,第012期
4. 基于卷积神经网络的语义分割技术及其在脑神经影像应用中的研究进展 [J] . 林岚 ,吴玉超 ,王婧璇 . 北京工业大学学报 . 2021,第001期
5. 基于语义分析在计算机技术文本分类中的应用研究 [J] . 杜隆胤 . 现代电子技术 . 2016,第005期
6. 基于语义的数据集成研究 [C] . . 中国电子学会电子系统工程分会第十五届信息化理论学术研讨会 . 2008
7. 基于语义网技术的数据集成和挖掘研究 [A] . 丁志劼 . 2013

数据集成中基于语义的实体解析技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅