基于采样的Deep Web数据源选择方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

由于互联网信息的飞速发展，Web中蕴含了海量的信息供人们使用，其中Deep Web数据库是对用户不可见的，其中涵盖的信息只能通过特定的查询接口来查询获得。为了充分利用Deep Web中丰富的有价值的信息，以及提高对其查询的效率，Deep Web数据集成系统的建立成为了当前的研究热点。其中，Deep Web数据库的选择则是此集成系统中查询处理模块相当重要的环节。
　　本文针对Deep Web数据源的选择，从通过采样的办法获取数据源特征，评估采样质量，以及根据选取评价指标计算数据源的总体得分对数据源进行排序、选择，这三个方面进行重点研究。
　　第一，本文在基于采样的随机漫步采样方法的基础上，针对对于关键字属性研究的缺失，通过分析采样过程中属性分类的问题，提出一种引入关键字属性并对其进行属性分类的扩展方法，同时，进一步考虑到已有研究缺乏对分类属性中含树形特征的属性的研究，从而提出树形分类属性的概念并给出了在采样过程中的处理方法。
　　第二，在原始随机漫步采样方法的基础上，通过保存采样路径，使随后产生的将要进行采样的路径与已有路径进行扫描比较，据此提出一种避免拥有部分相同路径的属性值产生重复提交查询的随机漫步方法的改进算法，以此对数据源进行采样，从而进一步提高采样效率。
　　第三，在采样评价体系中考虑了样本与数据源的信息内容的一致性，将文本信息内容的文本相似度计算方法引入采样质量评价体系中来，结合样本集与数据源比值法对样本偏差的衡量，进一步完善了对采样质量的评价。
　　第四，在采样结果所获样本集的基础上，对数据源质量进行评价，给出权威性、领域相关性、准确性、冗余性、时效性这五个评价指标对数据源质量进行评估，并给出五项指标的量化方法及公式。并在准确性指标计算中，对语义相似度的计算做了相应的改进，将汉明距离的相似度计算方法加入了语义相似度的元素。通过对五个指标的综合评价，得到数据源的总体得分，按总分进行排序选择。
　　实验表明，本文提出的方法，对以往方法存在的问题有了很大的改进，并进一步在采样质量和效率上都有很好的效果和提高，对样本集的质量评估更可靠有效。

著录项

作者
秦争艳;
展开▼
作者单位

上海师范大学;

展开▼
授予单位上海师范大学;
学科计算机应用技术
授予学位硕士
导师姓名陆黎明;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP311.131;
关键词
Deep Web数据库; 质量评估; 相似度; 排序选择; 集成系统; 随机漫步采样;

相似文献

中文文献
外文文献
专利

1. 基于动态学习的Deep Web数据源选择算法 [J] . 段青玲 ,杨仁刚 ,华松青 . 郑州大学学报（理学版） . 2010,第001期
2. 面向Deep Web本地化数据集成的数据源两层选择模型 [J] . 鲜学丰 ,崔志明 ,方立刚 . 计算机工程 . 2017,第003期
3. Deep Web集成系统中同类主题数据源选择方法 [J] . 王成良 ,桑银邦 . 计算机应用研究 . 2011,第009期
4. 基于KNN的Deep Web数据源分类研究 [J] . 牟晓伟 ,刘寒梅 . 信息通信 . 2015,第001期
5. 基于Dirichlet过程的Deep Web数据源聚类方法 [J] . 黄进 ,何中市 ,李英豪 . 微型机与应用 . 2015,第007期
6. 基于MapReduce虚拟机的Deep Web数据源发现方法 [C] . 辛洁 ,崔志明 ,赵朋朋 . 《通信学报》学术论坛暨2011云计算学术会议 . 2011
7. Deep Web集成系统中同类主题数据源选择方法研究 [A] . 桑银邦 . 2011

基于采样的Deep Web数据源选择方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅