首页> 中文学位 >基于采样的Deep Web数据源选择方法研究
【6h】

基于采样的Deep Web数据源选择方法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景及意义

1.2 Deep Web数据集成系统的研究现状

1.3 本文研究内容

1.4 论文组织结构

第2章 Deep Web数据源选择的研究现状

2.1 引言

2.2 本文中相关知识介绍

2.3 Deep Web数据源选择现状分析

2.4 Deep Web数据源采样研究现状及分析

2.5 本章小结

第3章 Deep Web数据源的采样方法研究与改进

3.1 引言

3.2 采样方法中关键字属性的引入及分类属性的树形化

3.3随机漫步算法的改进

3.4 采样方法评价体系

3.5 本章小结

第4章 数据源的选择

4.1 引言

4.2 Deep Web数据源的评估

4.3 数据源排序选择

4.4 本章小结

第5章 实验与分析

5.1 实验数据集

5.2 采样实验

5.3 数据源排序选择实验

5.4 实验小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

声明

展开▼

摘要

由于互联网信息的飞速发展,Web中蕴含了海量的信息供人们使用,其中Deep Web数据库是对用户不可见的,其中涵盖的信息只能通过特定的查询接口来查询获得。为了充分利用Deep Web中丰富的有价值的信息,以及提高对其查询的效率,Deep Web数据集成系统的建立成为了当前的研究热点。其中,Deep Web数据库的选择则是此集成系统中查询处理模块相当重要的环节。
  本文针对Deep Web数据源的选择,从通过采样的办法获取数据源特征,评估采样质量,以及根据选取评价指标计算数据源的总体得分对数据源进行排序、选择,这三个方面进行重点研究。
  第一,本文在基于采样的随机漫步采样方法的基础上,针对对于关键字属性研究的缺失,通过分析采样过程中属性分类的问题,提出一种引入关键字属性并对其进行属性分类的扩展方法,同时,进一步考虑到已有研究缺乏对分类属性中含树形特征的属性的研究,从而提出树形分类属性的概念并给出了在采样过程中的处理方法。
  第二,在原始随机漫步采样方法的基础上,通过保存采样路径,使随后产生的将要进行采样的路径与已有路径进行扫描比较,据此提出一种避免拥有部分相同路径的属性值产生重复提交查询的随机漫步方法的改进算法,以此对数据源进行采样,从而进一步提高采样效率。
  第三,在采样评价体系中考虑了样本与数据源的信息内容的一致性,将文本信息内容的文本相似度计算方法引入采样质量评价体系中来,结合样本集与数据源比值法对样本偏差的衡量,进一步完善了对采样质量的评价。
  第四,在采样结果所获样本集的基础上,对数据源质量进行评价,给出权威性、领域相关性、准确性、冗余性、时效性这五个评价指标对数据源质量进行评估,并给出五项指标的量化方法及公式。并在准确性指标计算中,对语义相似度的计算做了相应的改进,将汉明距离的相似度计算方法加入了语义相似度的元素。通过对五个指标的综合评价,得到数据源的总体得分,按总分进行排序选择。
  实验表明,本文提出的方法,对以往方法存在的问题有了很大的改进,并进一步在采样质量和效率上都有很好的效果和提高,对样本集的质量评估更可靠有效。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号