首页> 中文学位 >Deep Web数据源的发现与聚类研究
【6h】

Deep Web数据源的发现与聚类研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1课题研究背景

1.1.1 Deep Web的概念

1.1.2 Deep Web的资源

1.2国内外研究现状

1.3课题研究内容

1.4论文组织结构

第二章背景知识

2.1 HTTP协议简介

2.1.1 HTTP请求

2.1.2 HTTP响应

2.2 HTML简介

2.2.1 HTML标签

2.2.2 HTML表单

2.3本章小结

第三章Web数据库的发现

3.1网络爬虫技术

3.1.1网络爬虫的原理

3.1.2网络爬虫的搜索策略

3.2 Deep Web爬虫

3.2.1爬虫的流程

3.2.2 HTTP响应的字符集

3.2.3超链接的抽取

3.3查询接口的识别

3.4本章小结

第四章查询接口模式的抽取与存储

4.1查询接口模式的定义

4.2查询接口模式的表示

4.3查询接口模式的抽取

4.3.1文档对象模型

4.3.2查询接口模式抽取的难点

4.3.3基于坐标的查询接口模式抽取

4.4查询接口模式的存储

4.4.1数据库的设计

4.4.2存储的实现

4.5本章小结

第五章Web数据库的聚类

5.1文本聚类算法

5.1.1基于划分的聚类

5.1.2基于层次的聚类

5.1.3基于后缀树的聚类

5.1.4基于频繁项集的聚类

5.2基于频繁项集的Web数据库聚类

5.2.1算法的基本思想

5.2.2文本的表示

5.2.3特征项的加权

5.2.4频繁项集的挖掘

5.2.5基于频繁项的聚类

5.3算法的优点

5.4本章小结

第六章实验结果与分析

6.1实验数据

6.2查询接口识别实验

6.3查询接口模式抽取实验

6.4 Web数据库聚类实验

第七章总结与展望

7.1工作总结

7.2工作展望

参考文献

致谢

研究成果及发表的学术论文

作者和导师简介

展开▼

摘要

互联网上的资源可以划分为Surface Web和Deep Web两部分。其中,Surface Web指能够被传统搜索引擎检索到的那部分资源,Deep Web指传统搜索引擎检索不到的那部分资源,通常指Web数据库包含的信息。
   调查表明,Deep Web蕴含的信息量是Surface Web的400至500倍。然而,由于Web数据库覆盖各个领域,并且分布在世界的各个角落,因此必须对其进行集成后才能有效地加以利用。因为Deep Web集成的是同一领域的Web数据库,所以在集成前需要发现Web数据库并将其按照所属领域分类。
   查询接口是Web数据库的唯一入口,因此可以通过查询接口来发现Web数据库。查询接口位于网页的表单之中,但并非所有的表单都是查询接口,因此需要从表单中识别出查询接口。基于前人的研究成果和对大量表单的观察,本文提出了7条启发式规则用以识别查询接口。实验结果表明,查询接口识别的F-measure值能达到0.98以上。
   Deep Web集成需要建立集成查询接口到各本地查询接口的映射关系。在集成前,需要从查询接口中抽取其模式信息。对于抽取过程中存在的6大难点,文中给出了相应的解决方法。实验结果表明,文中给出的方法抽取查询接口模式信息的准确度可达94%以上。
   同一领域的Web数据库所在网页的标题和关键词通常会共享一定的关键词。基于这个思想,本文提出了基于频繁项集的Web数据库聚类算法。该算法将共享一定关键词的网页所包含的Web数据库聚为一类,聚类结果的簇数等于频繁项集的个数,并且用频繁项集对应的关键词作为簇标签。实验结果表明,该聚类算法的F-measure值能达到0.91以上。
  

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号