文摘
英文文摘
声明
第一章绪论
1.1课题研究背景
1.1.1 Deep Web的概念
1.1.2 Deep Web的资源
1.2国内外研究现状
1.3课题研究内容
1.4论文组织结构
第二章背景知识
2.1 HTTP协议简介
2.1.1 HTTP请求
2.1.2 HTTP响应
2.2 HTML简介
2.2.1 HTML标签
2.2.2 HTML表单
2.3本章小结
第三章Web数据库的发现
3.1网络爬虫技术
3.1.1网络爬虫的原理
3.1.2网络爬虫的搜索策略
3.2 Deep Web爬虫
3.2.1爬虫的流程
3.2.2 HTTP响应的字符集
3.2.3超链接的抽取
3.3查询接口的识别
3.4本章小结
第四章查询接口模式的抽取与存储
4.1查询接口模式的定义
4.2查询接口模式的表示
4.3查询接口模式的抽取
4.3.1文档对象模型
4.3.2查询接口模式抽取的难点
4.3.3基于坐标的查询接口模式抽取
4.4查询接口模式的存储
4.4.1数据库的设计
4.4.2存储的实现
4.5本章小结
第五章Web数据库的聚类
5.1文本聚类算法
5.1.1基于划分的聚类
5.1.2基于层次的聚类
5.1.3基于后缀树的聚类
5.1.4基于频繁项集的聚类
5.2基于频繁项集的Web数据库聚类
5.2.1算法的基本思想
5.2.2文本的表示
5.2.3特征项的加权
5.2.4频繁项集的挖掘
5.2.5基于频繁项的聚类
5.3算法的优点
5.4本章小结
第六章实验结果与分析
6.1实验数据
6.2查询接口识别实验
6.3查询接口模式抽取实验
6.4 Web数据库聚类实验
第七章总结与展望
7.1工作总结
7.2工作展望
参考文献
致谢
研究成果及发表的学术论文
作者和导师简介