文摘
英文文摘
声明
第1章绪 论
1.1研究背景
1.1.1主题搜索引擎
1.1.2网页分块的提出
1.1.3网页分块研究现状
1.2研究意义
1.3本文主要工作
1.4论文组织结构
第2章主题搜索引擎与网页分块技术
2.1主题搜索引擎
2.1.1搜索引擎基本工作原理
2.1.2主题搜索引擎与通用搜索引擎的区别
2.1.3主题搜索引擎的关键技术
2.2网页分块
2.2.1网页的结构特征
2.2.2网页分块基本技术手段
2.2.3网页分块的应用
2.3网页分块应用在主题搜索中的主要作用
2.3.1链接预测
2.3.2隧道穿越
2.3.3网页消重
2.3.4索引容量
2.3.5检索质量
2.4本章小结
第3章CTVPS网页分块算法及主题相关块提取
3.1网页预处理
3.1.1网页标准化
3.1.2构建Dom树
3.2网页分块
3.2.1标签信息
3.2.2视觉信息
3.2.3链接信息
3.2.4分块算法描述
3.3主题相关内容块提取
3.3.1主题描述
3.3.2向量空间模型
3.3.3主题相关块提取描述
3.4本章小结
第4章Search Smart系统的设计实现
4.1系统设计
4.1.1系统的设计思想
4.1.2系统的架构
4.2系统实现准备工作
4.2.1开源项目选择
4.2.2开源搜索引擎Nutch
4.3 Search Smart的实现
4.3.1网页抓取模块
4.3.2网页解析及网页分块模块
4.3.3主题相关块提取模块
4.3.4索引模块
4.3.5检索模块
4.4本章小结
第5章Search Smart系统测试和结果分析
5.1系统测试
5.1.1测试环境
5.1.2测试的准备工作
5.1.3主题网站索引库内容的建立
5.1.4使用Tomcat进行搜索测试
5.2结果分析
5.3 Search Smart的可能改进
5.4本章小结
第6章总结与展望
6.1本文总结
6.2工作展望
参考文献
致 谢
攻读学位期间参加的科研项目和成果