文摘
英文文摘
声明
第1章绪论
1.1课题背景
1.2国内外研究现状
1.3本论文的主要工作
1.4论文的组织结构
第2章主题搜索相关理论和技术
2.1通用搜索引擎
2.1.1搜索引擎的分类
2.1.2搜索引擎的工作原理
2.1.3搜索引擎相关技术
2.2主题搜索引擎
2.2.1领域主题搜索引擎基本架构
2.2.2领域主题搜索引擎的关键技术
2.3本章小结
第3章主题搜索引擎关键实现技术研究
3.1领域知识库建立及更新技术
3.1.1领域主题词典的构建
3.1.2领域主题词典的动态更新
3.2领域主题识别技术
3.2.1 Web页面的主题特征
3.2.2向量空间模型介绍
3.2.3主题特征模型的建立
3.2.4页面信息模型的建立
3.2.5主题识别算法的选择
3.3本章小结
第4章主题网络爬行器的设计
4.1主题爬行器工作原理
4.2主题网络爬行器的搜索策略
4.2.1基于链接的搜索策略
4.2.2基于内容评价的搜索策略
4.2.3基于内容和链接的综合性搜索策略
4.3主题网络爬行器的设计与实现
4.3.1爬行器系统结构设计
4.3.2主题种子链接的初始化
4.3.3爬行器的搜索启发策略
4.3.4主题相关度的计算方法
4.3.5爬行器设计的其它问题
4.4本章小结
第5章原型系统实验与结果分析
5.1开源系统Nutch介绍
5.2原型系统体系结构
5.3实验平台与运行环境
5.4实验评价指标
5.5实验与结果分析
5.5.1系统实验领域定制
5.5.2实验结果与分析
5.5.3系统评价与总结
5.6本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢