文摘
英文文摘
声明
1绪论
1.1课题研究的背景和意义
1.2国内外研究现状
1.3本文的主要研究内容
2主题爬虫的背景知识
2.1主题爬虫分类
2.2查询意图提取
2.3 Web网页分析
2.4相关性计算
3基于概念相似背景图的爬虫策略
3.1形式概念分析
3.2概念相似度计算
3.3概念相似背景图构建
3.4爬行策略
4基于Dom-Tree结构的爬虫策略
4.1 Dom-Tree特征及其应用
4.2编辑距离及其应用
4.3基于网页层次的相似度计算
4.4基于网页分层的预测模型
5实验
5.1系统构建
5.2实验过程
5.3结果分析
6总结和展望
6.1总结
6.2主题爬虫展望
7参考文献
8作者在读期间科研成果简介
11致谢