文摘
英文文摘
1 序言
1.1 论文的背景
1.2 国内外研究现状
1.3 研究的目的及意义
1.4 本文的组织工作
2 主题爬虫的工作原理及关键技术
2.1 爬虫原理
2.1.1 通用网络爬虫的工作原理
2.1.1 主题爬虫的工作原理
2.2 主题相关度计算
2.2.1 向量空间模型
2.2.2 布尔模型
2.2.3 贝叶斯方法
2.3 中文分词简介
2.3.1 中文分词
2.3.2 常用的分词算法
2.3.3 常见的中文分词开源项目
2.4 主题向量的建立
2.5 本章小结
3 爬虫的爬行策略研究
3.1 传统网络爬虫的爬行策略
3.2 主题爬虫的爬行策略
3.2.1 基于内容的主题爬行策略
3.2.2 基于链接的主题爬虫爬行策略
3.2.3 基于分类器的主题爬行策略
3.3 本章小结
4 Hits算法及其改进
4.1 Hits算法的基本思想
4.2 Hits算法的过程
4.2.1 构造Web子图
4.2.2 计算权威值和中心值
4.3 Hits算法的优缺点
4.4 S-Hits算法
4.5 MT-Hits算法
4.6 本章小结
5 系统设计及实验
5.1 系统开发环境
5.2 系统开发的目标
5.3 系统设计
5.4 爬虫主要类介绍
5.5 系统界面
5.6 实验结果及分析
5.7 本章小结
总结与展望
参考文献
攻读硕士学位期间发表的论文
后记