声明
摘要
图目录
表目录
第1章 绪论
1.1 研究背景及目的
1.2 本文的主要工作
1.3 本文的组织结构
1.4 本章小结
第2章 国内外研究现状
2.1 网络爬虫
2.1.1 网络爬虫概述
2.1.2 网络爬虫原理
2.1.3 开源网络爬虫框架
2.2 文本分类
2.3 主题模型
2.3.1 主题模型概述
2.3.2 LDA
2.3.3 狄利克雷过程
2.4 本章小结
第3章 基于层次主题模型的网络新闻汇聚
3.1 技术框架
3.2 层次主题模型设计
3.3 多源网络新闻数据采集
3.3.1 网络爬虫框架
3.3.2 多源网络爬虫
3.3.3 基于统计的新闻网页正文抽取
3.4 基于层次主题模型的网络新闻分类
3.4.1 新闻网页分类概述
3.4.2 文本表示模型
3.4.3 并行新闻网页分类器
3.5 本章小结
第4章 基于在线层次狄利克雷过程的主题词筛选
4.1 主题词筛选概述
4.2 在线层次狄利克雷过程
4.2.1 层次狄利克雷过程
4.2.2 在线层次狄利克雷过程
4.3 主题词筛选算法
4.4 本章小结
第5章 实验结果及系统实现
5.1 新闻网页分类实验与结果
5.1.1 性能影响因素及评价方法
5.1.2 训练数据集的构建
5.1.3 分类结果及分析
5.2 主题词筛选实验与结果
5.3 系统实现
5.3.1 网络新闻数据采集功能实现
5.3.2 网络新闻主题跟踪功能实现
5.4 本章小结
第6章 总结与展望
6.1 总结
6.2 未来研究方向
参考文献
攻读硕士学位期间主要的研究成果
致谢
浙江大学;