首页> 中文学位 >基于爬虫和文本聚类分析的网络舆情分析系统设计与实现
【6h】

基于爬虫和文本聚类分析的网络舆情分析系统设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 本文的主要工作及安排

第二章 系统需求分析

2.1 系统需求分析

2.2 系统功能需求

2.3 系统性能需求

2.4 系统其他需求

2.5 本章总结

第三章 系统设计

3.1 系统总体设计

3.2 用户兴趣模型设计

3.3 系统模块设计

3.4 数据库设计

3.5 本章小结

第四章 系统关键功能实现

4.1 网络舆情信息抓取功能实现

4.2 舆情热点信息挖掘功能实现

4.3 网络舆情聚类分析功能实现

4.4 本章小结

第五章 系统测试与分析

5.1 开发环境与界面设计

5.2 系统测试与分析

5.3 本章小结

第六章 总结与展望

6.1 总结

6.2 未来展望

致谢

参考文献

展开▼

摘要

在现代互联网技术快速发展的带动下,以万维网作为信息的核心载体给人们搜索信息、共享信息提供了丰富的数据源,但在网络资源中快速获取精准有效信息变得越来越难,而且信息的置信程度也难以保证。现有搜索引擎技术和产品,如Google、百度、HotBot等,在很大程度上满足了人们获取网络信息资源的需求。但是,如何面对不同的用户偏好、用户背景等,识别用户潜在的搜索意图,挖掘用户背后真正需要的信息,对搜索引擎系统设计的重要性毋庸置疑。
  本文在对已有搜索系统研究基础上,研究个性化搜索的应用,并开展了搜索系统在舆情分析中的应用研究。主要内容包括:阐述了个性化搜索系统中的用户兴趣模型、网络信息抓取、网页信息分析与挖掘、文本聚类分类等关键技术,并基于系统的功能需求分析,设计了个性化搜索系统的总体框架和各个模块,通过个性化搜索系统在网络舆情分析中的应用,对舆情分析的关键技术进行了研究,并给出了系统的性能测试和分析结果。本文工作主要体现在以下两个方面:
  1)通过整合网络爬虫、文本分类与聚类、及索引技术,设计了一种基于用户兴趣模型的舆情热点信息挖掘框架。该框架通过网络爬虫中的信息抓取、信息过滤与更新策略,获取网络中有效的信息;然后采用改进的文本分类与聚类技术,挖掘出网页中的舆情分布、来源等热点信息,并且与用户进行交互,通过用户的反馈,构建相应的用户兴趣模型库。该框架为基于用户的个性化搜索系统设计提供了良好的参考。
  2)针对传统K-Means聚类算法对文本初始化聚类中心较为敏感及容易陷入局部极小点的问题,提出了一种基于向量空间模型的K-Means改进聚类算法。该算法提高了文本聚类及分类的准确率,有效解决了传统 K-Means聚类算法在文本挖掘中的问题,并且也提高了文本挖掘的效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号