基于爬虫和文本聚类分析的网络舆情分析系统设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在现代互联网技术快速发展的带动下，以万维网作为信息的核心载体给人们搜索信息、共享信息提供了丰富的数据源，但在网络资源中快速获取精准有效信息变得越来越难，而且信息的置信程度也难以保证。现有搜索引擎技术和产品，如Google、百度、HotBot等，在很大程度上满足了人们获取网络信息资源的需求。但是，如何面对不同的用户偏好、用户背景等，识别用户潜在的搜索意图，挖掘用户背后真正需要的信息，对搜索引擎系统设计的重要性毋庸置疑。
　　本文在对已有搜索系统研究基础上，研究个性化搜索的应用，并开展了搜索系统在舆情分析中的应用研究。主要内容包括：阐述了个性化搜索系统中的用户兴趣模型、网络信息抓取、网页信息分析与挖掘、文本聚类分类等关键技术，并基于系统的功能需求分析，设计了个性化搜索系统的总体框架和各个模块，通过个性化搜索系统在网络舆情分析中的应用，对舆情分析的关键技术进行了研究，并给出了系统的性能测试和分析结果。本文工作主要体现在以下两个方面：
　　1）通过整合网络爬虫、文本分类与聚类、及索引技术，设计了一种基于用户兴趣模型的舆情热点信息挖掘框架。该框架通过网络爬虫中的信息抓取、信息过滤与更新策略，获取网络中有效的信息；然后采用改进的文本分类与聚类技术，挖掘出网页中的舆情分布、来源等热点信息，并且与用户进行交互，通过用户的反馈，构建相应的用户兴趣模型库。该框架为基于用户的个性化搜索系统设计提供了良好的参考。
　　2）针对传统K-Means聚类算法对文本初始化聚类中心较为敏感及容易陷入局部极小点的问题，提出了一种基于向量空间模型的K-Means改进聚类算法。该算法提高了文本聚类及分类的准确率，有效解决了传统 K-Means聚类算法在文本挖掘中的问题，并且也提高了文本挖掘的效率。

著录项

作者
李芸;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名刘贵松;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类社会舆论;
关键词
网络爬虫; 文本挖掘; 聚类分析; 用户兴趣模型;

相似文献

中文文献
外文文献
专利

1. 基于爬虫的高校网络舆情分析系统设计与实现 [J] . 王展 ,赵征鹏 . 信息与电脑 . 2021,第003期
2. 基于语义情感分析的网络热点爬虫舆情分析系统 [J] . 田煜 . 软件 . 2020,第008期
3. 基于网络爬虫的舆情分析预警系统设计 [J] . 朱琪 . 电子设计工程 . 2020,第022期
4. 基于微博网络爬虫的巴黎圣母院大火舆情分析 [J] . 周义棋 ,田向亮 ,钟茂华 . 武汉理工大学学报（信息与管理工程版） . 2019,第005期
5. 基于大数据的网络舆情分析系统设计与实现 [J] . 袁志远 ,徐怀超 ,郭金顺 . 西藏科技 . 2020,第012期
6. 公共卫生事件网络舆情分析机制研究——以中国国际舆情网舆情分析系统对麻疹疫苗接种事件的分析为例 [C] . 相德宝 . 第五届中国健康传播大会 . 2010
7. 基于网络爬虫的网络舆情分析系统的设计与实现 [A] . 程建 . 2014

基于爬虫和文本聚类分析的网络舆情分析系统设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅