首页> 中文学位 >网络热点新闻事件挖掘和跟踪分析方法的研究与实现
【6h】

网络热点新闻事件挖掘和跟踪分析方法的研究与实现

代理获取

摘要

本文基于现代信息处理技术搭建了一个从获取新闻源,进行信息处理,运用文本挖掘技术对信息进行分析的系统。该系统不仪能够自动化的获取新闻信息,而且能够对网络中的新闻进行自动的分类和聚类,为用户推荐热门新闻,描述某个热门新闻在时间轴上的演化过程。协助用户或者一些机构去了解和认识网络中的信息演化过程。
   在系统的实现过程中,信息获取时,对通用的网页爬虫进行改进,使之能够适应定时定向的抓取。在保证信息数量的同时保证了更新的速度。而对于收集到的新闻信息,采用了先分类再聚类的策略来避免不同类别新闻的干扰,减小新闻聚类的噪音。在分类和聚类的过程中,词频的平滑、向量空间的压缩以及对KMedoids算法的改进不仅提高了效率,并且对新闻信息分析的准确率和召回率也有一定的提高,使新闻分类的准确率和召回率都达到了70%左右,减少了最后分析结果中噪音数据的出现率。新闻聚类的准确度也达到了86%。同时,为了便于用户浏览信息,在聚类过程中我们会自动生成有意义的新闻信息聚类标签来标示这类信息的含义,标签生成的准确性达到了92.5%。最后我们通过网页UI的形式并辅助信息数量演化的图表向用户展示信息的变化过程。整个系统有效的整合了Web信息处理中的关键技术,搭建了一个真实数据集上的小型系统,能够有效的为用户提供新闻热点追踪的服务。通过实际使用的观察,该系统每日提供的热点新闻都和实际情况是比较吻合的。
   热点新闻挖掘跟踪研究的主要作用在于:首先,能够使用户终端更快更全面的了解和知道自己关心的新闻话题及其整体的发展趋势。其次,网站的建设者能够根据分析结果了解网络用户的新近喜好从而更好的设计网站的内容,使网站的质量得到较大的提高;最后,新闻热点事件的挖掘分析也能够给互联网的演化的研究带来帮助,使网络监控者能够更好的对网络的内容进行控制和引导。总体来说,本文对新闻信息的这种整合和分析是十分有意义的尝试。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号