首页> 中文学位 >网络舆情分析中智能信息收集器的设计实现
【6h】

网络舆情分析中智能信息收集器的设计实现

代理获取

摘要

随着科技的迅速发展,网络己成为人们表达见解、讨论公共事务、参与经济社会、政治生活以及进行舆论监督的重要公共平台。网民规模的逐年攀升导致网络舆情形成迅速,对社会的影响巨大。如何能够及时发现舆情热点、正确引导民意走势是当前亟待解决的重点和难点。网络舆情分析的首要工作是舆情信息的采集,在web上,信息采集的任务由网络爬虫完成,因此,网络爬虫性能的优良直接关系到舆情分析结果的好坏。本文的主要研究目标就是如何提高舆情分析系统中网络爬虫的性能,为舆情分析提供优质的信息源。
   传统的网络爬虫以提高资源的覆盖率为主要目标,追求信息采集的全面性。网络舆情分析因其自身的特点,要求信息源具有较高的主题覆盖率,因此,必须在现有爬虫的基础上,加入一些爬行策略来指导爬虫的爬行,使其能满足舆情分析的需要。
   通过深入研究web页面解析、文档正文区提取、文档摘要、文档相似度分析等技术,设计了一种适合于舆情分析系统的信息采集器,该采集器在传统型爬虫模型的基础上,增加了以下一些重点模块:页面分析模块,主题相关度判别模块,URL队列管理模块。页面分析模块完成HTML页面的解析以及正文区的提取。通过调研两类基本的正文区提取算法,在对其优缺点进行深入分析后,提出了一种基于“URL模式库”的正文区提取策略,该策略通过维护一个URL模式库,可以显著提高正文区的提取效率;主题相关度判别用于评估页面与爬行主题的相关性;URL队列管理模块通过对URL进行主题相关性评分,决定URL的爬行次序。主题相关性评分的依据有:URL所在页面的主题相关性、链接串、锚文本及其上下文。
   为了验证以上设计的可行性,本文对两个单元模块以及整个系统进行了测试。通过和传统型网络爬虫的对比可知,本文所设计的信息收集器具有较高的主题资源覆盖率,很好地满足了舆情分析中“高主题相关性”的要求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号