首页> 中文学位 >基于Naïve Bayes算法的定向爬虫系统设计与实现
【6h】

基于Naïve Bayes算法的定向爬虫系统设计与实现

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第一章绪论

1 .1论文研究的背景和意义

1 .2国内外研究现状

1 .3存在的问题

1 .4本文的工作

1 .5论文的结构

第二章当前网络爬虫技术研究

2 .1网络爬虫概述

2 .2网络爬虫的基本流程

2 .3当前网络爬虫技术分类

2 .4正则表达式技术

2.5 XML路径语言XPath

2 .6本章小结

第三章基于Naive Bayes分类器的网页去噪方法研究

3.1 Naive Bayes分类器概述

3.2 Naive Bayes分类器工作流程

3.3 Naive Bayes分类器在本系统中的应用

3 .4本章小结

第四章系统需求分析

4 .1定向爬虫面临的主要困难

4 .2系统目标和解决的问题

4 .3系统需求概述

4 .4本章小结

第五章基于Naive Bayes算法的定向爬虫系统设计

5 .1系统设计目标

5 .2系统总体设计

5 .3系统详细设计

5 .4数据库设计

5 .5本章小结

第六章系统实现与测试

6 .1开发环境

6 .2系统主要模块的实现

6 .3基于Naive Bayes算法的定向爬虫系统演示

6 .4系统测试

6 .5本章小结

第七章总结与展望

7.1全文总结

7 .2不足与展望

参考文献

致谢

展开▼

摘要

随着高速发展计算机技术以及日益普及的计算机网络,当前网络成为各种媒体传播信息、发表观点的重要途径。根据2016年发布的第37次《中国互联网发展状况统计报告》显示,到2015年12月为止,我国的网民的数量已达到6.88亿,互联网的普及率达到50.3%,较2014年提升了2.4个百分点。网络在人们生活中扮演着越来越重要的角色。然而,当网络中某一事件受到大家关注并广泛传播时就会形成网络舆情,面对海量的网络数据,如何对数据进行采集并发现热点舆情以及对舆情进行分析和预警成为了现在的一个热门话题。也因此,定向爬虫作为舆情发现的重要数据获取方式受到人们的广泛关注。
  本论文学习和研究了当今主流的几种信息采集系统,并且研读了大量的数据采集方面的学术论文。当前主流的爬虫系统主要分三类:传统爬虫、主题爬虫和定向爬虫。传统爬虫作为最早出现的爬虫,它是其他两种爬虫技术的基础;主题爬虫在传统爬虫的基础上加入主题算法对爬行范围及策略进行优化对某一主题相关的数据进行采集,虽然该方法在一定程度上提高了采集数据的精度,但是由于算法本身的限制,得到的结果仍不能用于对数据精度要求较高的领域;定向爬虫只对特定的网页进行数据采集,根据系统集成的模版信息匹配网页中的目标数据,该种方法采集范围较小,并且由于采集中若要精确的采集数据通常要构造复杂的正则表达式,但是定向爬虫相对于主题爬虫来说采集精度更高一些,速率更快。
  基于以上对当前主流爬虫系统的分析,发现如果在当前定向爬虫的基础上加入分类器会使得爬虫有更高的数据采集精度,以达到对舆情精准分析的目标,因此本文构建了一种基于Na+i+veBayes分类器的定向爬虫系统。本文对定向爬虫做了如下改进:
  (1)在采集方式上使用正则表达式与XPath混合式采集。由于正则表达式适用范围广,但是噪声大;XPath方法采集精度高,但是对页面结构要求严格,因此在本系统中将两种方法相结合,从而取长补短。
  (2)在系统采集的过程中加入Nai(i)ve Bayes分类器对数据进行去噪,从而达到提高系统准确性的效果。
  本系统基于C#语言,开发工具为Visual Studio2013,数据库存储采用的是SQL Server2008。可采集包括腾讯新闻、新浪新闻、腾讯新闻、搜狐新闻、网信网等十几个主流新闻门户网站。该系统与传统的爬虫系统相比,可以精确地采集用户需要的数据,并且减少垃圾数据的采集,从而也使得该系统不但采集效率高而且数据精确。
  本系统主要设计为四个模块,分别为目标网址选择模块、数据采集模块、数据处理模块以及数据存储模块。在论文中详细介绍了四个模块的功能以及具体实现。本系统的核心为数据采集模块和数据处理模块,数据采集模块首先实现对目标网站的数据采集,数据处理模块对采集到的数据进行匹配筛选。在经过数据处理模块的筛选后,数据存储模块将数据存入数据库。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号