基于Naïve Bayes算法的定向爬虫系统设计与实现

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着高速发展计算机技术以及日益普及的计算机网络，当前网络成为各种媒体传播信息、发表观点的重要途径。根据2016年发布的第37次《中国互联网发展状况统计报告》显示，到2015年12月为止，我国的网民的数量已达到6.88亿，互联网的普及率达到50.3％，较2014年提升了2.4个百分点。网络在人们生活中扮演着越来越重要的角色。然而，当网络中某一事件受到大家关注并广泛传播时就会形成网络舆情，面对海量的网络数据，如何对数据进行采集并发现热点舆情以及对舆情进行分析和预警成为了现在的一个热门话题。也因此，定向爬虫作为舆情发现的重要数据获取方式受到人们的广泛关注。
　　本论文学习和研究了当今主流的几种信息采集系统，并且研读了大量的数据采集方面的学术论文。当前主流的爬虫系统主要分三类：传统爬虫、主题爬虫和定向爬虫。传统爬虫作为最早出现的爬虫，它是其他两种爬虫技术的基础；主题爬虫在传统爬虫的基础上加入主题算法对爬行范围及策略进行优化对某一主题相关的数据进行采集，虽然该方法在一定程度上提高了采集数据的精度，但是由于算法本身的限制，得到的结果仍不能用于对数据精度要求较高的领域；定向爬虫只对特定的网页进行数据采集，根据系统集成的模版信息匹配网页中的目标数据，该种方法采集范围较小，并且由于采集中若要精确的采集数据通常要构造复杂的正则表达式，但是定向爬虫相对于主题爬虫来说采集精度更高一些，速率更快。
　　基于以上对当前主流爬虫系统的分析，发现如果在当前定向爬虫的基础上加入分类器会使得爬虫有更高的数据采集精度，以达到对舆情精准分析的目标，因此本文构建了一种基于Na+i+veBayes分类器的定向爬虫系统。本文对定向爬虫做了如下改进：
　　(1)在采集方式上使用正则表达式与XPath混合式采集。由于正则表达式适用范围广，但是噪声大；XPath方法采集精度高，但是对页面结构要求严格，因此在本系统中将两种方法相结合，从而取长补短。
　　(2)在系统采集的过程中加入Nai(i)ve Bayes分类器对数据进行去噪，从而达到提高系统准确性的效果。
　　本系统基于C＃语言，开发工具为Visual Studio2013，数据库存储采用的是SQL Server2008。可采集包括腾讯新闻、新浪新闻、腾讯新闻、搜狐新闻、网信网等十几个主流新闻门户网站。该系统与传统的爬虫系统相比，可以精确地采集用户需要的数据，并且减少垃圾数据的采集，从而也使得该系统不但采集效率高而且数据精确。
　　本系统主要设计为四个模块，分别为目标网址选择模块、数据采集模块、数据处理模块以及数据存储模块。在论文中详细介绍了四个模块的功能以及具体实现。本系统的核心为数据采集模块和数据处理模块，数据采集模块首先实现对目标网站的数据采集，数据处理模块对采集到的数据进行匹配筛选。在经过数据处理模块的筛选后，数据存储模块将数据存入数据库。

著录项

作者
张宏宽;
展开▼
作者单位

山东师范大学;

展开▼
授予单位山东师范大学;
学科软件工程
授予学位硕士
导师姓名刘培玉,王永军;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
网络舆情; 数据采集; 信息分析; 定向爬虫系统; 分类算法;

相似文献

中文文献
外文文献
专利

1. 基于WebDriver技术的定向网络爬虫研究 [J] . 刘洋 ,田儒贤 ,唐兰文 . 电脑知识与技术 . 2020,第003期
2. 基于WebDriver的定向网络爬虫设计与实现 [J] . 时永坤 . 软件 . 2016,第009期
3. 基于Node.JS的轻量级定向爬虫算法的设计与应用 [J] . 刘书影 . 哈尔滨师范大学自然科学学报 . 2016,第006期
4. 基于Nave Bayes算法的雷达情报分发技术 [J] . 余苗 ,杨瑞娟 ,程红斌 . 现代雷达 . 2014,第7期
5. 基于Naive Bayes的维吾尔文文本分类算法及其性能分析 [J] . 艾海麦提江·阿布来提 ,吐尔地·托合提 ,艾斯卡尔·艾木都拉 . 计算机应用与软件 . 2012,第012期
6. 基于语义相似聚合的主题爬虫算法研究 [C] . WU Lin ,吴林 ,WANG Yong-bin . 2017首届文化科技学术会议 . 2017
7. 基于NLP和爬虫的在线文章阅读系统设计与实现 [A] . 张天翔 . 2020

基于Naïve Bayes算法的定向爬虫系统设计与实现

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅