面向农业主题的爬虫系统设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

我国是农业大国，在农业各个方面均拥有大量的数据，比如种植业、林业、畜牧业等。农业大数据作为一种重要的新型战略资源，在农业系统协同、农业生产等方面有着重要作用，推动农业现代化发展。
　　农业大数据包括结构化数据和半结构化数据，随着互联网的不断发展，我国农业网络数据也越来越多，Web随之成为获取农业数据的主要来源，网络爬虫技术是获取Web数据的主要方法。但是由于网站的日益复杂化，通用的网络爬虫爬取主题网页的准确率降低，同时爬取的网页失去了时效性，这样的网络爬虫越来越不能满足用户的需求。
　　为了提高网络爬虫的爬取效率，方便用户使用，本文在进行充分研究和分析后设计并实现了一款面向Web农业数据的爬虫系统，主要工作如下:
　　第一，在对农业主题Web数据进行分析的基础上，对各种农业大数据应用项目的数据需求进行高度抽象，设计了一款面向农业主题的分布式网络爬虫系统。该系统可根据用户给定的主题自主训练语料库，也可接受用户指定的语料库，然后基于语料库爬取相应主题的Web数据;基于Hadoop平台，实现了分布式的爬取、内容抽取、分词统计和存储。
　　第二，在对特征词提取的相关算法进行研究的基础上，对信息增益算法进行了改进，基于潜在语义分析和信息增益的两种方法对特征词进行二次评估，不仅减少了数据处理量而且提高了特征词的代表性同时小幅度提高了网站分类的准确率。
　　第三，对文本分类技术的相关算法进行了研究，构建了基于朴素贝叶斯算法的网页分类模型，结合农业数据周期性、地域性、多样性、季节性的特点，制定不同的主题语料库，并制定了Web数据爬取策略，降低了系统工作量，提高了系统的工作效率。
　　本文设计并实现的面向农业主题的分布式爬虫系统能够在海量的网络资源中有效地识别并下载符合目标主题的Web资源，同时进行了测试，测试结果显示本文提出的方法小幅度提高了分类的精确度。能够抽取网页内容并分类保存。针对网站数据更新周期性的特点爬取网页，最终提高了系统的工作效率和爬取效率。

著录项

作者
庞宁宁;
展开▼
作者单位

河北农业大学;

展开▼
授予单位河北农业大学;
学科计算机技术
授予学位硕士
导师姓名孙晨霞;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类农业现代化道路、模式;信息处理（信息加工）;
关键词
农业现代化; 农业数据; 网络爬虫; 文本分类; 特征提取;

相似文献

中文文献
外文文献
专利

1. 一种面向农业信息主题网络爬虫的设计 [J] . 汪斌 ,张云伟 ,刘健 . 安徽农业科学 . 2009,第020期
2. 面向热点新闻的爬虫系统设计与实现 [J] . 林文涛 ,陈伟强 ,刘杭燕 . 数字通信世界 . 2019,第001期
3. 面向网络爬虫的高可用动态池系统设计与实现 [J] . 王佳鹏 ,徐海蛟 ,许培宇 . 福建电脑 . 2019,第006期
4. 面向网站群的主题爬虫研究 [J] . 徐昊 ,沈江明 . 软件导刊 . 2020,第008期
5. 面向专用信息获取的用户定制主题网络爬虫技术探究 [J] . 蒲文莹 . 电脑编程技巧与维护 . 2019,第001期
6. 基于多语种农业叙词表AGROVOC的主题爬虫策略 [C] . 康丽 ,杨仁刚 ,夏崇镨 . 第一届国际计算机及计算技术在农业中的应用研讨会暨第一届中国农村信息化发展论坛 . 2007
7. 面向农业信息的主题爬虫的研究与设计 [A] . 张宁 . 2010

面向农业主题的爬虫系统设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅