基于主题和类别的网络新闻采集系统设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展，网络新闻成为人们获取信息的重要来源之一。网络新闻具有传播速度快、影响范围大、社会受众面广等优点，但是也存在一些虚假性、低质量的网络新闻，网络新闻质量的参差不齐降低了用户的阅读体验。另外，网络新闻在某种程度上成为网络舆论的来源和传播途径，因此在海量的网络新闻数据中采集到真实、准确、结构化的网络新闻数据成为网络舆情研究的重点。本文面向主题网络新闻和类别网络新闻，着重解决了网络新闻采集中主题采集、类别采集的问题，并在其基本功能的实现基础上，进一步考虑提高系统的性能。本文引入了主题爬虫和SVM分类器的概念，引入了Xpath和多线程的技术，在以上理论和技术的基础上，设计并实现了一个基于主题和类别的网络新闻采集系统，系统具有采集并存储主题网络新闻和类别网络新闻的功能。在基于主题的网络新闻采集中，本系统通过计算页面相似度的方法形成爬取的优先级队列，然后通过Xpath技术抽取主题网络新闻的标题、网址、发布时间、发布来源、正文等内容，最后将采集到的主题性网络新闻数据存储到系统数据库中。在基于类别的网络新闻采集中，本文引入Libsvm包来实现分类器的训练和构造，然后通过Xpath技术抽取类别新闻的标题、网址、发布时间、发布来源、正文等内容，类别包括社会、娱乐、财经和体育，最后将采集到的类别性网络新闻数据存储到系统数据库中。
　　本研究首先介绍了网络新闻采集的研究背景和意义，着重介绍了国内外对于主题爬虫、分类器的研究工作；其次介绍了网络新闻采集过程中涉及的理论和技术，包括Robots协议、通用网络爬虫、支持向量机、主题爬虫搜索策略、Xpath技术等；对系统的需求进行了分析和介绍，对系统的体系结构进行了整体设计，对系统的模块组成进行了详细设计，其中系统的模块包括新闻网站种子注入模块、网页源代码获取模块、网页解析模块、分类模块、主题过滤模块、URL调度模块、URL去重模块、网页信息抽取模块、数据库存储模块；另外，在系统整体设计和详细设计的基础上，通过调用 ICTCLAS包和 Libsvm包，实现了以上设计的诸多模块，进一步地实现了基于主题的网络新闻采集和基于类别的网络新闻采集的功能。最后，本文列举了系统运行所需要的硬件环境和软件环境，对系统的功能和性能分别进行了测试，测试的结果达到系统预期要求，但是还有很多需要改进的地方。本系统采用 C＃语言在 Windows732位操作系统环境下对主题采集和类别采集进行了实现。系统的健壮性、高效性、持续性、稳定性等都达到预期要求，能够准确、及时、有效地采集并存储基于主题和基于类别的网络新闻数据。

著录项

作者
刘浩;
展开▼
作者单位

山东师范大学;

展开▼
授予单位山东师范大学;
学科计算机技术
授予学位硕士
导师姓名鲁燃,张新常;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
网络新闻; 信息集成; 主题爬虫; 程序语言;

相似文献

中文文献
外文文献
专利

1. 基于4G网络的Cogent新闻采集系统在新媒体移动直播中的应用 [J] . 苏东 . 影视制作 . 2017,第007期
2. 我国农村义务教育经费保障机制研究:主题类别及薄弱区域——基于CNKI文献的共词分析 [J] . 赵磊磊 . 现代教育管理 . 2017,第004期
3. 基于多层类别主题图模型的教育文本分类方法 [J] . 李全 . 计算机与现代化 . 2016,第007期
4. 一种基于主题类别信息问句检索的新方法 [J] . 杨海天 ,王健 ,林鸿飞 . 计算机应用与软件 . 2015,第002期
5. 基于作者主题模型的遥感图像自动类别标注方法 [J] . 李杰 ,王小伟 . 计算机应用与软件 . 2013,第010期
6. 网络新闻采集系统的研析 [C] . 张梦阳 ,林珊 ,许碧波 . 2011年度全国广播电台技术工作会议 . 2011
7. 基于主题网络爬虫的汽车行业多元信息web系统设计与实现 [A] . 马汉超 . 2015

基于主题和类别的网络新闻采集系统设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅