首页> 中文学位 >基于主题和类别的网络新闻采集系统设计与实现
【6h】

基于主题和类别的网络新闻采集系统设计与实现

代理获取

目录

声明

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 主要研究工作和内容

1.4 论文章节安排

第二章 相关理论和技术

2.2 通用网络爬虫的工作原理

2.3支持向量机

2.4 主题爬虫搜索策略

2.5 Xpath技术

2.6 Web信息抽取

2.7 本章小结

第三章 系统设计

3.2 系统总体设计

3.3 系统详细设计

3.4 系统数据库设计

3.5 本章小结

第四章 系统实现

4.2 模块及功能实现

4.3 本章小结

第五章 系统运行与测试

5.2 系统测试

5.3 本章小结

第六章 总结与展望

参考文献

致谢

展开▼

摘要

随着互联网的发展,网络新闻成为人们获取信息的重要来源之一。网络新闻具有传播速度快、影响范围大、社会受众面广等优点,但是也存在一些虚假性、低质量的网络新闻,网络新闻质量的参差不齐降低了用户的阅读体验。另外,网络新闻在某种程度上成为网络舆论的来源和传播途径,因此在海量的网络新闻数据中采集到真实、准确、结构化的网络新闻数据成为网络舆情研究的重点。本文面向主题网络新闻和类别网络新闻,着重解决了网络新闻采集中主题采集、类别采集的问题,并在其基本功能的实现基础上,进一步考虑提高系统的性能。本文引入了主题爬虫和SVM分类器的概念,引入了Xpath和多线程的技术,在以上理论和技术的基础上,设计并实现了一个基于主题和类别的网络新闻采集系统,系统具有采集并存储主题网络新闻和类别网络新闻的功能。在基于主题的网络新闻采集中,本系统通过计算页面相似度的方法形成爬取的优先级队列,然后通过Xpath技术抽取主题网络新闻的标题、网址、发布时间、发布来源、正文等内容,最后将采集到的主题性网络新闻数据存储到系统数据库中。在基于类别的网络新闻采集中,本文引入Libsvm包来实现分类器的训练和构造,然后通过Xpath技术抽取类别新闻的标题、网址、发布时间、发布来源、正文等内容,类别包括社会、娱乐、财经和体育,最后将采集到的类别性网络新闻数据存储到系统数据库中。
  本研究首先介绍了网络新闻采集的研究背景和意义,着重介绍了国内外对于主题爬虫、分类器的研究工作;其次介绍了网络新闻采集过程中涉及的理论和技术,包括Robots协议、通用网络爬虫、支持向量机、主题爬虫搜索策略、Xpath技术等;对系统的需求进行了分析和介绍,对系统的体系结构进行了整体设计,对系统的模块组成进行了详细设计,其中系统的模块包括新闻网站种子注入模块、网页源代码获取模块、网页解析模块、分类模块、主题过滤模块、URL调度模块、URL去重模块、网页信息抽取模块、数据库存储模块;另外,在系统整体设计和详细设计的基础上,通过调用 ICTCLAS包和 Libsvm包,实现了以上设计的诸多模块,进一步地实现了基于主题的网络新闻采集和基于类别的网络新闻采集的功能。最后,本文列举了系统运行所需要的硬件环境和软件环境,对系统的功能和性能分别进行了测试,测试的结果达到系统预期要求,但是还有很多需要改进的地方。本系统采用 C#语言在 Windows732位操作系统环境下对主题采集和类别采集进行了实现。系统的健壮性、高效性、持续性、稳定性等都达到预期要求,能够准确、及时、有效地采集并存储基于主题和基于类别的网络新闻数据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号