首页> 中文学位 >在线热点新闻推荐系统研究和实现
【6h】

在线热点新闻推荐系统研究和实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景和意义

1.2推荐系统

1.3推荐系统算法分类

1.4文本分类

1.5本文的主要工作和结构安排

第二章基于Hadoop平台新闻数据抓取

2.1Hadoop简介

2.2 Hadoop的体系结构

2.3基于Hadoop的数据采集

2.4数据存储

2.5本章小结

第三章基于标题的热点新闻推荐算法

3.1背景及动机

3.2文本分类方法

3.3基于标题的热点新闻推荐

3.4 实施方案

3.5仿真实验

3.6本章小结

第四章基于文本摘要的新闻推荐

4.1基于标题的新闻推荐缺陷

4.2文本摘要

4.3基于文本摘要的新闻推荐算法

4.4实验结果分析

4.5系统实现

4.6本章小结

第五章 总结和展望

参考文献

致谢

在学校期间的研究成果及发表的学术论文

展开▼

摘要

随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。新闻阅读也随着互联网的进步改变了从订阅纸质报纸的传统模式到访问互联网成千上万的新闻。目前,互联网上每天产生大量新闻数据。新闻聚集网站,如谷歌和百度新闻,从各个网站收集新闻并聚合。对于这些网站,如何向用户推荐感兴趣的新闻成为关键性的问题。
  本文以国内外主要中文新闻网站为研究对象,针对新闻网站中的大量新闻,完成了新闻文本采集以及热点新闻推荐系统设计与实现。其主要工作和贡献如下:
  (1)首先采集国内外主要中文新闻网站新闻内容,包括新闻标题、新闻链接、新闻发布时间、新闻内容、新闻来源以及新闻所在版块。本文讨论我们所实现的基于Hadoop分布式平台的新闻数据采集并预处理系统。该系统将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。
  (2)对于热点事件,不同新闻媒体会争相报道,因此,来自不同新闻网站的热点新闻标题会存在一定的相似性。基于新闻标题的这一特点,提出了基于标题的热点新闻推荐算法。首先对新闻标题进行分词等预处理,然后使用朴素贝叶斯模型和SVM对新闻进行文本分类,最终将分类结果作为推荐内容。实验结果表明,使用朴素贝叶斯方法优于基于SVM方法,基于朴素贝叶斯模型推荐热度排名前100的热点新闻推荐结果的准确率可以达到92.5%。
  (3)本文讨论基于标题的热点新闻推荐算法中标题存在的缺陷,进一步提出了基于文本摘要的热点新闻推荐算法。首先采用TextRank以及复杂网络划分方法从新闻内容中提取出新闻摘要。然后,在热点新闻推荐算法中,使用新闻文本摘要代替新闻标题。最终,使用朴素贝叶斯模型与SVM对新闻进行文本分类,并将分类结果作为推荐内容。实验结果表明,基于文本摘要的朴素贝叶斯模型推荐热度排名前100的热点新闻推荐结果的准确率达到94%。这表明基于新闻摘要的热点新闻推荐结果更为准确。
  (4)本文基于文本摘要的新闻推荐算法所实现的热点新闻推荐系统于2014年3月份开始在杭州市政府正式运营,为杭州市政府公务员推荐热点新闻,用户反映良好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号