基于单事件新闻多文档聚类及自动文摘的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

现今网上各大新闻网站缤纷缭乱，人们每天都面对大量没有经过整理的原始新闻，往往会发现自己难以跟上信息更新的速度。人们越来越迫切地需要一个快速浏览新闻的工具，不仅能够对各大新闻网站的报道进行汇总分门别类，并且能够将同一主题的新闻报道求同存异。通过运用这样的加工工具，人们既能更有针对性的浏览相关感兴趣的新闻报道，又能阅读到精炼汇总的新闻资源，有效地节省了人们的宝贵时间。本文通过对话题检测和多文档文摘的相关技术进行研究，构建了一个单事件新闻聚类及摘要系统的雏形，着重解决新闻分类、单事件聚类、基于单事件的多文档自动文摘三个方面的问题。本文的工作主要包括以下两个方面:
　　(1)实现单事件新闻聚类系统的主要模块算法。首先，在深入研究LDA(Latent Dirichlet Allocation)模型的基础上，对文档集合进行LDA主题建模，将LDA模型与VSM(Vector Space Model)模型结合计算文本间的相似度。其次，以复合相似度运用到基于相似度加权表决的KNN(K Nearest Neighbor)算法对新闻报道集合进行分类。将分类后的文档集合，以复合相似度运用SinglePass算法将新闻报道按单事件聚类。并通过实验验证改进后KNN算法以及改进后SinglePass算法的效果。
　　(2)设计并实现多文档文摘系统。在文本表示模块中，通过引入知网，从语义层次将特征词合并、构造同义词集合，构建基于同义词集合的VSM模型。在句子权重计算模块中，通过LexRank算法结合一些句子特征计算得到句子的最终权重，并依照句子权重从高到低对候选摘要句排序。在句子抽取模块中，采用最大边缘相关(Maximal Marginal Relevance)算法去除冗余来抽取摘要句，输出尽量精炼、通顺的文摘。

著录项

作者
张东晋;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机技术
授予学位硕士
导师姓名陈启安;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类大众传播;自动化作文摘;
关键词
多文档自动文摘; KNN算法; LexRank算法; LDA主题模型; 单事件聚类; 新闻分类;

相似文献

中文文献
外文文献
专利

1. 基于文本聚类的多文档自动文摘研究 [J] . 郭庆琳 ,吴克河 ,吴慧芳 . 计算机研究与发展 . 2007,第0z2期
2. 基于MapReduce的多文档自动文摘的设计与实现 [J] . 胡琪 ,邹细勇 . 计算机工程与应用 . 2011,第035期
3. 基于事件项语义图聚类的多文档摘要方法 [J] . 刘茂福 ,李文捷 ,姬东鸿 . 中文信息学报 . 2010,第005期
4. 基于事件抽取的网络新闻多文档自动摘要 [J] . 韩永峰 ,许旭阳 ,李弼程 . 中文信息学报 . 2012,第001期
5. 基于大数据技术的新闻采集和事件分析系统的设计与实现 [J] . 马旭 ,王淑丽 . 数字技术与应用 . 2018,第010期
6. 基于文本聚类的多文档自动文摘研究 [C] . 郭庆琳 ,吴克河 ,吴慧芳 . 第二届中国分类技术及应用学术会议 . 2007
7. 基于语义聚类的新闻多文档自动文摘 [A] . 王帆 . 2017

基于单事件新闻多文档聚类及自动文摘的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅