首页> 中文学位 >基于单事件新闻多文档聚类及自动文摘的设计与实现
【6h】

基于单事件新闻多文档聚类及自动文摘的设计与实现

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究的目的和意义

1.2 多文档自动文摘研究现状

1.2.1 国外的研究情况

1.2.2 国内的研究情况

1.2.3 多文档自动文摘句子评分算法

1.3 话题检测与跟踪技术研究现状

1.4 本文的研究工作

1.5 本文的组织结构

第二章 文本处理的关键技术

2.1 文本预处理

2.1.1 中文分词

2.1.2 过滤停用词

2.2 文本表示

2.2.1 向量空间模型

2.2.2 潜在语义索引(LSI)模型

2.2.3 概率潜在语义索引(PLSI)模型

2.3 文本特征选择

2.4 常见的几种文本聚类分类算法

2.4.1 分类算法

2.4.2 聚类算法

2.5 文本分类聚类的评价指标

2.5.1 文本分类的性能评价

2.5.2 文本聚类的性能评价

2.6 文本摘要的评价指标

2.7 本章总结

第三章 单事件新闻聚类系统

3.1 系统的总体设计思路

3.2 基于LDA模型的文本相似度计算

3.3.1 LDA模型介绍

3.3.2 基于LDA的文本相似度计算

3.3 基于LDA主题模型的文本分类和聚类

3.3.1 基于LDA主题模型的KNN新闻分类

3.3.2 基于LDA主题模型的Single-Pass文本聚类

3.4 本章小结

第四章 基于LexRank的单事件多文档文摘

4.1 多文档文摘系统的总体设计思路

4.2 基于知网的向量空间模型

4.3 基于LexRank算法的句子权重计算

4.3.1 起源-PageRank算法

4.3.2 LexRank算法介绍

4.3.3 基于句子多特征与LexRank算法相融合的句子权重计算

4.4 文摘抽取

4.5 本章小结

第五章 实验结果分析

5.1 实验语料选择

5.2 实验环境

5.3 文本分类聚类实验

5.3.1 基于LDA模型的KNN算法实验结果分析

5.3.2 基于LDA模型的Single-Pass聚类实验结果分析

5.4 多文档文摘实验结果分析

5.4.1 多文档文摘系统演示

5.4.2 摘要生成结果及分析

第六章 总结与展望

6.1 论文工作总结

6.2 展望

参考文献

硕士在读期间科研成果介绍

致谢

展开▼

摘要

现今网上各大新闻网站缤纷缭乱,人们每天都面对大量没有经过整理的原始新闻,往往会发现自己难以跟上信息更新的速度。人们越来越迫切地需要一个快速浏览新闻的工具,不仅能够对各大新闻网站的报道进行汇总分门别类,并且能够将同一主题的新闻报道求同存异。通过运用这样的加工工具,人们既能更有针对性的浏览相关感兴趣的新闻报道,又能阅读到精炼汇总的新闻资源,有效地节省了人们的宝贵时间。本文通过对话题检测和多文档文摘的相关技术进行研究,构建了一个单事件新闻聚类及摘要系统的雏形,着重解决新闻分类、单事件聚类、基于单事件的多文档自动文摘三个方面的问题。本文的工作主要包括以下两个方面:
  (1)实现单事件新闻聚类系统的主要模块算法。首先,在深入研究LDA(Latent Dirichlet Allocation)模型的基础上,对文档集合进行LDA主题建模,将LDA模型与VSM(Vector Space Model)模型结合计算文本间的相似度。其次,以复合相似度运用到基于相似度加权表决的KNN(K Nearest Neighbor)算法对新闻报道集合进行分类。将分类后的文档集合,以复合相似度运用SinglePass算法将新闻报道按单事件聚类。并通过实验验证改进后KNN算法以及改进后SinglePass算法的效果。
  (2)设计并实现多文档文摘系统。在文本表示模块中,通过引入知网,从语义层次将特征词合并、构造同义词集合,构建基于同义词集合的VSM模型。在句子权重计算模块中,通过LexRank算法结合一些句子特征计算得到句子的最终权重,并依照句子权重从高到低对候选摘要句排序。在句子抽取模块中,采用最大边缘相关(Maximal Marginal Relevance)算法去除冗余来抽取摘要句,输出尽量精炼、通顺的文摘。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号