首页> 中文学位 >基于浅层语义分析的文本摘要方法研究与实现
【6h】

基于浅层语义分析的文本摘要方法研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1课题背景及意义

1.2文本摘要研究现状

1.3本文的主要工作

1.4论文结构

第二章 相关技术基础

2.1文本摘要及主题模型

2.2文本摘要通用框架

2.3LDA模型

2.4基于LDA模型的文本摘要框架

2.5本章小结

第三章 基于主题的句子关联度计算研究

3.1主题在句子上的概率分布

3.2句子相似度计算方法的改进

3.3候选文摘句选择

3.4实验结果及分析

3.5本章小结

第四章 基于主题和图模型改进的文本摘要算法

4.1引言

4.2TextRank算法流程

4.3TextRank算法缺陷

4.4改进的图模型摘要算法

4.5改进的摘要方法描述

4.6实验结果分析

4.7本章小结

第五章 算法与系统原型实现

5.1摘要算法的总体架构

5.2预处理及统计学特征提取

5.3文本表示

5.4摘要生成

5.5系统原型实现

5.6本章小结

第六章 总结与展望

6.1总结

6.2展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

当前,互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,非结构化资源的比例呈现增长趋势,所涉及的处理技术相比结构化数据而言具备更大的难度。其中,文本类型信息具有典型的非结构化特征,对其进行有效分析和处理在互联网以及诸多行业中具有十分重要的理论价值和实践意义。
  文本摘要是文本信息处理中的一个非常重要的组成部分。在实现方法上,本文使用的浅层语义特征区别于常用的词语特征,研究的重点不再是可以观察到的构成文章的词语、句子等基本信息,而是隐藏在这些句子、词语背后,更深层次的语义信息,称之为主题特征。通过对文章主题特征的挖掘与分析,可以进一步得到主题-词语的关联,主题-句子的关联。基于这种关联关系衡量句子或者词语表达文章主题的能力,从而选择出能够完整表达文章主题的句子作为文本摘要。
  本文在详细阐述国内外研究现状的基础上,首先基于主题对句子关联度计算进行了针对性研究,提出一种新的衡量句子与句子相关性的方法,在语义层面,充分利用主题对文章的表达能力,基于主题在句子上的概率分布,使用相对熵来计算两个句子上主题概率分布的差异性来确定句子相关度,同时将文本归结为三类内容,作为摘要提取的依据,并在NLPCC2015数据集上进行了实验验证。
  同时,论文基于主题和图模型改进了文本摘要算法。通过 LDA模型挖掘出文本语义层面的主题特征,分析文本中词语和主题的对应关系,基于改进的图模型进行文本摘要,改进其以往的建边方式,使用主题关联来确定不同节点之间是否建边。并在 DUC数据集上实验验证,其 ROUGE分数在比较的几种算法中得分最高。
  最后,在文本摘要关键技术基础上搭建了一个文本摘要功能演示系统。基于Struts2、Hibernate框架,结合sitemesh、JQuery、CSS、JSP、HTML等技术,可以通过在输入框中输入文本或者提交文档的方式实时得到文本摘要的分析结果。
  本文所研究内容已经在实际项目中得到工程应用和验证,在自然语言处理平台中发挥了重要作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号