基于浅层语义分析的文本摘要方法研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当前，互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利，同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看，非结构化资源的比例呈现增长趋势，所涉及的处理技术相比结构化数据而言具备更大的难度。其中，文本类型信息具有典型的非结构化特征，对其进行有效分析和处理在互联网以及诸多行业中具有十分重要的理论价值和实践意义。
　　文本摘要是文本信息处理中的一个非常重要的组成部分。在实现方法上，本文使用的浅层语义特征区别于常用的词语特征，研究的重点不再是可以观察到的构成文章的词语、句子等基本信息，而是隐藏在这些句子、词语背后，更深层次的语义信息，称之为主题特征。通过对文章主题特征的挖掘与分析，可以进一步得到主题-词语的关联，主题-句子的关联。基于这种关联关系衡量句子或者词语表达文章主题的能力，从而选择出能够完整表达文章主题的句子作为文本摘要。
　　本文在详细阐述国内外研究现状的基础上，首先基于主题对句子关联度计算进行了针对性研究，提出一种新的衡量句子与句子相关性的方法，在语义层面，充分利用主题对文章的表达能力，基于主题在句子上的概率分布，使用相对熵来计算两个句子上主题概率分布的差异性来确定句子相关度，同时将文本归结为三类内容，作为摘要提取的依据，并在NLPCC2015数据集上进行了实验验证。
　　同时，论文基于主题和图模型改进了文本摘要算法。通过 LDA模型挖掘出文本语义层面的主题特征，分析文本中词语和主题的对应关系，基于改进的图模型进行文本摘要，改进其以往的建边方式，使用主题关联来确定不同节点之间是否建边。并在 DUC数据集上实验验证，其 ROUGE分数在比较的几种算法中得分最高。
　　最后，在文本摘要关键技术基础上搭建了一个文本摘要功能演示系统。基于Struts2、Hibernate框架，结合sitemesh、JQuery、CSS、JSP、HTML等技术，可以通过在输入框中输入文本或者提交文档的方式实时得到文本摘要的分析结果。
　　本文所研究内容已经在实际项目中得到工程应用和验证，在自然语言处理平台中发挥了重要作用。

著录项

作者
李宝程;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名刘贵松;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本摘要; 主题模型; 图模型; 浅层语义; 词语特征; 自然语言处理;

相似文献

中文文献
外文文献
专利

1. 基于双编码器的中文文本摘要技术的研究与实现 [J] . 高巍 ,马辉 ,李大舟 . 计算机工程与设计 . 2021,第009期
2. 基于知识的文本摘要系统研究与实现 [J] . 孙春葵 ,李蕾 ,杨晓兰 . 计算机研究与发展 . 2000,第007期
3. 一种基于潜语义分析的中文网页自动摘要方法 [J] . 叶昭晖 ,杨高峰 ,杨岳湘 . 广西大学学报（自然科学版） . 2012,第002期
4. 基于潜语义分析的中文网页自动摘要方法 [J] . 叶昭晖 ,杨高峰 ,杨岳湘 . 网管员世界 . 2011,第020期
5. 基于潜在语义分析的文本指纹提取方法 [J] . 崔彤彤 ,崔荣一 . 中文信息学报 . 2018,第005期
6. 基于词典的在线新闻自动文本摘要系统的研究与实现 [C] . 官礼和 ,李永礼 . 2003年全国理论计算机科学学术年会 . 2003
7. 基于潜在语义分析的单文本自动摘要方法研究 [A] . 刘霞 . 2011

基于浅层语义分析的文本摘要方法研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅