首页> 中文学位 >基于图模型聚类的文本摘要方法研究
【6h】

基于图模型聚类的文本摘要方法研究

代理获取

目录

摘要

第1章 绪论

1.1 课题的研究背景和意义

1.2 文摘技术的发展和研究现状

1.2.1 文摘技术的发展概述

1.2.2 文摘技术的研究现状概述

1.3 本文工作

1.4 论文结构

第2章 相关工作综述

2.1 自动文摘方法综述

2.1.1 基于统计的文摘方法

2.1.2 基于主题的文摘方法

2.1.3 基于图的文摘方法

2.1.4 基于语篇分析的文摘方法

2.1.5 基于机器学习的文摘方法

2.2 文本摘要在智能系统中的应用

2.2.1 文本摘要在信息检索中的应用

2.2.2 文本摘要在问答系统中的应用

2.2.3 文本摘要在文本分类中的应用

2.3 图模型算法研究

2.3.1 PageRank算法分析

2.3.2 自动文摘中基于PageRank的算法

2.4 自动文摘技术的评价策略

2.5 本章小结

第3章 基于文本的图模型建立

3.1 文档预处理

3.2 图模型的建立

3.2.1 模型描述

3.2.2 模型实现

3.2.3 实验

3.3 本章小结

第4章 模型聚类

4.1 聚类算法描述

4.2 聚类算法实现

4.2.1 模型顶点重要度计算

4.2.2 模型主顶点和领先顶点选择

4.2.3 最短路径计算

4.2.4 移除多余路径

4.3 本章小结

第5章 实验评估与结果

5.1 实验配置

5.2 DUC 2002上的模型比较实验

5.3 在其他DUC数据集上的进一步实验

5.4 与DUC系统结果比较

5.5 本章小结

第6章 总结和展望

6.1 总结

6.2 课题研究展望

参考文献

学期间取得的科研成果

致谢

声明

展开▼

摘要

随着互联网的急速发展,接踵而至的便是互联网信息量的急剧膨胀,尤其是文本信息的数量(新闻文章、电子书、科技报纸、博客等等)。据粗略估计,2015年网络的文本规模达到了将近47亿页。针对这样巨大的文本信息量,仅靠人力无法完全处理其中的有效信息。因此,为了简单明了地向用户提供文本的有效信息,有必要借助于计算机的力量实现快速定位有效信息的目标。
  针对上述问题,本文展开了基于图模型聚类的文本摘要方法研究,其主要的研究目标有三个:1)从文本中找出相关的内容;2)消除文本信息冗余,一个好的文摘系统必须尽量剔除重复的信息,否则冗余信息会成为噪音,影响最后的文摘结果;3)文摘结果对原始文本具有高保真度,保持文本多样性,文摘应最大化地包含文本的原始信息,使得用户能够无偏差地理解原始文本的主要思想。
  基于真实的网络文本数据,本文首先对文本句子建立评分模型:通过统计文本中的词语数量来计算文档词频(TF)和反文档词频(IDF),从而建立句子评分模型(TF*IDF)。其次对句子进行聚类:在句子评分模型的基础上充分考虑句子的统计相似性,语义相似性,共指消解以及语篇关系,将文本模型转化为图模型,通过给定聚类参数(是否为有向图,边缘选择条件,语言选择,阈值等),对图模型进行聚类,在聚类形成的每个簇中选择联系最紧密的句子组成文摘结果。本文提出的一种基于图模型聚类的文摘方法,能够较好地消除信息冗余问题,提炼文摘。通过实验证明,本文的方法与传统的只基于统计或聚类的方法相比,提高了文摘准确率。
  本文的主要工作和成果总结如下:
  (1)建立了文本图模型。为了更直观的建立文档文本间的关系,通过经典TF/IDF方法来计算经预处理后的文档词语的权重值,建立句子的权重评分统计模型,以便进行相似度计算。还从语篇分析、共指消解、语义相似度几个不同维度对统计方法进行修正,试图建立一个更加准确、合理的文本关系图。
  (2)为了解决信息冗余和信息多样性的问题,本文区别于一般的基于语法和语义相似性的方法,在图模型的基础上,提出了对该模型进行聚类的方法,该方法是无监督的并且具有普适性。该聚类方法效果的好坏的核心点就在于上文建立的文本关系模型是否足够的合理。
  (3)为了验证本文提出的基于图模型聚类的文本摘要方法的有效性,在数据集的选择方面将使用文摘领域最具代表性的DUC(Document Understanding Conference)数据集,它针对不同任务具有丰富的数据集。通过在不同数据集上的实验来证明本文所提方法的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号