基于图模型聚类的文本摘要方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的急速发展，接踵而至的便是互联网信息量的急剧膨胀，尤其是文本信息的数量（新闻文章、电子书、科技报纸、博客等等）。据粗略估计，2015年网络的文本规模达到了将近47亿页。针对这样巨大的文本信息量，仅靠人力无法完全处理其中的有效信息。因此，为了简单明了地向用户提供文本的有效信息，有必要借助于计算机的力量实现快速定位有效信息的目标。
　　针对上述问题，本文展开了基于图模型聚类的文本摘要方法研究，其主要的研究目标有三个:1）从文本中找出相关的内容;2）消除文本信息冗余，一个好的文摘系统必须尽量剔除重复的信息，否则冗余信息会成为噪音，影响最后的文摘结果;3）文摘结果对原始文本具有高保真度，保持文本多样性，文摘应最大化地包含文本的原始信息，使得用户能够无偏差地理解原始文本的主要思想。
　　基于真实的网络文本数据，本文首先对文本句子建立评分模型:通过统计文本中的词语数量来计算文档词频(TF)和反文档词频(IDF)，从而建立句子评分模型(TF*IDF)。其次对句子进行聚类:在句子评分模型的基础上充分考虑句子的统计相似性，语义相似性，共指消解以及语篇关系，将文本模型转化为图模型，通过给定聚类参数（是否为有向图，边缘选择条件，语言选择，阈值等），对图模型进行聚类，在聚类形成的每个簇中选择联系最紧密的句子组成文摘结果。本文提出的一种基于图模型聚类的文摘方法，能够较好地消除信息冗余问题，提炼文摘。通过实验证明，本文的方法与传统的只基于统计或聚类的方法相比，提高了文摘准确率。
　　本文的主要工作和成果总结如下:
　　(1)建立了文本图模型。为了更直观的建立文档文本间的关系，通过经典TF/IDF方法来计算经预处理后的文档词语的权重值，建立句子的权重评分统计模型，以便进行相似度计算。还从语篇分析、共指消解、语义相似度几个不同维度对统计方法进行修正，试图建立一个更加准确、合理的文本关系图。
　　(2)为了解决信息冗余和信息多样性的问题，本文区别于一般的基于语法和语义相似性的方法，在图模型的基础上，提出了对该模型进行聚类的方法，该方法是无监督的并且具有普适性。该聚类方法效果的好坏的核心点就在于上文建立的文本关系模型是否足够的合理。
　　(3)为了验证本文提出的基于图模型聚类的文本摘要方法的有效性，在数据集的选择方面将使用文摘领域最具代表性的DUC(Document Understanding Conference)数据集，它针对不同任务具有丰富的数据集。通过在不同数据集上的实验来证明本文所提方法的可行性。

著录项

作者
吴振东;
展开▼
作者单位

浙江工商大学;

展开▼
授予单位浙江工商大学;
学科计算机科学与技术
授予学位硕士
导师姓名章志勇;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
计算机技术; 文本摘要方法; 图模型聚类; 信息冗余;

相似文献

中文文献
外文文献
专利

1. 基于改进K-means聚类与图模型相结合的多文本自动文摘研究 [J] . 赵美玲 ,刘胜全 ,刘艳 . 现代计算机（专业版） . 2017,第017期
2. 基于改进K-means聚类与图模型相结合的多文本自动文摘研究 [J] . 赵美玲1 ,刘胜全12 ,刘艳1 . 现代计算机：上半月版 . 2017,第006期
3. 基于聚类与深度学习的自监督文本摘要方法 [J] . 宋明 ,李超 ,何明 . 通讯世界 . 2020,第012期
4. 一种基于主题聚类的多文本自动摘要算法 [J] . 徐小龙 ,杨春春 . 南京邮电大学学报（自然科学版） . 2018,第005期
5. 基于聚类与语义相似分析的多文本自动摘要方法 [J] . 杜秀英 . 情报杂志 . 2017,第006期
6. 基于语义空间聚类和主题匹配的新闻多文档文本摘要生成方法 [C] . 刘茵 ,李弼程 . 第五届全国信息获取与处理学术会议 . 2007
7. 基于聚类分析的图模型文本分类 [A] . 刘小荣 . 2011

基于图模型聚类的文本摘要方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅