面向主题的Web文档自动文摘生成方法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的飞速发展，信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息，想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个性化的需求并提高人们获取信息的效率是一个迫切需要解决的问题。为了解决上述问题，本文研究了面向主题的Web文档自动文摘生成方法。具体地讲，本文主要对以下几个方面进行了研究：
　　 1.对主题各侧面相关句子的识别方法进行了研究。提出了一种基于依存关系的句子相似度计算方法，使用该方法对句子进行聚类，然后从每个类中抽取词和语法特征形成模式，并使用这些模式来识别主题各侧面相关句子。另外，还研究了使用分类器来进一步识别主题各侧面相关句子的方法。该方法根据词在依存树中的层次对词的权重进行调整，选取有效的依存关系作为特征，使用句法树作为结构特征并用基于动词的裁剪策略对句法树进行裁剪。
　　 2.在文摘句的选取部分，提出了一种适用于Web文档的文摘句选择方法。该方法先根据Web文档的特点对候选句子进行评分，再依据句子间的相似性、文档间的链接、句子间的锚链接、句子间的相似度和句子的邻接关系，使用图排序算法对句子的评分进行调整。最后使用MMI算法根据句子的评分和文摘的长度限制选择文摘句。
　　 3.在文摘句的排序部分，提出了一种基于上下文的句子排序算法。该方法通过计算文摘句的上下文和其它文摘句的相似度来判断句子间是否相邻，并根据相似度和句子间的相对位置关系计算其可信度。使用基于特征的方法选择第一个句子。选择和前面一个句子有最大邻接度的句子为下一个句子。
　　以上三个部分的实验均证明，本文提出的方法取得了良好的效果，部分优于现有的方法。

著录项

作者
邓光喜;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机应用技术
授予学位硕士
导师姓名李培峰;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
Web文档; 句子分类; 依存关系; 句子排序; 自动文摘生成;

相似文献

中文文献
外文文献
专利

1. 基于主题模型与冗余控制的中文多文档自动文摘技术研究 [J] . 袁龙云 ,张琳 . 现代计算机（专业版） . 2017,第014期
2. 基于主题模型与冗余控制的中文多文档自动文摘技术研究 [J] . 袁龙云 ,张琳 . 现代计算机：上半月版 . 2017,第005期
3. 基于局部主题关键句抽取的多文档自动文摘方法 [J] . 徐超 ,王萌 . 计算机光盘软件与应用 . 2013,第018期
4. 主题信息的中文多文档自动文摘系统 [J] . 王红玲 ,张明慧 ,周国栋 . 计算机工程与应用 . 2012,第025期
5. 主题与子事件发现的多文档自动文摘 [J] . 王萌 ,李春贵 ,徐超 . 计算机工程与应用 . 2011,第018期
6. LDA主题驱动的中文多文档自动文摘方法 [C] . 张明慧 ,王红玲 ,周国栋 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 面向主题的多文档自动文摘关键技术研究 [A] . 李鹏 . 2013

面向主题的Web文档自动文摘生成方法研究

摘要

著录项

相似文献

相关主题

期刊订阅