面向主题的多文档自动文摘关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着移动互联网的迅速崛起，用户经常使用移动终端在大批量文本信息中快速查找并获取有用的信息。这就要求信息服务供应商具备能够提供对大批量文本内容快速并且有效的挖掘，并且用简洁概括的方式向用户呈现重要的信息的能力。用户可以使用手机订阅自动文摘服务。该服务就可以自动从多篇文档中抽取出重要信息，并按照主题将信息呈现给用户。高质量的自动文摘内容脉络清晰，可读性强，能够多角度向用户呈现事件的来龙去脉，节省用户浏览信息的时间，同时能够减轻用户需要从多个信息源获取完整信息的负担。本文正是在这种技术趋势下，对面向主题的多文档自动文摘关键技术进行了探索性研究。
　　本文的研究提出了以下创新性的理论和方法:
　　 1.提出一种新颖的基于LDA的建模方法来捕获文档集中的主题。为了能够定量评估该建模方法的有效性，本文使用该建模方法从大批量同类型文本集合中生成面向主题的文摘描述模板。首先提出一种基于LDA的实体主题模型，该模型用来同时对句子和句子中的词进行语义标注和聚类。其次，在已经聚类并且标注好的句子的依存解析树上利用频繁子树模式挖掘算法来构建面向主题的文摘描述模板。为了进一步验证生成模板的有效性，本文实现了一种基于模板的面向主题的自动文摘生成方法。
　　 2.提出一种非监督机器学习方法去生成面向主题的多文档自动文摘。在该方法中，提出了基于LDA的事件-主题模型，该模型扩展了的传统的LDA模型，通过计算单词在领域中出现的概率分布，以及在特定事件文档中出现的概率分布，有利于改善句子聚类的效果。其次使用扩展的LexRan算法对每个聚类簇中的句子进行排序，接着从每个聚类簇中使用整数线性规划生成能反映主题的代表性句子用来作为文摘。该方法的主要优势是把句子聚类，排序和选择有机地串联在一起。同时我们又改进了基于依存解析树句子压缩算法，使压缩效果显著提高。
　　 3.提出一种新颖的基于语言生成模型的自动文摘生成方法。该方法首先从句子的依存解析树中抽取重要的片段信息，其次利用这些片段信息同时结合英语句法知识对原始句子进行重构。句子重构的实现是利用英语句法结构把片段信息翻译成语言生成模型的输入，然后通过自然语言生成模型，生成包含片段信息的简单句子。最后使用整数线性规划方法从重构后的句子集合中选择出与主题最相关的句子集合。
　　 4.提出一种新颖的ccTAM(Cross collection topic aspect model)模型来对文档集中的主题和方面建模。然后利用该模型的输出，在二分图上使用迭代互增强来抽取互补式文摘。
　　 5.实现了两种有监督机器学习方法，用来解决自动文摘更新过程中的蕴含识别问题。
　　基于上述理论和方法，本文实现了一个面向主题的多文档自动文摘系统。该系统连续两年参加国际权威会议TAC组织的自动文摘系统评测，各项指标取得了良好效果。

著录项

作者
李鹏;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机应用技术
授予学位博士
导师姓名王英林;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
多文档自动文摘; 主题模型; 依存解析树; 整数线性规划; 文本蕴含识别;

相似文献

中文文献
外文文献
专利

1. 基于主题模型与冗余控制的中文多文档自动文摘技术研究 [J] . 袁龙云 ,张琳 . 现代计算机（专业版） . 2017,第014期
2. 基于主题模型与冗余控制的中文多文档自动文摘技术研究 [J] . 袁龙云 ,张琳 . 现代计算机：上半月版 . 2017,第005期
3. 基于局部主题关键句抽取的多文档自动文摘方法 [J] . 徐超 ,王萌 . 计算机光盘软件与应用 . 2013,第018期
4. 主题信息的中文多文档自动文摘系统 [J] . 王红玲 ,张明慧 ,周国栋 . 计算机工程与应用 . 2012,第025期
5. 主题与子事件发现的多文档自动文摘 [J] . 王萌 ,李春贵 ,徐超 . 计算机工程与应用 . 2011,第018期
6. LDA主题驱动的中文多文档自动文摘方法 [C] . 张明慧 ,王红玲 ,周国栋 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 面向查询的多文档自动文摘关键技术研究 [A] . 赵林 . 2008

面向主题的多文档自动文摘关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅