面向查询的多文档自动文摘关键技术研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅速发展和文本信息的日益增多，从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容，从而把大量原来需要用户来完成的工作都交给计算机自动完成，节省了用户浏览信息的时间，减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面，对于计算机具有很大的挑战性。本文正是在这种前提下，对自动文摘技术进行了探索性研究。
　　本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上，研究并实现了多种面向查询的多文档自动文摘技术。
　　我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联，我们提出了一种在文摘系统中进行语义扩展的方法，该方法通过WordNet中定义的同义词集以及词与词之间的语义关系，对传统的基于词的句子向量进行语义扩展，从而将语义信息融入到句子中，使得系统性能比起语义扩展前得到了显著提高。
　　本文还提出了一种基于图排序算法的查询扩展方法，将其结合到面向查询的自动文摘系统中，可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展，能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高，在DUC标准评测语料上达到了目前的最好结果，充分表明了该查询扩展方法的有效性。
　　自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率，对文摘语言质量如可读性、连贯性等方面的评测则由人工完成，由于需要消耗大量人力而且缺乏客观性，使得人工评测方法不能普及，所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上，我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究，通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化；分析了实体选择在模型中的重要性，并且通过潜在语义分析重新建立了实体网格，从而对原有模型进行了改进，在实验中获得了更高的准确率。

著录项

作者
赵林;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科计算机应用技术
授予学位博士
导师姓名吴立德;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;自动推理、机器学习;
关键词
自动文摘; 自然语言处理; 机器学习; 文本连贯性; 文本信息; 自动评价模型;

相似文献

中文文献
外文文献
专利

1. 面向冗余度控制的中文多文档自动文摘 [J] . 王红玲 ,周国栋 ,朱巧明 . 中文信息学报 . 2012,第002期
2. SSC软聚类算法在面向查询的多文档文摘中的应用 [J] . 唐俊 . 计算机工程与科学 . 2010,第006期
3. 一种面向查询的多文档摘要方法 [J] . 叶娜 ,蔡东风 . 中文信息学报 . 2010,第006期
4. 基于Siamese LSTM的中文多文档自动文摘模型 [J] . 龚永罡 ,王嘉欣 ,廉小亲 . 计算机应用与软件 . 2021,第003期
5. 基于主题模型与冗余控制的中文多文档自动文摘技术研究 [J] . 袁龙云 ,张琳 . 现代计算机（专业版） . 2017,第014期
6. 面向冗余度控制的中文多文档自动文摘 [C] . Wang Hongling ,王红玲 ,Huang Chaochao . 第十一届全国计算语言学学术会议 . 2011
7. 基于云模型的中文面向查询多文档自动文摘研究 [A] . 陈劲光 . 2011

面向查询的多文档自动文摘关键技术研究

摘要

著录项

相似文献

相关主题

期刊订阅