首页> 中文期刊> 《中文信息学报》 >面向冗余度控制的中文多文档自动文摘

面向冗余度控制的中文多文档自动文摘

         

摘要

Multi-document summarization can help people to access information automatically and fast. Compared to single-document summarization, multi-document lays more emphasis on the correlation and redundancy between documents. Therefore, how to control information redundancy is a key problem to multi-document summarization. This paper proposes a model of redundancy control based on the features of summary. In this model, various similarities among the text units over topic's probability distribution are used to determine the choice of a sentence. Experimental results show that this method can reduce redundancy effectively, and produce better overall performance than existing systems.%多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点.相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性.因此如何控制信息冗余是多文档自动文摘的一个关键所在.该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的.实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号