首页> 中文学位 >基于领域知识的词汇链技术及其在摘要中的应用研究
【6h】

基于领域知识的词汇链技术及其在摘要中的应用研究

代理获取

目录

文摘

英文文摘

声明

第一章概述

1.1课题的背景

1.2现状

1.2.1传统的方法:

1.2.2基于语料库的方法:

1.2.3利用文章结构的方法:

1.2.4基于理解的方法:

1.3摘要技术的最近发展趋势

1.3.1多文档摘要

1.3.2手持设备的摘要

1.3.3摘要评测

1.4本文的出发点

第二章词汇链

2.1集聚

2.1.1文本的质地和集聚

2.1.2连贯性和集聚

2.1.3集聚的类型

2.2词汇的集聚

2.2.1词汇集聚的类型

2.2.2词汇集聚的重要性

2.2.3词汇链

第三章构建词汇链

3.1构建词汇链的一般过程:

3.2知识库

3.2.1同义词词林

3.2.2 WordNet

3.2.3 HowNet

3.2.4特征词典

3.2.5自动构建的知识库

3.2.6知识库的比较

3.2.7知识库的选择

3.2.8相关性计算的各种方法

3.2.9相关性计算的一些问题

3.3候选词

3.4相关链的选择

第四章基于词汇链的文本摘要

4.1词汇链应用的一般模型

4.2应用词汇链进行文本摘要的动机

4.3利用词汇链构建文本摘要

第五章系统设计和实现

4.1系统的总体设计

4.1.1数据结构

4.1.2系统的总体设计

4.2系统的详细设计

4.2.1分句

4.2.2分词和特征属性抽取

4.2.3构建词汇链

4.2.4生成摘要

第六章实验及其结果分析

6.1词汇链的主题识别效果实验及其结果分析

6.2文本摘要的实验及其结果分析

第七章结束语

5.1研究工作总结

5.2将来的工作

附录A “地球物理环境”武器发展综述

A.1源文本

A.2对A.1构建词汇链的结果中前3强的词汇链

附录B 伊拉克专家称很难找到确凿证据证明萨达姆有罪

B.1源文本

B.2最强词汇链集

B.3摘要结果

B.3.1方法1的结果:

B.3.2方法2的结果:

B.3.3 NEU_CAS_2003系统的结果:

附录C 中世纪西欧对人与自然关系的看法

C.1源文本

C.2最强词汇链集

C.3摘要的结果

C.3.1方法一的结果

C.3.2方法二的结果

C.3.3 NEU_CAS_2003系统抽取的摘要

参考文献

致谢

展开▼

摘要

随着网络时代的到来,在线文档急剧增长,“信息爆炸”成为这个时代的主要特征,文本摘要技术也固此成为解决这个问题的关键技术之一。针对文本摘要,出现了很多方法。基于理解的摘要方怯需要对文本进行深层的理解,这在目前依然是自然语言理解的巨大挑战。而传统的摘要方法则忽略词与词之间的关系,仅仅依靠文本的表面特征来抽取摘要。这种方法过于简单,会严重损害摘要的质量。在本文中,我们采用一种对传统方法进行扩展的技术,利用领域知识库,在无须对文本进行深层理解的情况下,自动获取文本摘要。 集聚是文本中把不同部分“粘在一起”的现象。它是文本的表面特征,同时它与文本的连贯性具有密切的关系,这使得我们可以利用易于计算的集聚性来进行文本分析。在各种集聚类型中,最主要的是词汇的集聚。利用词汇的集聚,把文本中相关的词联系在一起,就构成了词汇链。词汇链是传统的高频词表的一种扩展,它考虑了文本中词与词之问的各种关系。本文研究了基于领域知识的词汇链技术,深入分析了知识库、相关性计算以及构建算怯等问题。领域知识库从领域属性的角度去表达特征词之间的关系,是词汇间关系的更高一层的表达。在领域知识库的基础上,我们的算法能够对特征词的领域属性进行更有效地消歧。在词汇链技术的基础上,本文提出了应用词汇链的一般模型,并在此模型基础上应用词汇链构建文本摘要。我们提出了两种基于词汇链的摘要方祛。实验结果表明,词汇链技术能够很好地识别出文本的主题,尤其对于新闻语料,我们的方法具有非常好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号