首页> 中文学位 >基于同义词词林的自动文摘系统的研究
【6h】

基于同义词词林的自动文摘系统的研究

代理获取

目录

文摘

英文文摘

声明

第一章引言

1.1国内外研究状况

1.1.1基于统计的机械式方法

1.1.2基于自然语言理解的方法

1.1.3基于篇章结构的方法

1.2本课题的研究内容及主体框架

1.2.1研究的主要内容

1.2.2主体框架

1.3本文结构

第二章自然语言处理基础

2.1语料库

2.1.1语料库的历史与现状

2.1.2语料库的使用

2.2词语切分与消歧

2.2.1正向最大匹配-MM法(The Maximum Matching Method)

2.2.2逆向最大匹配-OMM法(The Opposite Directional Maximum Matching Method)

2.2.3双向扫描法

2.3切分歧义

2.3.1歧义字段的类型

2.3.2互信息

2.3.3 t-测试及t-测试差

2.3.4互信息与t-测试差处理交集型歧义切分

2.4.词性的自动标注

2.4.1马尔科夫(Markov)过程

2.4.2隐马尔科夫模型(HMM)

第三章基于概念的向量空间模型

3.1自动文摘的相关模型——向量空间模型

3.1.1文本的向量空间表示

3.1.2特征项权重计算

3.2同义词词林

3.3基于概念的向量空间模型

3.3.1基于同义词词林概念的获取

3.3.2概念重要度计算

3.3.3文本间的相似度度量

3.3.4句子重要度计算

3.4停用词

3.5文摘句的选择

第四章粗糙集在自动文摘中的研究与应用

4.1粗糙集理论基础

4.2粗糙集数据预处理

4.2.1句子格的表示与提取

4.2.2句子重要度属性离散

4.3约简与规则的提取

4.4规则的应用

第五章系统实现

5.1系统程序的主要流程

5.2系统实现

第六章总结与展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

进入20世纪90年代,随着互联网的迅猛发展,信息的爆炸式增长满足了人们对信息需求的同时,也使人们快速、准确地找到真正需要的信息变得更加困难。自动文摘是解决这一问题的一种非常有效的技术,因此目前成为了人们日益关注的研究热点。 本文首先介绍了自动文摘的发展历史与研究现状,并说明了目前几种主要的自动文摘系统模型和方法:基于统计的机械文摘、基于理解的文摘、基于篇章结构的自动文摘以及它们的研究处理过程,对它们的优点和缺点进行了讨论,归纳出各自的特点。 接着本文对自然语言处理的技术基础进行了阐述。介绍了语料库的发展现状,并对本文所采用的来自北大计算语言研究所标注的《人民日报》语料库进行了说明,在其基础上进行了词典的建立,以及词性转移概率统计;介绍了本文采用的分词切分方法:正向、逆向以及双向结合得方法;针对出现的交集型切分歧义,本文采用基于互信息的消歧方法,并通过对语料库中歧义现象的统计建立了歧义信息统计表,避免了对整个语料库的重复搜索,提高了消歧的效率;词性标注方面,本文介绍了马尔科夫相关模型,借助其特征转移的性质对已切分完毕的语句进行标注,取得了很好的效果。 随后,本文利用同义词词林进行了词语概念的提取,构建文本概念的向量空间,并利用相似度的理论计算出其中的参数值,即段落重要度,从而在此基础上计算出了句子的重要度,最后利用fisher分类方法对重要度较高的语句进行提取,从而形成文摘。 本文尝试将句子格作为描述句子的特征,在句法依存的基础上进行格的提取,提出了粗糙集的决策方案,并进行了探索性工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号