首页> 中文学位 >中文非受限领域自动文摘研究
【6h】

中文非受限领域自动文摘研究

代理获取

目录

文摘

英文文摘

声明

第1章 引言

1.1研究背景

1.2自动文摘的研究现状

1.3主要研究内容

第2章 自动文摘的基本理论

2.1文摘的概念

2.2文摘的分类

2.3自动文摘的主要方法

2.3.1基于概率统计的方法

2.3.2基于文本理解的方法

2.3.3信息抽取

2.3.4基于篇章结构的方法

2.4中文自动文摘实现的难题

2.5向量空间模型

2.6本章小结

第3章 自动文摘系统的设计与实现

3.1系统的设计

3.2文档句子化处理

3.3分词及词性标注

3.3.1基于词典的分词方法

3.3.2基于统计的分词方法

3.3.3基于理解的分词方法

3.4特征词的提取与加权

3.4.1特征词的提取

3.4.2特征词的加权

3.5句子权重的计算

3.6文摘的生成

3.7文摘的修饰

3.8本章小结

第4章 系统评价与结果分析

4.1内部评价

4.2外部评价

4.3结果分析

4.4本章小结

第5章 结论

参考文献

附录

致谢

展开▼

摘要

随着社会的进步,科学技术的发展越来越着眼于人民大众,自动文摘的研究也应该为普通大众服务。而普通大众所需求的信息是广泛的,是不限领域的,因此面向非受限领域的自动文摘研究更是迫在眉睫。
   研究了特征词及句子的加权算法,对现有的加权算法进行了改进,提出了特征词和句子加权的新算法:对特征词的加权,综合考虑了特征词在文档中的频率、在文档集中的频率、词长、位置以及是否为大写英文字母等特征;对句子的加权,综合考虑了句子在文档中的位置、句法结构以及是否有提示性短语等五种特征,并通过试验给出了句子五种特征相应的权值比例系数。另外还考虑了句子所在段落的重要度,对于重要段落中的句子适当加大了权值。
   结合自动文摘的研究现状,采用概率统计的方法,用新的特征词和句子加权算法代替传统的算法,实现了中文非受限领域的自动文摘系统。
   利用自建的文档集采用内部评价方法对开发的中文非受限领域自动文摘系统进行评价,结果表明该系统提取的文摘质量达到了预期效果,验证了所提出的中文非受限领域的自动文摘系统的有效性。分析了可能影响文摘质量的因素,为进一步完善文摘系统提供参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号