首页> 中文学位 >中文科技文献自动摘要系统
【6h】

中文科技文献自动摘要系统

代理获取

目录

文摘

英文文摘

独创性说明及关于论文使用授权的说明

第一章绪论

1.1摘要提取概述

1.1.1摘要提取的定义

1.1.2摘要提取的意义

1.1.3摘要分类

1.1.4摘要书写的规范

1.2本课题研究背景及目标

1.2.1本课题的研究背景

1.2.2本课题的研究目标

1.3论文结构

第二章自动摘要技术

2.1基于统计的自动文摘方法

2.1.1基本理论

2.1.2国外研究技术成果

2.1.3存在的问题

2.2基于自然语言理解的文摘方法

2.2.1基本理论

2.2.2国外研究技术成果

2.2.3存在的问题

2.3信息抽取

2.3.1基本原理

2.3.2国外研究成果

2.3.3存在的问题

2.4基于结构的自动文摘

2.5我国自动文摘研究成果

2.6中文自动摘要研究中存在的难点

2.7本章小结

第三章关键技术和方法

3.1向量空间模型

3.2词语相似度及其计算的方法

3.2.1词语相似度的含义

3.2.2词语相似度的计算方法

3.3基于《知网》词语相似度计算

3.3.1《知网》

3.3.2《知网》的知识描述语言

3.3.3词语的相似度计算

3.3.4义原相似度的计算

3.3.5特征结构的相似度计算

3.3.6集合的相似度计算

3.3.7实词相似度的计算

3.4本章小结

第四章系统设计与实现

4.1系统框架

4.2系统主要模块设计

4.2.1分词以及词性标注模块

4.2.2特征词抽取模块

4.2.3句子权重计算模块

4.2.4摘要生成模块

4.3本章小结

第五章系统测试与评价

5.1系统参数设定

5.2系统评估

5.2.1评估方法

5.2.2语料测试结果

5.2.3实例分析

5.3本章小结

第六章软件介绍

6.1系统主界面

6.2停用词词库管理

6.3领域词词库管理

6.4用户操作步骤

6.5本章小结

第七章结论

7.1研究工作总结

7.2系统存在的问题及下一步工作

致谢

参考文献

附录

攻读硕士期间取得的研究成果

展开▼

摘要

随着Internet的快速发展,人们迫切需要信息压缩工具来对大量的信息进行提炼、浓缩,而自动摘要系统正是这样的工具。人们可以首先利用计算机对这些大量的文本信息进行处理,生成基本能够反映对应文章的主题的摘要信息。然后人们只要阅读少量的摘要就能确定是否进行进一步阅览全文,这将大大提高人们获取电子文本信息的效率。 本文正是对中文自动摘要系统研究的一个探索。本文首先介绍了摘要提取的定义、意义、摘要的分类以及摘要的书写规范,提出了本课题的研究背景和目标。接着本文通过对现阶段几种主要的自动摘要技术:基于统计的自动摘要方法、基于自然语言理解的文摘方法、信息抽取、基于结构的自动摘要方法的比较和分析,得到它们自身的优点和缺点,并在此基础上提出一种主要基于传统的统计技术,并结合一定的语义关系的摘要方法。 该方法主要结合了基于统计和理解的摘要技术,针对中文科技文献提取出摘要。该方法首先对文本进行分词和词形标注处理,然后通过对词频等文本物理信息的统计,利用HowNet中的语义关系计算词语间的相似度,以此合并具有同义关系的词语,结合停用词词库和科技领域词词库计算出词语的权重,按照词语权重提取出能表征文本主要内容的特征词;根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小提出候选摘要句;最后利用VSM消除重复候选摘要句,并采取措施加强摘要连贯性、消减指代,参照科技文献摘要写作规范将候选摘要句按原文顺序输出。 最后本文还讨论了系统的评价方法和系统的实验结果。实验结果达到了预期效果,验证了本文提出的基于统计摘要与基于理解摘要相结合的摘要方法的可行性。本系统提出的摘要质量较好。 另外,在实现系统的过程中,本文还提出了领域词词库自动学习的方法。该方法能使领域词词库随着处理文摘数量的增加自身得到不断的完备,提高系统提取出的摘要的质量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号