首页> 中文学位 >摘录式单文档中文自动文摘系统的研究与实现
【6h】

摘录式单文档中文自动文摘系统的研究与实现

代理获取

目录

摘要

Abstract

目录

第1章 引言

1.1 研究背景及意义

1.2 国内外研究现状

1.3 研究目标与创新工作

1.4 论文组织结构

第2章 自动文摘技术综述

2.1 自动文摘原理

2.2 自动文摘分类

2.3 自动文摘的主要方法

2.3.1 自动摘录

2.3.2 基于结构分析的自动摘要

2.3.3 基于理解的自动摘要

2.3.4 信息抽取

2.4 自动文摘要考虑的因素

2.5 中文自动文摘中的技术难点

2.6 本章小结

第3章 摘录式单文档中文自动文摘系统的总体设计

3.1 摘录式单文档中文自动文摘系统问题描述

3.2 总体设计思路

3.2.1 中文分词

3.2.2 文本分析

3.2.3 文本转换

3.2.4 文本合成

3.3 数据模型设计

3.4 本章小结

第4章 摘录式单文档中文自动文摘系统的实现及性能评估

4.1 开发环境

4.2 实现流程

4.3 关键模块实现

4.3.1 ChineseSegmentation模块

4.3.2 FeatureExtraction模块

4.3.3 BayesClassify模块

4.3.4 SentenceExtraction模块

4.4 系统界面

4.4.1 系统主界面

4.4.2 系统操作步骤

4.5 系统性能评估方法

4.5.1 系统性能评估参数

4.5.2 Weka实验

4.6 系统性能测试

4.7 本章小结

第5章 结论与展望

5.1 论文工作总结

5.2 存在的问题及下一步工作

致谢

参考文献

研究生期间的研究成果

展开▼

摘要

在当今信息爆炸的时代,人们面对着大量没有经过整理的原始数据时,将会茫然不知所措,而自动文摘技术能给人们提供更有力的信息加工技术和工具,但时下出现的自动文摘系统,特别是中文自动文摘系统并没有取得很好的效果,故本论文对中文自动文摘系统进行了研究。本论文提出的摘录式单文档中文自动文摘系统以单篇纯文本文档作为输入,自动地抽取全面准确地反映文档中心内容的句子组成文档的摘要。本系统首先采用分词工具ICTCLAS对文档进行分词和词性标注:然后采用TFC权值对分词后的文档建立向量空间模型,抽取句子的特征;接着采用朴素贝叶斯分类算法自动学习特征组合的方式和参数,将摘要转化成分类问题;最后根据分类结果,抽取文摘句组成文档的摘要。本论文首先对自动文摘技术进行综述:其次,介绍摘录式单文档中文自动文摘系统的总体设计,包括中文分词、文本分析、文本转换及文本合成四大模块的设计;再次,介绍摘录式单文档中文自动文摘系统的实现;最后,介绍系统性能评估的各个参数指标,并使用weka及30篇不同体裁的文档对系统的性能进行评估。本论文提出的摘录式单文档中文自动文摘系统分为四大模块,每个模块通过比较分析当前的文摘技术,选取一种最优的方案,试图通过各个模块的局部最优,最终获得系统的最优文摘效果。通过用Weka及30篇不同体裁的文档对系统的性能进行测试,表明本系统的文摘抽取效果是较好的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号