首页> 中文学位 >基于词语网络的关键字提取策略研究
【6h】

基于词语网络的关键字提取策略研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景

1.2研究现状

1.2.1基于训练集的关键字提取策略

1.2.2不需要训练集的关键字提取策略

1.3研究内容和创新点

1.4论文结构

第二章相关概念

2.1文本预处理相关概念

2.1.1停用词

2.1.2词类

2.1.3词根

2.1.4短语

2.1.5评估函数

2.2词语网络相关概念

2.2.1词语网络的定义

2.2.2词语网络的存储方式

第三章相关理论

3.1共现分析

3.1.1共现分析的含义

3.1.2共现分析的方法论基础

3.1.3共现分析在文本挖掘中的作用

3.1.4共现分析与其它方法的比较

3.2复杂网络

3.2.1基本概念

3.2.2网络模型

3.2.3 SWN在自然语言中的应用

3.2.4复杂网络可视化

3.3网络顶点度量指标

3.3.1中介性指标

3.3.2节点删除指标

第四章基于词语网络的关键字提取算法

4.1算法比较

4.1.1文本预处理

4.1.2词语网络的构造

4.1.3关键字的提取依据

4.2已有算法存在的不足

第五章基于节点删除指标的关键字提取

5.1准备工作

5.2文本预处理

5.3词语网络的构造

5.3.1构造算法

5.3.2词语网络定义

5.4关键字的提取

5.5关键字加词根

5.6算法流程图

5.7算法分析

第六章实验

6.1实现环境

6.2实验数据

6.3词语网络的可视化

6.4实验的功能结构设计

6.5实验评价标准

6.6实验

6.6.1实验一:

6.6.2实验二:

6.7本章小结

结论与展望

参考文献

致谢

硕士期间所发表的论文

展开▼

摘要

关键字是表述文档中心内容的词汇,是计算机系统标引论文内容特征的词汇,是便于信息系统汇集以供读者检索的词汇。关键字提取是文本挖掘领域的一个分支,是文档检索、文档比较、摘要生成、文档分类和聚类的基础性工作。 关键字提取算法可分为两类:基于训练集的关键字提取策略和不需要训练集的关键字提取策略。基于训练集的方法将关键字提取视为分类问题,通过将文档中出现的词语划分到关键字类或非关键字类,再从关键字类中选择若干个词语作为关键字,该类算法由Peter.D.Turney首次提出,其技术已日趋成熟。 不需要训练集的算法,可分为以下四类:基于统计的方法,如频率统计:基于词语图的方法,如KeyGraph:基于词语网络的方法,如中介性指标(BC,Betweenness Centrality);基于SWN的方法;上述四种方法都是建立在词频统计基础上。基于统计的方法简单快速,能够提取高频词语,却忽略对文档具有重要意义但出现频率不高的词语,因此提取的关键字具有片面性。基于词语图的方法需要设定的参数过多,如顶点数、边数等,因而常造成边界上的取舍问题,影响算法的稳定性和精度。基于SWN的方法是以平均距离K度为关键字提取依据,而SWN理论以连通图为基础,故对非连通的文档结构图,无法衡量顶点的重要性,也无法正确地提取文档关键字。 本文主要研究基于词语网络的关键字提取算法,在分析已有基于词语网络的关键字提取算法的基础上,针对存在问题,提出一个新的基于词语网络的英文文档关键字提取策略,采用节点删除指标度量顶点(词语)的重要性。所提取的关键字不仅包括高频单词和短语,而且包括对文档中心内容贡献大但出现频率不高的单词和短语。 实验数据来自KEA和Extractor算法中的测试数据集,及世界著名的科技出版集团之一——德国施普林格提供的学术期刊及电子图书的论文为测试数据。以论文作者提供的关键字为基准,采刖平均准确率和平均召同率作为衡量提取效果的依据,通过将本文算法的实验结果与TF和BC算法的实验结果相比较,证明了本文算法的正确性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号