首页> 中文学位 >基于主题模型的关键词抽取算法研究
【6h】

基于主题模型的关键词抽取算法研究

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 引言

1.1.1 关键词研究背景

1.1.2 关键词抽取的应用

1.2 本文主要研究内容

1.2.1 课题来源

1.2.2 主要研究内容

1.3 本文组织结构

1.4 本章小结

第二章 相关工作概述

2.1 有监督的抽取算法

2.2 无监督的抽取算法

2.3 主题模型

2.4 本章小结

第三章 结合主题和统计特征的关键词抽取

3.1 引言

3.2 算法描述

3.2.1 算法流程图

3.2.2 文档预处理

3.2.3 候选词语选择

3.2.4 词语主题特征计算

3.2.5 结合统计特征计算

3.3 实验

3.3.1 数据集

3.3.2 评估策略

3.3.3 参数调节

3.3.4 与基本算法对比

3.4 本章小结

第四章 基于图和LDA主题模型的关键词抽取

4.1 引言

4.2 算法描述

4.2.1 算法流程图

4.2.2 主题模型

4.2.3 图模型

4.2.4 关键词选择

4.3 实验

4.3.1 实验数据和评估指标

4.3.2 参数调节

4.3.3 与基本算法对比

4.4 与第三章提出的算法对比

4.5 本章小结

第五章 总结与展望

5.1 工作总结

5.2 工作展望

参考文献

攻读硕士学位期间的学术活动及成果情况

展开▼

摘要

随着大数据时代的来临,海量信息充斥网络,面对如此复杂而庞大的数据,快速且准确地获得关键信息,变得尤为重要。在文本领域,每天都会有海量数据产生,比如网页新闻、论文文献、微博舆论等,鉴于人力物力的有限性,处理如此多的数据几乎是不可能的,而关键词则能有效地概括反映文章的主题思想,人们可以借助文本的关键词快速了解文本内容,获取到关键信息。关键词是表达一篇文档核心内容的最小单元,在很多领域都扮演着很重要的角色,包括文档的自动摘要、网页信息抽取、文档的分类聚类、信息的检索等。然而传统的人工标注关键词耗时费力,所以需要设计出能够自动抽取关键词的算法。
  针对以上问题,本文进行了关键词抽取算法的研究,引入主题的概念,从主题角度进行关键词抽取。本文的主要工作如下:
  (1)首先对关键词抽取算法进行总体概述,根据关键词抽取方法的不同,分别从是否需要标注语料、抽取的关键词特征、抽取的文本语料的长度等角度,介绍了不同的关键词抽取方法。
  (2)由于传统的关键词抽取没有考虑到关键词与文章的主题关系,本文引入主题的概念,利用LDA主题模型,结合n-grams进行关键词抽取。从关键词的定义中可以得知,关键词要能最大程度的覆盖文章的主题,表达文章的主题思想。该方法通过将主题语义特征结合传统的统计特征,一定程度上能够较好地抽取出文章的关键词。
  (3)基于图和LDA主题模型的关键词抽取算法,利用TextRank图模型,直接将整个短语作为图的节点,迭代计算LDA主题得分,得到短语节点间的相关性,最终候选词的得分通过所从属的节点得分等信息计算得出,并选取前K个得分高的候选词作为文章的关键词。实验结果表明,该方法优于基本的关键词抽取算法,能够有效地抽取出文章的关键词。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号