基于主题模型的关键词抽取算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着大数据时代的来临，海量信息充斥网络，面对如此复杂而庞大的数据，快速且准确地获得关键信息，变得尤为重要。在文本领域，每天都会有海量数据产生，比如网页新闻、论文文献、微博舆论等，鉴于人力物力的有限性，处理如此多的数据几乎是不可能的，而关键词则能有效地概括反映文章的主题思想，人们可以借助文本的关键词快速了解文本内容，获取到关键信息。关键词是表达一篇文档核心内容的最小单元，在很多领域都扮演着很重要的角色，包括文档的自动摘要、网页信息抽取、文档的分类聚类、信息的检索等。然而传统的人工标注关键词耗时费力，所以需要设计出能够自动抽取关键词的算法。
　　针对以上问题，本文进行了关键词抽取算法的研究，引入主题的概念，从主题角度进行关键词抽取。本文的主要工作如下:
　　(1)首先对关键词抽取算法进行总体概述，根据关键词抽取方法的不同，分别从是否需要标注语料、抽取的关键词特征、抽取的文本语料的长度等角度，介绍了不同的关键词抽取方法。
　　(2)由于传统的关键词抽取没有考虑到关键词与文章的主题关系，本文引入主题的概念，利用LDA主题模型，结合n-grams进行关键词抽取。从关键词的定义中可以得知，关键词要能最大程度的覆盖文章的主题，表达文章的主题思想。该方法通过将主题语义特征结合传统的统计特征，一定程度上能够较好地抽取出文章的关键词。
　　(3)基于图和LDA主题模型的关键词抽取算法，利用TextRank图模型，直接将整个短语作为图的节点，迭代计算LDA主题得分，得到短语节点间的相关性，最终候选词的得分通过所从属的节点得分等信息计算得出，并选取前K个得分高的候选词作为文章的关键词。实验结果表明，该方法优于基本的关键词抽取算法，能够有效地抽取出文章的关键词。

著录项

作者
刘啸剑;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名吴信东,谢飞;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本数据; 关键词; 抽取算法; 主题模型;

相似文献

中文文献
外文文献
专利

1. 基于图和LDA主题模型的关键词抽取算法 [J] . 刘啸剑 ,谢飞 ,吴信东 . 情报学报 . 2016,第006期
2. 基于主题模型包含突发因素的推荐算法研究 [J] . 严长春 ,生佳根 ,於跃成 . 计算机与数字工程 . 2020,第006期
3. 基于主题模型的热点新闻推荐算法研究 [J] . 张宁 ,曾知涧 ,王利洪 . 计算机科学与应用 . 2019,第010期
4. 基于主题模型的测试用例优先级排序算法研究 [J] . 张传娟 . 大庆师范学院学报 . 2018,第006期
5. 基于Spark的并行化主题模型算法研究 [J] . 邹小波 ,詹敏 . 电脑知识与技术 . 2017,第008期
6. 基于序列到序列模型的法律问题关键词抽取 [C] . Daojian Zeng ,曾道建 ,Guowei Tong . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于频繁模式挖掘的关键词抽取算法研究 [A] . 王利利 . 2019

基于主题模型的关键词抽取算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅