一种基于LDA模型的关键词抽取方法

朱泽德; 李淼; 张健; 曾伟辉; 曾新华

首页> 中文期刊>中南大学学报（自然科学版） >一种基于LDA模型的关键词抽取方法

一种基于LDA模型的关键词抽取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性，提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重，利用共现信息排序和选择相邻词汇形成候选关键短语，再使用相似性排除隐含主题一致的冗余短语。此外，从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试，实验在1040篇中文摘要及5408个关键词构成的测试集上展开。结果表明，算法有效地提高文档关键词抽取的准确率与召回率。%Due to the shortage of the comprehensive analysis of the coverage of document topics, the readability and difference of keyphrases, a new algorithm of keyphrase extraction TFITF based on the implicit topic model was put forward. The algorithm adopted the large-scale corpus and producted latent topic model to calculate the TFITF weight of vocabulary on the topic and further generate the weight of vocabulary on the document. And adjacent lexical was ranked and picked out as candidate keyphrases based on co-occurrence information. Then according to the similarity of vocabulary topics, redundant phrases were eliminated. In addition, the comparative experiments of candidate keyphrases were executed by document statistical information, vocabulary chain and topic information. The experimental results, which were carried out on an evaluation dataset including 1 040 Chinese documents and 5 408 standard keyphrases, demonstrate that the method can effectively improve the precision and recall of keyphrase extraction.

著录项

来源
《中南大学学报（自然科学版）》|2015年第6期|2142-2148|共7页
作者
朱泽德; 李淼; 张健; 曾伟辉; 曾新华;
展开▼
作者单位

中国科学技术大学自动化系;

安徽合肥;

230026;

中国科学院合肥智能机械研究所;

安徽合肥;

230031;

中国科学院合肥智能机械研究所;

安徽合肥;

230031;

中国科学院合肥智能机械研究所;

安徽合肥;

230031;

中国科学院合肥智能机械研究所;

安徽合肥;

230031;

中国科学院合肥智能机械研究所;

安徽合肥;

230031;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
信息抽取; 关键词抽取; LDA 模型; 主题相似性;
入库时间 2023-07-25 11:18:04

相似文献

中文文献
外文文献
专利

1. 基于图和LDA主题模型的关键词抽取算法 [J] . 刘啸剑 ,谢飞 ,吴信东 . 情报学报 . 2016,第006期
2. 一种基于词加权LDA模型的专利文献分类方法 [J] . 孙伟 ,刘文静 ,葛丽阁 . 计算机技术与发展 . 2019,第003期
3. 一种基于SA_LDA模型的文本相似度计算方法 [J] . 邱先标 ,陈笑蓉 . 计算机科学 . 2018,第0z1期
4. 一种基于PL-LDA模型的主题文本网络构建方法 [J] . 张志远 ,霍纬纲 . 复杂系统与复杂性科学 . 2017,第001期
5. 一种基于LDA主题模型的评论文本情感分类方法 [J] . 王伟 ,周咏梅 ,阳爱民 . 数据采集与处理 . 2017,第003期
6. 基于LDA的关键词抽取方法 [C] . 翁伟 ,王厚峰 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 一种词性标注LDA模型的文本分类方法研究 [A] . 张超 . 2015

一种基于LDA模型的关键词抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅