基于频繁模式挖掘的中文关键词提取算法

崔诚煜; 冉晓旻

首页> 中文期刊> 《太赫兹科学与电子信息学报》 >基于频繁模式挖掘的中文关键词提取算法

基于频繁模式挖掘的中文关键词提取算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

A keyword extraction algorithm for Chinese documents based on frequent pattern mining is proposed aiming at the problems of existing Keywords Extraction Algorithm(KEA) including high computational complexity and mining shallow semantic information. This algorithm adopts improved FP-Growth technology to extract word co-occurrence information and remove noisy words. It utilizes semantic similarity algorithm to eliminate synonyms and simplify the characteristics of candidates, thus reducing the storage space and the amount of calculation when ensuring the high precision and recall. Experimental results show that the average F value of corpus reaches 59.7%, which is higher than classical algorithms;and that the support threshold is the vital influencing factor.%针对现有关键词提取算法存在计算复杂、语义信息挖掘较浅等问题，提出一种基于频繁模式挖掘的中文关键词提取算法。该算法采用改进的 FP-增长算法挖掘词共现信息，排除噪音词汇；利用语义相似度算法消除同义词；精简候选词特征，在保证较高准确率和召回率的条件下减少了存储空间和计算量。实验结果表明，该算法所获得的平均 F值为59.7%，高于若干经典算法；支持度计数是最重要的影响因素。

著录项

来源
《太赫兹科学与电子信息学报》 |2015年第2期|279-284|共6页
作者
崔诚煜; 冉晓旻;
展开▼
作者单位

信息工程大学信息系统工程学院;

河南郑州 450002;

信息工程大学信息系统工程学院;

河南郑州 450002;

展开▼
原文格式 PDF
正文语种 chi
中图分类信号分析;信息处理（信息加工）;
关键词
提取; 频繁模式挖掘; 词共现; FP-增长;

相似文献

中文文献
外文文献
专利

1. 基于频繁模式挖掘的中文关键词提取算法 [J] . 崔诚煜 ,冉晓旻 . 太赫兹科学与电子信息学报 . 2015,第002期
2. 一种基于频繁模式有向无环图的数据流频繁模式挖掘算法 [J] . 任家东 ,王倩 ,王蒙 . 燕山大学学报 . 2011,第002期
3. 一种基于上三角频繁项集矩阵的频繁模式挖掘算法 [J] . 王文正 ,王文平 ,许映秋 . 微电子学与计算机 . 2010,第9期
4. 基于频繁叶模式的XML最大频繁查询模式挖掘算法 [J] . 陈超祥 ,丁健龙 ,华成 . 计算机应用与软件 . 2009,第006期
5. 基于频繁模式树的最大频繁模式挖掘算法 [J] . 缪裕青 . 桂林电子科技大学学报 . 2004,第003期
6. 一种基于中医方剂数据库的Top-Rank-k频繁模式挖掘算法 [C] . . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 基于约简频繁模式树的频繁模式挖掘及查询算法研究 [A] . 胡相峰 . 2010

基于频繁模式挖掘的中文关键词提取算法

摘要

著录项

相似文献

相关主题

期刊订阅