首页> 中文期刊> 《电脑与电信》 >基于远程学习的关键词提取技术研究

基于远程学习的关键词提取技术研究

         

摘要

伴随着互联网技术的发展,文本数量的爆发式增长带来了处理文本数据的一些困扰,传统的文本聚类以及关键词提取的技术不能很好解决对大数据进行精准筛选的需求.对此,提出利用基于LDA算法的潜在语义模型来对文本进行文本聚类,得到了对文本进行聚类的结果和LDA提取出来的主题词语;然后利用FP-growth算法对LDA算法的结果进行分析,对文本进行挖掘,得到中文关键词集;借助网络知识库的思想,利用百度百科提出了汉语比对算法对中文关键词集进行筛选,过滤掉了很多噪声词.实验表明,本文的方法可以很好地对给定的中文语料文本进行文本聚类和关键词提取,特别是在增加了基于百度百科远程学习的筛选之后,系统的准确率有大幅度的提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号