首页> 中文会议>第七届中国互联网学术会议(ICoC2018) >一种基于Spark学术研究热点的挖掘方法

一种基于Spark学术研究热点的挖掘方法

摘要

学术论文作为学术界研究成果的重要表现形式,其中包含了大量珍贵的信息.本文以学术论文为语料库,利用Spark机器学习库MLlib(Machine Learning Library)中的LDA(Latent Dirichlet Allocation)主题模型挖掘学术研究热点,发现隐藏的有价值的信息.对LDA主题模型生成的文档-主题概率分布矩阵和主题-词概率分布矩阵进行了类TF-IDF处理,可以得到文档-主题评分矩阵和主题-词评分分布矩阵.分别计算两个评分矩阵中主题向量与背景主题向量的Jensen-Shannon散度,然后对加权归一化的两个评分结果排序.评分结果排序中排名靠前的主题就是学术论文中的研究热点.实验结果表明,基于Spark挖掘学术论文研究热点的效果较好,此方法具有较高的应用价值.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号