首页> 中文期刊> 《现代计算机:下半月版》 >融合词向量与关键词提取的微博话题发现

融合词向量与关键词提取的微博话题发现

             

摘要

传统的微博话题发现方法主要利用词频进行词的特征提取,然后使用单一聚类(Single-pass)方法、主题模型Latent Dirichlet Allocation(LDA)进行文本聚类,往往忽略文本之间词与词潜在的语义相似关系。在微博这种短文本表现不佳。针对这一问题进行研究,提出一种基于词向量与关键词提取微博话题检测方法。首先通过连续词袋模型(CBOW)来提取微博文本的词向量特征,对每个文档的词向量求平均并归一化得到文档向量。然后通过聚类算法得到聚类结果,并将聚类的结果与通过图排序算法(TextRank)提取的文本关键词进行共现分析和筛选得到微博话题。在真实数据集上进行实验,该方案能有效提取微博话题,在准确率和轮廓系数(CH)上优于传统方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号