首页> 中文期刊> 《计算机系统应用》 >基于词共现关系和粗糙集的微博话题检测方法

基于词共现关系和粗糙集的微博话题检测方法

         

摘要

Traditional word co-occurrence detection methods in microblog news encounter the problems of high computational complexity, high time consuming, low recall rate and low precision. An improved algorithm of word co-occurrence detection based on rough set is proposed in this paper aiming at solving these problems. It builds a word co-occurrence matrix through word co-occurrence relation, and finds out the maximum complete subgraph as topic cluster center via co-occurrence matrix, finally identifies each topic keyword set using the rough set theory. The experimental results carried out on the microblog content corpus of NLPIR and the real-time collection of microblog data set verify that this method can effectively detect news topic from the massive microblog information and realize the news topic tracking.%为解决传统词共现方法在微博中检测话题时计算复杂度大、查全率不高、查准率低的情况,提出一种基于粗糙集原理的改进词共现算法(RSCW)。通过词共现关系形成词共现矩阵,并由共现矩阵找出极大完全子图作为话题簇中心,最后由粗糙集原理找出每个话题的关键词集合。在 NLPIR 微博内容语料库和实时获取的微博数据集上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率。

著录项

  • 来源
    《计算机系统应用》 |2016年第6期|17-24|共8页
  • 作者

    兰天; 郭躬德;

  • 作者单位

    福建师范大学 数学与计算机科学学院;

    福州 350007;

    福建师范大学 网络安全与密码技术福建省重点实验室;

    福州 350007;

    福建师范大学 数学与计算机科学学院;

    福州 350007;

    福建师范大学 网络安全与密码技术福建省重点实验室;

    福州 350007;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    微博; 词共现图; 粗糙集; 话题检测;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号