首页> 中文期刊> 《西安交通大学学报》 >一种突发性热点话题在线发现与跟踪方法

一种突发性热点话题在线发现与跟踪方法

         

摘要

针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型—动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现与跟踪方法.该方法可有效解决传统的基于静态向量空间模型的热点话题发现与跟踪方法仅可分析静态文本的缺陷,并具有以下特点:在特征选择阶段动态地生成热点词特征库,利用模型统一文本和话题的表示,在文本表示时给予突发性热点词更大的权重.基于实际网络文本流数据的实验表明,该方法对突发性热点话题发现的精确率与召回率分别达到92.75%和80.34%,显著优于传统的基于静态向量空间模型方法的实验结果,并可有效跟踪突发性热点话题,弥补了传统静态方法不能有效跟踪热点话题的不足.%Text representation in text mining plays an important role, but the traditional vector space model based on TF-IDF is a static statistical model and is not flexible for bursty topic detection and tracking since it could not model the bursty dynamic text flow (such as news text flow, blog text flow, etc. ) effectively. A new model called dynamic bursty vector space model is proposed to model text flow, and to detect and track bursty topics based on bursty feature detection. The proposed dynamic model has several characteristics in contrast to the traditional static model: 1) The model generates features dynamically in feature selection process; 2) A unified representation of the text and topics is given; 3) The model gives more weights to temporal bursty features. The experiments of bursty topic detection and tracking demonstrate that the dynamic bursty vector space model could be able to get higher precision and recall.

著录项

  • 来源
    《西安交通大学学报》 |2011年第12期|64-69,116|共7页
  • 作者单位

    西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;

    西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;

    西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;

    西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;

    西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;

    西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 国际互联网;
  • 关键词

    突发性热点话题; 话题发现与跟踪; 向量空间模型;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号