首页> 中文期刊>中文信息学报 >一种融合聚类和时间信息的微博排序新方法

一种融合聚类和时间信息的微博排序新方法

     

摘要

随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一.微博检索与传统文本检索在两个方面明显不同:一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(*称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需考虑时间信息.根据这两点区别,该文在统计语言模型的基础上,使用聚类进行文本扩展,并将Hashtag信息运用到聚类过程中.同时,因为微博数据集中具有Hashtag的微博个数不超过13%,针对这一现象,该文还提出了一种扩展微博Hashtag的方法,最终提出了基于聚类的三个模型.然后通过定义文档先验将时间信息加入到提出的三个检索模型中,得到融入聚类和时间信息的三个模型.最后基于TRECMicroblog数据的实验结果证明,融合聚类信息和时间信息的模型在MAP和P@30上有明显提高,分别提高7.1%和11.6%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号