首页> 中文会议>第六届全国信息检索学术会议 >基于隐主题分析和文本聚类的微博客新闻话题发现研究

基于隐主题分析和文本聚类的微博客新闻话题发现研究

摘要

本文研究在大规模微博客文本集上的话题发现的问题。微博客与传统博客不同,首先,它的长度比传统博客短,往往只有只言片语。其次,它可以通过手机,即时通讯软件等,实时发布,从而会在短时间内产生大量数据。对于微博客的短文本数据,传统使用词或短语作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。本文使用隐主题模型,充分挖掘短文本的隐主题信息,并在隐主题空间上度量短文本之间的相似度,从而有效解决了短文本的数据稀疏性问题。另一方面,对于大规模的数据,传统直接利用聚类方法聚合出新闻话题的方法,很难快速得到理想结果。而本文则首先根据新闻的特点,选择出最有可能谈论新闻事件的微博客,然后用一种两层的K均值和层次聚类的混合聚类方法,将选择出的微博客快速准确地聚合成不同的新闻话题。实验结果表明,本文的方法能有效地从大规模微博客短文本数据集中,挖掘出新闻话题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号