首页> 中文学位 >基于聚类的热点主题挖掘
【6h】

基于聚类的热点主题挖掘

代理获取

摘要

随着互联网技术的普及应用,论坛已经成为民众获取信息、交流感情、表达思想的平台。在越来越多的民众参与下,信息量以几何级的速度膨胀式地增长,快速获取用户所感兴趣的信息和提取一段时间内的热点主题已经成了急需解决的问题。
   大量研究发现,复杂网络具有社区结构的特性-簇内的对象之间相似度较高,而簇之间的相似性却较低。互联网本身作为一个复杂网络,具备了社区结构的特性。伴随数据挖掘在各个领域的广泛应用,大量学者将聚类算法应用于复杂网络的社区结构划分。所以,在论文中采用数据挖掘的聚类算法挖掘BBS论坛中的热点主题。
   本文针对2003年人民网强国论坛的帖子记录,经过多次数据处理得到了论坛的兴趣网络。再把已经得到的兴趣网络,根据复杂网络的基本性质,提取了以用户为节点的线索数和作者相关数,作为数据挖掘最终数据输入的两个属性,用数据挖掘软件SPSSClementine中的K-means算法和TwoStep算法分别对提取好的数据做聚类划分,通过研究极大聚类并结合2003年的实际情况选择五个典型主题分别统计了各个主题的帖子数并计算了占总帖子数的比例,发现各种处理方法的比例变化都很小,并且发现拥有最多节点的极大聚类,可以很好的反应论坛的热点主题。因此,对极大聚类中的帖子进行文本聚类来分析论坛的热点主题,不仅降低了文本聚类的工作量还提高了效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号