首页> 中文学位 >基于Hadoop的微博用户兴趣与社区发现算法研究
【6h】

基于Hadoop的微博用户兴趣与社区发现算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景

1.2 课题研究意义

1.3 国内外研究现状

1.4 本文研究内容

1.5 本文组织结构

1.6 本章小结

第2章 基于语义向量和PageRank的微博标签提取

2.1 微博用户兴趣来源的问题分析

2.2 基于语义向量和PageRank的微博标签提取模型

2.3 基于语义向量的标签提取算法

2.4 基于PageRank的标签提取算法

2.5 基于语义向量和PageRank的微博标签提取算法复杂度

2.6 本章小结

第3章 基于网络拓扑和节点内容的微博社区发现

3.1 微博网络社区问题的提出

3.2 基于网络拓扑和节点内容的微博社区发现模型

3.3 基于网络拓扑和节点内容的微博社区发现算法设计

3.4 基于网络拓扑和节点内容的微博社区发现算法复杂度

3.5 本章小结

第4章 基于Hadoop的微博用户兴趣与社区发现算法实现

4.1 基于语义向量和PageRank的微博标签提取算法实现

4.2 基于网络拓扑和节点内容的微博社区发现算法实现

4.3 本章小结

第5章 实验分析与验证

5.1 实验环境及数据

5.2 评价标准

5.3 基于语义向量和PageRank的微博标签提取算法实验

5.4 基于网络拓扑和节点内容的微博社区发现算法实验

5.5 基于Hadoop平台的算法实验

5.6 本章小结

第6章 总结与展望

致谢

参考文献

攻读学位期间获得与学位论文相关的科研成果目录

展开▼

摘要

近年来,随着Web2.0的兴起,微博得到极速发展。目前有关社交网络的研究主要从兴趣发现和社区发现两方面展开。但现有兴趣发现算法大都基于用户数据或行为单方面,大部分的理论模型主要用于解决信息噪音问题。尤其是近年逐渐兴起的微博,现有算法较少考虑其社会化标签特征以及用户交互行为。对于社区发现算法来说,微博社交网络其复杂的拓扑结构以及节点内容属性区别于以往单一性质的网络结构,如果单纯考虑其中的任何一方面,都不能达到理想的社区发现效果。此外,现有的社区发现算法大多是基于点社区的,不能很好的识别网络中重叠社区。
  鉴于以上问题,本文主要工作有以下两个方面:
  (1)针对现有社交领域兴趣发现算法大都基于用户数据或行为单方面以及忽略社会化标签特征的问题,本文利用微博标签与用户内容、用户行为之间的关系,提出了基于语义向量和PageRank的微博标签提取算法。该算法首先解决了标签冷启动问题;其次扩展标签语义,建立用户语义模型,设计标签多样化推荐函数;最后考虑用户交互行为对用户兴趣发现的影响,基于PageRank算法设计一种计算标签权重的目标函数。
  (2)针对目前社区发现算法大多只关注网络结构或节点内容,本文提出了基于网络拓扑和节点内容的微博社区发现算法。该算法首先建立基于用户社交关系的有向无权微博网络,然后完成加权网络重构任务。划分微博社区时,为了克服点社区发现方法中节点重叠性的矛盾,采用链接社区完成层次聚类,并引入划分密度作为社区评价标准。
  最后,对提出的算法进行实验验证。首先为了确定算法中相关参数大小,进行多组对比实验,以期获得算法的最大性能参数值。然后将本文的标签提取算法与协同过滤算法和基于关键字提取的TFIDF算法在相同数据集中进行对比实验,结果表明本文所提算法在准确率,查全率以及F值上均有明显提升。其次为了验证本文的微博社区发现算法优越性,分析了社区划分过程,并选取不同规模网络,进行社区发现对比实验,结果显示无论网络规模如何变化,本文算法的社区发现准确率都是最高的。最后在Hadoop环境下进行算法实验,结果显示Hadoop环境下算法在效率以及可扩展性上均有显著提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号