基于Hadoop的微博用户兴趣与社区发现算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着Web2.0的兴起，微博得到极速发展。目前有关社交网络的研究主要从兴趣发现和社区发现两方面展开。但现有兴趣发现算法大都基于用户数据或行为单方面，大部分的理论模型主要用于解决信息噪音问题。尤其是近年逐渐兴起的微博，现有算法较少考虑其社会化标签特征以及用户交互行为。对于社区发现算法来说，微博社交网络其复杂的拓扑结构以及节点内容属性区别于以往单一性质的网络结构，如果单纯考虑其中的任何一方面，都不能达到理想的社区发现效果。此外，现有的社区发现算法大多是基于点社区的，不能很好的识别网络中重叠社区。
　　鉴于以上问题，本文主要工作有以下两个方面：
　　(1)针对现有社交领域兴趣发现算法大都基于用户数据或行为单方面以及忽略社会化标签特征的问题，本文利用微博标签与用户内容、用户行为之间的关系，提出了基于语义向量和PageRank的微博标签提取算法。该算法首先解决了标签冷启动问题；其次扩展标签语义，建立用户语义模型，设计标签多样化推荐函数；最后考虑用户交互行为对用户兴趣发现的影响，基于PageRank算法设计一种计算标签权重的目标函数。
　　(2)针对目前社区发现算法大多只关注网络结构或节点内容，本文提出了基于网络拓扑和节点内容的微博社区发现算法。该算法首先建立基于用户社交关系的有向无权微博网络，然后完成加权网络重构任务。划分微博社区时，为了克服点社区发现方法中节点重叠性的矛盾，采用链接社区完成层次聚类，并引入划分密度作为社区评价标准。
　　最后，对提出的算法进行实验验证。首先为了确定算法中相关参数大小，进行多组对比实验，以期获得算法的最大性能参数值。然后将本文的标签提取算法与协同过滤算法和基于关键字提取的TFIDF算法在相同数据集中进行对比实验，结果表明本文所提算法在准确率，查全率以及F值上均有明显提升。其次为了验证本文的微博社区发现算法优越性，分析了社区划分过程，并选取不同规模网络，进行社区发现对比实验，结果显示无论网络规模如何变化，本文算法的社区发现准确率都是最高的。最后在Hadoop环境下进行算法实验，结果显示Hadoop环境下算法在效率以及可扩展性上均有显著提高。

著录项

作者
李俊江;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名李春林;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
兴趣发现; 社区发现; 微博用户兴趣; 网络拓扑;

相似文献

中文文献
外文文献
专利

1. 基于链接分析和用户兴趣的微博社区发现算法 [J] . 郑伟涛 ,吴永亮 ,郭芳琳 . 计算机工程与科学 . 2017,第004期
2. Hadoop下基于边聚类的重叠社区发现算法研究 [J] . 方木云 ,刘洪彬 ,谢恩文 . 计算机技术与发展 . 2015,第003期
3. 基于Hadoop云计算平台的新浪微博数据聚类分析算法研究 [J] . 段庆伟 ,铁木巴干 . 辽宁科技学院学报 . 2017,第004期
4. 基于关系社区发现改进的用户兴趣建模 [J] . 胡吉明 ,胡昌平 . 情报学报 . 2013,第007期
5. 基于关键词共现和社区发现的微博热点主题识别研究 [J] . 丁晟春 ,王楠 ,吴靓婵媛 . 现代情报 . 2018,第003期
6. 基于微博标签和微博内容的用户兴趣模型 [C] . Peng Ye ,彭晔 ,Zhang Cuixiao . SCEG2015研讨会（2015年“计算机科学与技术及教育技术“学术研讨会） . 2015
7. 基于链接分析和用户兴趣的微博社区发现算法 [A] . 郑伟涛 . 2016

基于Hadoop的微博用户兴趣与社区发现算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅