首页> 中文学位 >社交网络中的标签主题识别及社群挖掘方法研究
【6h】

社交网络中的标签主题识别及社群挖掘方法研究

代理获取

目录

声明

摘要

图目录

表目录

1绪论

1.1选题的背景及意义

1.1.1选题的背景

1.1.2选题的意义

1.2相关理论及研究综述

1.2.1社会标签系统概述

1.2.2标签主题识别

1.2.3用户关系分析

1.2.4研究评述

1.3研究的内容和方法

1.3.1研究内容

1.3.2研究方法

1.4技术路线和结构安排

1.4.1技术路线

1.4.2结构安排

2标签主题生成及用户重要性区分方法

2.1 问题描述及研究思路

2.1.1 问题描述

2.1.2研究思路

2.2标签主题生成

2.2.1相关定义

2.2.2标签聚类算法

2.2.3用户兴趣社群划分

2.3用户重要性的区分

2.3.1 用户关系矩阵

2.3.2用户重要度指标

2.3.3好友推荐应用算法

2.4实验及讨论

2.4.1实验数据集

2.4.2标签聚类实验

2.4.3用户相似度实验

2.4.4好友推荐实验

2.5本章小结

3结合时间因素的用户兴趣更新模型

3.1问题描述及研究思路

3.1.1问题描述

3.1.2研究思路

3.2时间加权的LDA主题模型

3.2.1时间权重确定

3.2.2带有时间权重的LDA模型

3.3标签关联的空间向量相似度模型

3.3.1基于LDA的网络主题获取

3.3.2空间向量相似度模型

3.3.3用户兴趣层次树

3.4用户兴趣的更新

3.4.1用户兴趣更新算法

3.4.2更新模型形式化表示

3.5实验及讨论

3.5.1数据采集、清洗及预处理

3.5.2 LDA网络主题抽取实验

3.5.3用户兴趣挖掘结果

3.6本章小结

4基于用户社会关系及标签主题的社群划分

4.1问题描述及研究思路

4.2基于用户社会关系的链接预测分析

4.2.1用户关注关系分析

4.2.2用户互动关系分析

4.2.3用户社会关系相似度模型

4.3基于标签主题的用户相似度计算

4.3.1用户标签相似度模型

4.3.2用户主题相似度模型

4.3.3用户标签主题相似度模型

4.4基于用户综合相似度的社群划分

4.4.1用户综合相似度模型及权重调节

4.4.2信息粒度社群划分过程

4.5实验与讨论

4.5.1数据统计及预处理

4.5.2基于用户社会关系的链接预测实验

4.5.3信息粒度社群划分实验

4.6本章小结

5社群的知识增长测度及用户选择方法

5.1问题描述及研究思路

5.1.1问题描述

5.1.2研究思路

5.2混合标签本体模式

5.3知识社群的组成及特征

5.4社群的知识增长测度方法

5.4.1社群的知识转移量

5.4.2社群的知识转移效率

5.5社群的用户选择方法

5.5.1知识转移消息形式化模型

5.5.2知识转移用户选择算法

5.6本章小结

6结论与展望

6.1结论

6.2创新点

6.3研究局限和展望

参考文献

攻读博士学位期间科研项目及科研成果

致谢

作者简介

展开▼

摘要

Web2.0技术与社会化媒体的迅速发展为人们获取信息、发表意见、交互活动提供了开放的、便捷的平台。海量复杂的信息产生在这种社交网络上,其背后隐藏着潜在好友、意见领袖、热点事件等有用的信息,而获得这些有用信息的关键是寻找具有相似性特征的用户群体——社群。实施有效的社群挖掘不仅影响着人们的生产和生活,也对促进社会的和谐发展具有十分重要的意义。
  社交网络的信息主要来源于用户生成和交互的文本内容,因此,社群挖掘不再是单一网络结构的发现,而是更需要着眼于对这些文本信息语义的理解和内容上的挖掘。本文借鉴社会标签系统的信息组织模式,以用户关系为研究对象,开展面向标签主题识别的社群挖掘的研究工作:
  1)提出一种基于标签主题的用户重要性区分方法。用户的兴趣可能是多方面的,而传统方法对用户的“多兴趣”并未加以区分,致使用户重要性区分并未在用户的同一兴趣类别中进行,导致了用户相似性度量的“兴趣偏差”问题。针对这一问题,本文在大众分类模式网络中,首先采用标签聚类方法来识别兴趣主题,并归类用户;然后在兴趣主题相同的用户社群中,结合社会网络分析和PageRank方法构建用户重要度指标;最后将该指标引入用户相似度模型,在delicious数据集上进行有效性的验证,并在好友推荐中得以应用。
  2)构建结合时间因素的用户兴趣更新模型。建立社交网络的用户兴趣模型对于提供高质量的网络个性化服务具有重要意义,而识别用户兴趣的变化则是建模中的难点。针对并未以大众分类模式搭建的社交网络的标签并不丰富的特点,以LDA(Latent Dirichlet Allocation)主题模型中的“词语”作为标签,将标签语义特征和时间特征相结合构建用户兴趣更新模型。按照微博信息量的不同将用户划分为两大类:针对微博信息丰富的老用户,引入时间权重函数构建用户LDA兴趣更新模型;而针对微博信息较少的“冷启动”用户,采用空间向量相似性度量方法构建用户的兴趣模型,并通过学习模型对用户的兴趣变化进行识别,实现对用户兴趣模型的更新。在微博数据集上对所提出的方法进行了应用,并获得了网络的主题、网络主题的核心用户以及用户的兴趣。
  3)提出一种综合考虑用户社会关系和用户生成内容社群划分的方法。本部分包括两个阶段的工作:用户综合相似度的确定和基于信息粒度的社群划分。第一阶段从用户社会关系和用户生成内容两个视角,采用链接预测方法优化社会关系模型,采用“细粒度”用户标签和“粗粒度”内容标签构建用户“标签-主题”关系模型,将这两个模型加权汇总并设定可适应性的调节参数,建立融合社会关系和用户内容的用户综合相似度模型。第二阶段针对K-Means聚类算法的不足以及数据的高维性和稀疏性的缺陷,将信息粒度原理应用于用户聚类分析中,给出用户等价关系的隶属度和广义的等价关系,在此基础上提出一种基于信息粒度的社群划分算法。实验结果表明,由于有效融合了用户的社会关系这一重要信息和引入信息粒度方法,提出的模型与未加权的用户标签主题模型、K-Means相比,获得了更好的I指标和Dunn指标评价结果。
  4)提出社群的知识增长测度及用户选择方法。将社会标签系统应用于知识服务研究中,借鉴前文社群挖掘关键技术和研究成果,建立一种混合标签本体模式下的语义知识库,分析生成的知识社群组成及特征。将个体与组织之间的知识转移进行量化表示,对知识社群内的知识存量和知识增长进行测度。从内容感知的角度,结合相似度计算模型,设计知识转移过程的用户选择算法,优化知识转移,进而推动知识在群体内的良性高效流动。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号