首页> 中文学位 >面向主题的新浪微博意见领袖研究
【6h】

面向主题的新浪微博意见领袖研究

代理获取

目录

声明

摘要

1.1 研究背景

1.2 研究目的及意义

1.3 本文研究内容

1.4 论文组织结构

1.4.1 论文逻辑结构

1.4.2 论文章节安排

1.5 主要创新点

2 相关理论及研究现状

2.1.1 舆情控制相关研究

2.1.2 意见领袖相关研究

2.1.3 微博主题挖掘相关研究

2.1.4 微博预测相关研究

2.2 微博主题挖掘模型

2.2.1 LDA主题模型的符号及定义

2.2.2 LDA理论知识

2.3 微博预测模型——随机森林

2.3.2 随机森林的构建

2.3.3 随机森林算法的优点

2.3.4 随机森林的分类效果性能指标

2.4 本章小结

3 面向主题的微博意见领袖识别方法

3.1 面向主题的微博意见领袖识别框架

3.2 基于LDA模型的微博主题挖掘

3.2.1 文本预处理

3.2.2 LDA建模与求解

3.2.3 分类微博文本及其相关信息

3.2.4 生成强度演化图

3.3 用户初始影响力衡量模型

3.3.1 模型提出

3.3.2 模型指标分析

3.3.3 意见领袖各指标量化

3.4 基于信息熵确定指标权重

3.5 用户关系图

3.6 本章小结

4 面向主题的微博意见领袖预测模型

4.1 相关概念定义

4.2 预测模型概述

4.3 特征提取

4.3.1 用户网络结构

4.3.2 用户历史活跃度

4.3.3 微博历史传播力度

4.3.4 用户自身特征

4.3.5 用户话题参与度

4.4 非平衡微博数据的平衡化

4.5 意见领袖预测模型构建

4.6 随机森林算法参数选择

4.7 本章小结

5.1.1 数据集

5.1.2 数据预处理

5.2 实验设计及分析

5.2.1 主题挖掘及分析

5.2.2 面向主题的意见领袖识别

5.2.3 随机森林预测

5.3 本章小结

6 总结与展望

6.1 总结

6.2 研究展望

参考文献

攻读学位期间的研究成果

致谢

展开▼

摘要

新浪微博因其注册门槛低和实时分享信息的特点,自公测以来便吸引了越来越多的用户。微博不仅随时传播着各种新闻,还可以让用户随时随地发表自己的看法,这加快了信息传播速度,也为用户提供了自由讨论的平台,但基于网络的虚拟性,用户在使用微博时易忽略法律和道德的约束,更有甚者发表不实言论,造成了恶劣影响。目前为止,微博舆情控制手段还停留在比较原始的层面,为此,本文从数据分析挖掘的角度出发,针对新浪微博的舆情控制,主要进行了三方面的研究。
  (1)确定舆情的发展方向,即微博的热度随着时间的变化情况,为舆情控制部门提供需重点关注的话题发展方向。在微博中,一个话题往往对应着某一事件,而用户发表的该话题相关微博则通常是对特定事件的讨论。为了把握该事件的舆情走向,首先需要了解用户对该事件讨论过程中呈现出的各种主题以及各个主题随着时间变化的演化情况。
  (2)确定当前影响力大的用户,为舆情控制部门提供需重点控制的人群。对所有参与话题讨论的用户进行数据整理,构建用户影响力衡量模型,并基于信息熵的方法对模型中的各个指标权重进行科学地计算,得出所有用户的初始影响力。结合主题分析结果构建主题-用户关系表,以主题相关性为依据划分用户群体,并根据不同群体间用户的转发关系建立图模型,迭代计算出不同主题下用户的最终影响力,按主题不同对最终影响力进行排名,选排名靠前的用户为面向主题的意见领袖。
  (3)确定可能在话题讨论中具有较大影响力的用户,为舆情控制部门提供需重点关注的人群。在用户影响力衡量模型各指标的基础上,结合用户参与话题讨论的特点,从用户网络结构、用户历史活跃度、微博历史传播力度、用户自身特征和用户话题参与度五个方面提取出14个特征向量,用于构建随机森林预测模型,在训练模型过程中优化参数特征向量个数和决策树棵数,使模型预测效果更好。
  本文对上述三方面的研究中所需要用到的理论知识和算法集中进行了整理。
  最后,基于“乐视12亿资产被冻结”这一实际舆情发展情况,设计实验对本文研究的三方面内容进行验证。运用Python工具实现微博数据的抓取、模型的仿真实验、实验结果的可视化输出等。实验表明,本文提出的意见领袖识别方法和意见领袖预测模型对于面向主题的意见领袖挖掘是有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号