首页> 中文学位 >基于评论极性与集成学习的微博谣言检测研究
【6h】

基于评论极性与集成学习的微博谣言检测研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文研究内容

1.4 本文组织结构

第2章 微博谣言分析与新特征提取

2.1 微博谣言概述

2.2 微博文本相关特征

2.2.1 文本特征分析

2.2.2 文本新特征提取

2.3 微博用户相关特征

2.3.1 用户特征分析

2.3.2 用户新特征提取

2.4 微博传播相关特征

2.4.1 传播特征分析

2.4.2 传播新特征提取

2.5 本章小结

第3章 微博评论情感极性判别及特征值计算

3.1 情感分类研究分析

3.2 结合语义规则的情感极性计算

3.2.1 基于情感词典的统计方法

3.2.2 构建极性情感词典

3.2.3 结合语义规则的情感极性计算方法

3.3 结合语义规则与机器学习的短文本情感分类方法

3.4 评论情感极性特征值计算

3.5 本章小结

第4章 基于集成学习的谣言检测方法

4.1 谣言检测模型分析

4.2 集成分类模型

4.2.1 集成学习

4.2.2 结合评论极性的CE-Stacking集成方法

4.3 谣言检测框架

4.3.1 数据获取

4.3.2 数据处理

4.3.3 谣言检测

4.4 本章小结

第5章 实验结果与分析

5.1 实验准备

5.1.1 实验环境

5.1.2 实验数据

5.1.3 评价指标

5.2 情感分类实验及结果分析

5.2.1 结合语义规则的情感极性计算方法实验与结果分析

5.2.2 结合语义规则的机器学习分类方法实验与结果分析

5.3 谣言检测实验及结果分析

5.3.1 新特征的有效性验证与结果分析

5.3.2 集成分类模型的有效性验证与结果分析

5.4 本章小结

第6章 总结与展望

6.1 工作总结

6.2 研究展望

致谢

参考文献

攻读硕士学位期间发表论文及科研情况

展开▼

摘要

微博作为最受欢迎的社交网络应用之一,在带给人们信息便利的同时,其中也充斥着网络谣言。网络谣言借助微博信息繁多、传播自由快速等特点,在平台上肆意传播,对个人和社会造成了严重危害。谣言的自动检测研究作为社交网络谣言研究、监控和治理的前提,逐渐受到社会和有关研究者的广泛关注。 本文以微博谣言为研究对象,分析微博相关文本信息与用户信息,提取出深层、隐性的差异信息作为新的分类特征;同时,借助集成学习的思想,优化Stacking集成算法以构建集成分类模型,完成谣言的自动检测。本文的主要工作如下: (1)基于谣言微博文本信息与用户信息的深层特征提取。通过分析已有研究提取的谣言特征,发现其中大多数特征较为简单、浅显,缺乏对相关文本信息与用户信息的深入分析。本文分析谣言微博与非谣言微博在评论信息、发文用户信息以及传播用户信息上的差异性,总结并提取出负面情绪评论比例、用户信誉值、辟谣用户参与等深层隐性特征,并给出了特征定量方法。 (2)针对微博评论极性特征的量化问题,提出了一种结合语义规则的机器学习情感分类方法。首先,收集并整理五个方面的词典资源,构建了一个较全面的极性情感词典;然后,将整个文本进行层级划分,并通过对微博文本表达形式以及句式结构的分析总结,定义了相应的语义规则与计算方法,更精确地计算文本的情感极性;最后,将语义规则和机器学习的方法相结合,利用语义规则计算方法提取文本的语义情感信息,将其拓展为语义情感特征,与基础情感特征结合作为机器学习分类方法的特征集,在一定程度上解决了机器学习分类方法忽略上下文语义联系和情感词典方法难以囊括新词的问题。 (3)设计了一种面向谣言检测的CE-Stacking集成分类模型构建方法。通过分析已有研究使用的分类模型,发现大多是使用分类算法构建单一分类器,泛化性能较差,缺乏对强分类模型的研究;本文结合集成学习的思想,利用评论极性特征优化Stacking集成方法,构建强分类模型,提高谣言检测的准确率。 通过抽取新浪微博数据进行实验验证,其结果表明,本文提出的情感分类方法和谣言检测模型相比此前研究的方法与模型,在分类效果上都有一定提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号