首页> 中文学位 >基于递归神经网络的微博情感分类研究
【6h】

基于递归神经网络的微博情感分类研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 基于规则的文本情感分类研究

1.2.2 基于机器学习的文本情感分类研究

1.2.3 基于深度学习的文本情感分类研究

1.3 研究目标与内容

1.4 论文结构

第二章 微博文本情感分类基础

2.1 中文微博的特点

2.1.1 文本短

2.1.2 主题散乱

2.1.3 交互丰富

2.1.4 语言形式多样

2.1.5 噪声大

2.2 文本预处理

2.2.1 过滤特殊字符

2.2.2 分词

2.2.3 过滤停用词

2.3 文本表示模型

2.3.1 布尔模型(Boolean Model,BM)

2.3.2 向量空间模型(Vector Space Model,VSM)

2.3.3 概率模型(Probability Model,PM)

2.3.4 语言模型(Language Model,LM)

2.4 文本特征选择

2.4.1 文档频率法

2.4.2 信息增益法

2.4.3 卡方统计法

2.4.4 互信息法

2.5 权重计算

2.5.1 布尔权重

2.5.2 词频(TF)

2.5.3 逆文档频率(IDF)

2.5.4 TF-IDF

2.6 分类模型

2.6.1 朴素贝叶斯模型(Naive Bayes,NB)

2.6.2 最大熵模型(Maximum Entropy,ME)

2.6.3 支持向量机模型(Support Vector Machine,SVM)

2.6.4 神经网络模型(Neural Network,NN)

2.7 本章小结

第三章:微博文本的主客观分类研究

3.1 微博文本主客观分类的基本流程

3.2 基于大规模情感词典的主客观分类

3.2.1 构建情感词典

3.2.2 基于大规模情感词典的主客观分类方法

3.3 基于语料的主客观分类

3.3.1 基于bigram改进的文本表示模型——bigram-POS模型

3.3.2 基于语料的主客观分类方法

3.4 基于词典和语料相结合的主客观分类

3.4.1 构建可靠情感词典

3.4.2 基于词典和语料相结合的主客观分类方法

3.5 本章小结

第四章:微博文本的情感极性分类研究

4.1 微博文本情感极性分类的基本流程

4.2 特征构建

4.2.1 浅层学习特征构建

4.2.2 深层学习特征构建

4.2.3 基于浅层和深层学习的特征融合

4.3 基于改进递归神经网络的情感分类方法

4.3.1 递归神经网络模型(Recurrent Neural Networks,RNN)

4.3.2 基于LSTM改进的递归神经网络模型

4.4 微博文本情感极性分类总体框架

4.5 本章小结

第五章:实验设计与结果分析

5.1 实验数据介绍

5.1.1 实验数据的来源

5.1.2 语料的预处理

5.1.3 主客观分类语料

5.1.4 情感极性分类语料

5.2 实验工具介绍

5.3 实验评测指标

5.3.1 准确率

5.3.2 召回率

5.3.3 F值

5.4 实验与分析

5.4.1 微博文本主客观分类的实验与分析

5.4.2 微博文本特征选择的实验与分析

5.4.3 微博文本情感极性分类的实验与分析

5.5 本章小结

第六章:总结与展望

6.1 全文总结

6.2 展望

参考文献

攻读学位期间的研究成果

致谢

展开▼

摘要

作为近年来快速发展的社交网络平台,微博由于易操作,传播快,灵活度高等特点,已得到用户的普遍推崇和使用。虽然用户发布的微博内容很繁杂,但通过对其观察和分析发现,其中潜藏着大量的有用信息,尤其是微博文本中包含的情感倾向,有助于政府和企业了解大众需求、引导舆论、发现商机、提高收益。目前,针对微博文本的情感分类研究越来越受到相关领域学者的关注。如何学习深层语义、有效表示文本特征、提高情感分类效果一直是相关领域要研究的目标。
  本文主要研究了微博文本情感分类的两大方面:微博文本主客观分类和微博文本情感极性分类。在主客观分类阶段,提出了基于词典和语料相结合的方法。在情感极性分类阶段,对微博文本的特征提取方法和分类算法分别进行了研究。其中,针对特征提取,提出了基于浅层和深层学习的特征融合方法;针对分类算法,提出一种基于改进的递归神经网络的情感分类方法。本文的主要工作和创新成果具体如下:
  (1)针对微博文本的主客观分类问题,提出了基于词典和语料相结合的方法。首先根据本文所构建的可靠情感词典对可靠度较高的主观性文本进行识别,然后结合语料统计的方法对剩余文本进行主客观分类,最终得到的F1值比传统的基于大规模情感词典的主客观分类方法要高出6.72%。
  (2)鉴于一般的浅层学习特征忽略了文本内在语义,提出一种基于浅层和深层学习的特征融合方法。其中浅层学习特征选取了词、词性和词典这三类特征,深层学习特征利用word2vec工具进行提取,然后对它们进行融合。实验结果表明,特征融合后的微博文本情感极性分类效果要优于仅采用其中任何一种特征的效果。
  (3)针对微博文本的情感极性分类问题,采用一种改进的递归神经网络模型。该模型将一般递归神经网络的隐藏层替换成LSTM结构,使得在情感分类过程中,不仅把文本序列前后的相关性考虑在内,而且能够学习到文本中距离较远的相关信息。实验最终得到85.04%的分类准确率,比传统的采用基于浅层学习特征的支持向量机方法提高了3.17%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号