首页> 中国专利> 基于深度学习的新浪微博用户情感影响力分析方法

基于深度学习的新浪微博用户情感影响力分析方法

摘要

本发明提供提出了基于深度学习的新浪微博用户情感影响力分析方法,包括数据获取、数据预处理、构建多元情感特征词向量、文本进行情感分类和定义微博用户情感影响力,本发明中通过使用MSF‑CNN算法对微博文本进行情感分析能力高于w2c‑CNN算法,能很好的配合微博中书写自由、用词随意的语言环境,能很好的考虑微博文本的上下语境,提取出文本特征,同时考虑词语自身所携带的情感,能更好的进行情感分类。

著录项

  • 公开/公告号CN112182152A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利权人 东北大学;

    申请/专利号CN202011013190.2

  • 申请日2020-09-24

  • 分类号G06F16/33(20190101);G06F16/35(20190101);G06F40/289(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44681 广东有知猫知识产权代理有限公司;

  • 代理人王臻巍

  • 地址 110004 辽宁省沈阳市和平区文化路三巷11号

  • 入库时间 2023-06-19 09:26:02

说明书

技术领域

本发明涉及数据算法领域,尤其涉及基于深度学习的新浪微博用户情感影响力分析方法。

背景技术

算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出,如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题,不同的算法可能用不同的时间、空间或效率来完成同样的任务,一个算法的优劣可以用空间复杂度与时间复杂度来衡量,进入Web2.0时代已经十多年,互联网技术的快速发展和移动终端设备的迅速普及为用户提供了一个发布和分享个人言论的在线网络平台,新浪微博是新浪公司在2009年推出的中国第一个实时性的社交网络平台,它的诞生是中国网络用户交互模式的一次重大变革,同时微博平台中最有价值、值得研究的地方之一,就是对微博用户影响力的研究。

但是由于目前影响力分析的研究重点主要在社交网络的拓扑结构和交互信息两方面,然而这种研究方式考虑并不全面,因为在微博这种社交网络平台中,用户经常会发表一些带有情感倾向的博文来获取他人的兴趣,从而与别人产生互动,这说明微博博文的信息也是衡量用户影响力的关键因素,但是这方面内容被许多研究人员忽略

发明内容

本发明的目的在于提供基于深度学习的新浪微博用户情感影响力分析方法,以解决上述技术问题。

本发明为解决上述技术问题,采用以下技术方案来实现:基于深度学习的新浪微博用户情感影响力分析方法,包括数据获取、数据预处理、构建多元情感特征词向量、文本进行情感分类和定义微博用户情感影响力,所述文本进行情感分类包括以下步骤:

S1、MSF-CNN神经网络对微博文本进行情感分类,该模型包括输入层、卷积层、池化层和全连接层;

S2、MS作为输入层输入,选取jieba分词后某篇微博的最长长度记为max_n,作为word2vec输出矩阵的横轴,其余文本长度不足max_n的部分自动补0,输出矩阵的纵轴是多元特征词向量的维度d+6,得到输入层的输出矩阵MS∈R

S3、选取滤波器大小为h的卷积核在输入矩阵MS上滑动地选取能体现文本分类结果的局部特征,每个卷积核中的权重矩阵设为W

其中A

S4、对经过卷积运算得到k个卷积矩阵的特征降维处理,抽取高效的情感特征,池化运算pooling(S

S5、池化层的输出向量以全连接的形式送入Softmax层,使用

在训练集S

优选的,所述通过WuScRank算法计算微博用户的影响力,所述通过网络爬虫技术来进行数据获取并转换成文本集合。

优选的,所述通过使用于python语言的gensim框架中的word2vec训练对文本进行分类,所述通过word2vec训练处理的词向量矩阵输入MSF-CNN神经网络。

本发明的有益效果是:

本发明中通过使用MSF-CNN算法对微博文本进行情感分析能力高于w2c-CNN算法,能很好的配合微博中书写自由、用词随意的语言环境,能很好的考虑微博文本的上下语境,提取出文本特征,同时考虑词语自身所携带的情感,能更好的进行情感分类。

附图说明

图1为本发明的总体流程图;

图2为本发明的基于权重分配的多元特征词向量的构建框架图;

图3为本发明的使用MSF-CNN进行微博文本情感分类原理图;

图4为本发明的基于话题的微博用户网络关系图;

图5为本发明的学习率对MSF-CNN分类准确率的影响图;

图6为本发明的滤波器对MSF-CNN分类准确率的影响图;

图7为本发明的word2vec和MSF-w2c在不同词向量维度上的准确率对比图;

图8为本发明的word2vec词向量预训练方式对MSF-CNN情感分类准确率的影响图;

图9为本发明的WuScRank分别与Degrees、ConformRank、PageRank在Precision@k的对比实验结果图;

图10为本发明的WuScRank分别与Degrees、ConformRank、PageRank在Kendall’sτ的对比实验结果图;

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例和附图,进一步阐述本发明,但下述实施例仅仅为本发明的优选实施例,并非全部,基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本发明的保护范围。

实施例1

MSF-CNN算法

实验环境:使用基于python语言的深度学习库Keras和Tensorflow库进行文本情感分析的实验,实验环境如表1所示;

表1

数据集:采取网络爬虫技术编写程序获取微博大V和普通用户的个人信息、用户的好友列表和粉丝列表、用户所发表的博文以及基于此博文的评论转发等文本内容,共爬取了新浪微博2万微博带V标签的名人和10万普通用户的数据,分别包括用户个人信息、用户好友关注信息、微博评论等信息,实验用到微博用户的微博文本数据,选取其中的10000条高效数据进行情感三分类标注,标注工作由多名人员共同完成,另外还有50000条已经标注好的三分类数据,共计60000条数据,MSF-CNN数据集具体内容如表2所示;

表2

这60000条数据作为MSF-CNN神经网络模型文本情感分类的训练和测试数据,采用10折交叉验证的方法对模型进行测试和训练;

实验评价指标:采用正确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F1-Score)作为文本情感分类器的评价标准,定义如下:

正确率

精确率

召回率

F1值

其中TP、FP、TN、FN的含义如表3,情感分类混淆矩阵所示;

表3

混淆矩阵是分类器指标计算的可视化矩阵,用来比较分类器预测结果和实际标签值信息,表3中每一行代表样本的实际情感类别,每一列代表样本的预测情感类别,在实验中,使用准确率作为MSF-CNN在不同参数下分类的评价指标,在本算法与其他分类器对比的时候,采用算术平均精确率av_Precision、算术平均召回率av_Recall和算术平均F1值av_F1-Score作为情感分类的评价指标,即先对积极、消极和中性三个类别分别求精确率、召回率和F1值,再取平均值;

参数设置:选取w2c-skip_gram作为词向量预训练方式,MSF-CNN神经网络中相关参数和函数的取值设置如表4所示;

表4

图5/6/7/8给出了学习率、滤波器数量、词向量维度和词向量预训练方式对模型准确率的影响,表5给出了滤波器窗口大小对模型准确率的影响;

表5

MSF-CNN与其它分类器的比较:将MSF-CNN与其它分类器的对比,实验结果如表6所示;

表6

从表6中可以得知,MSF-CNN分类的性能要优于w2c-CNN,远优于机器学习算法和基于情感词典的方法,其中基于情感词典的方法分类效果最差,这是由于新浪微博书写自由,用词随意,好多词语不能正确地在词典中匹配,朴素贝叶斯和支持向量机分类效果相差不大,但比神经网络训练的效果要差不少,这说明机器学习相对于深度学习算法来说,机器学习训练的特征不足,而使用w2c-CNN更多地考虑了微博文本的上下文语境,高效地提取文本特征,我们提出的MSF-CNN算法不仅考虑微博文本的上下文语境、语义特征,还考虑了词语自身的情感等特征,对情感分类的效果提升更大。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号