首页> 中国专利> 基于词向量的针对电影评论信息的情感分析系统及方法

基于词向量的针对电影评论信息的情感分析系统及方法

摘要

本发明提供一种基于词向量的针对电影评论信息的情感分析系统,包括:采集部,采集电影评论,形成评论文本库;评论文本处理部,对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;特征提取部,对分词后的评论文本库中的每一条评论转换为基于词向量的评论向量,完成每一条评论的特征提取,其中,所述词向量为所述评论中每一个词语的词语概率最大化的最优解,所述评论向量为每一条评论中的所有词向量的平均值;评论分类部,存储有分类模型,将所述评论向量输入到所述分类模型中进行训练,得到每一条评论的评论类型。上述情感分析系统不需人工标注,不依赖于情感词典的维修修缮工作。

著录项

  • 公开/公告号CN106156004A

    专利类型发明专利

  • 公开/公告日2016-11-23

    原文格式PDF

  • 申请/专利权人 中国传媒大学;

    申请/专利号CN201610519169.7

  • 发明设计人 殷复莲;潘幸艺;刘晓薇;王颜颜;

    申请日2016-07-04

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构11327 北京鸿元知识产权代理有限公司;

  • 代理人许向彤;张宁

  • 地址 100024 北京市朝阳区定福庄南里7号中国传媒大学

  • 入库时间 2023-06-19 00:56:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-26

    授权

    授权

  • 2016-12-21

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20160704

    实质审查的生效

  • 2016-11-23

    公开

    公开

说明书

技术领域

本发明涉及数据挖掘技术领域,更为具体地,涉及一种基于词向量的针对电影评论信息的情感分析系统及方法。

背景技术

随着互联网的迅速发展,网络上的信息爆炸式增长,海量信息成为人们日常中重要的信息来源。随着使用互联网的在线用户数增长,越来越多的用户倾向于在博客、论坛、微博、在线视频中发表针对电影的观感和评论。如何处理激增的文本、从中获取关键信息,成为当前十分重要的信息处理技术问题。在线影评网站中的影视评论文本,博客、论坛、微博中具有多种讨论视频作品的文章。对电影的评估而言,如何对从电影大众评论中抽取主观性观点,量化计算大众的正面倾向或负面倾向,是自然语言处理在实际问题中的重要应用。

传统的自然语言处理方法是基于词语计数的统计模型,以词频为重要的文本特征,这一方法在多项自然语言处理的任务中已有丰富的研究。根据其需求特性,情感分析可采用机器学习中的分类方法实现,包括有监督学习与无监督学习。有监督学习由评论文本及评分组合的训练样本训练得到分类模型,其中采用词袋模型,分类模型的训练方法包括贝叶斯分类、最大熵模型和支持向量机模型等。无监督学习方法是基于情感词典的方法,修建与维护一个大型的情感词典受到成本与规模的限制,在此基础上,已有基于种子词与词语关系自动构建词典的方法。基于传统的情感分析方法,或依赖于修建并维护完善的领域针对性强的情感词典,或依赖于大量的人工文本标注工作,这通常需要消耗大量人工精力。在信息改变迅速的在线电影评论应用中,如何减少人工标注和对情感词典的维护修缮工作,是一个亟待解决的问题。

发明内容

鉴于上述问题,本发明的目的是提供一种不需人工标注,不依赖于情感词典的维修修缮工作的基于词向量的针对电影评论信息的情感分析系统及方法。

根据本发明的一个方面,提供一种基于词向量的针对电影评论信息的情感分析系统,包括:采集部,采集电影评论,形成评论文本库;评论文本处理部,对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;特征提取部,对分词后的评论文本库中的每一条评论转换为基于词向量的评论向量,完成每一条评论的特征提取,其中,所述词向量为所述评论中每一个词语的词语概率最大化的最优解,所述评论向量为每一条评论中的所有词向量的平均值;评论分类部,存储有分类模型,将所述评论向量输入到所述分类模型中进行训练,得到每一条评论的评论类型,其中,所述特征提取部包括:第一设定单元,设定词向量训练窗口的大小、词向量的维度和变化阈值;映射单元,将分词后的评论文本库中的所有评论中的词去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中词语的映射;词向量查找表构建单元,将上述词汇表中的每一个词语的词向量的每一维的数值设定为变量,构建词向量查找表;第一更新单元,随机生成所述词向量查找表构建单元中各词向量在各维度的数值,设定词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值,完成词向量查找表的更新,其中,所述数值的变化值为:

其中,a为迭代次数,为自然数;

wordc(docn)为第n条评论的词语总数;

m为词汇表中的词语总数;

win为词向量训练窗口的大小;

wordn,I为第n条评论的第I个词语;

为第a-1次迭代中,第n条评论中第I个词语的第k维的数值;

为第a-1次迭代中,第n条评论的第I个词语的词向量;

为第a-1次迭代中,词汇表的第X个词语的词向量;

pa-1(wordn,I+J|wordn,I)为第a-1次迭代中,通过中心词wordn,I词向量预测得到词语wordn,I+J词向量的预测概率;

Oa-1(wordn,I+J)为第a-1次迭代中,第n条评论的除中心词外各词语的预测概率的对数平均值;

为词语wordn,I+J第k维数值在第a-1次迭代和第a次迭代的数值变化;评论向量构建单元,通过计算每一条评论中的所有词向量的平均值,将所述评论的信息替换为评论向量。

根据本发明的另一个方面,提供一种利用上述情感分析系统进行情感分析的方法,包括:采集电影评论,形成评论文本库;对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;将分词后的评论文本库中的所有评论中的词去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中的词语的映射;设定词向量维度,将上述词汇表中的每一个词的词向量的每一维的数值设定为变量,构建词向量查找表;随机生成所述词向量查找表的各词向量在各维度的数值;设定词向量训练窗口的大小,以所述词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值,完成词向量查找表的更新;将每一条评论中的词向 量映射到所述更新后的词向量查找表的数值进行平均计算,从而将每一条评论的文本信息替换为评论向量;将每一条评论的评论向量代入到分类模型中进行训练,得到每一条评论的评论类型。

本发明所述基于词向量的针对电影评论信息的情感分析系统及方法,采用将评论文本转换成基于词向量的评论向量,词向量和评论向量的训练是无监督学习,能够克服维护情感词典和手工标注文本的巨大工作量问题,另外,评论向量是对词向量的简单的向量求平均运算,计算过程的消耗小,因此方法的实现过程十分简单,而且有效。

附图说明

通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:

图1是本发明基于词向量的针对电影评论信息的情感分析系统的一个实施例的构成框图;

图2是本发明所述情感分析系统的特征提取部的构成框图;

图3是本发明所述情感分析系统的评论文本处理部的构成框图;

图4是本发明所述有向无环图的示意图;

图5是本发明基于词向量的针对电影评论信息的情感分析方法的一个实施例的流程图;

图6是本发明所述对评论文本库中的每一条评论进行分词的方法的流程图;

图7是本发明基于词向量的针对电影评论信息的情感分析系统的另一个实施例的构成框图;

图8是本发明基于词向量的针对电影评论信息的情感分析方法的另一个实施例的流程图;

图9是本发明分类模型构建部的构成框图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全 面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。

以下将结合附图对本发明的具体实施例进行详细描述。

图1是本发明基于词向量的针对电影评论信息的情感分析系统,如图1所示,所述情感分析系统,包括:

采集部100,采集电影评论,形成评论文本库corpus,其中,

其中:docD表示第D条电影评论文本,例如,利用正则表示法从广播电视公司已有的节目数据库或者利用网站API接口从网站上或者利用网络爬虫从视频网站上或者上述三种方式任意组合采集电影评论文本及电影评分数据;

评论文本处理部200,对评论文本库corpus中的每一条评论进行分词,构建分词后的评论文本库corpussegment,其中,

其中,docsegD是第D条分词后的电影评论,wordD,1是第D条电影评论中第1个词,wordc(docD)是第D条电影评论的词语总数;

特征提取部300,对分词后的评论文本库corpussegment中的每一条评论转换为基于词向量的评论向量,完成每一条评论的特征提取,其中,所述词向量为所述评论中每一个词语的词语概率最大化的最优解,所述评论向量为每一条评论中的所有词向量的平均值,详细地,将在图2中进行描述;

评论分类部400,存储有分类模型,将所述评论向量输入到所述分类模型 中进行训练,得到每一条评论的评论类型。

优选地,还包括:判断部500,判断所述采集部100采集的评论中是否具有评分,将具有评分的评论和不具有评分的评论分类储存,且将所述评分存储到评分数据库。

另外,优选地,所述评论分类部400还设定评分标准,高于标准的评论的评分设为1,不高于所述标准的评论的评分设为-1,从而输出具有评分的电影评论的评论类型,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向,所述评分标准可以根据具有评分的评论从分类模型中得到的评论类型设定,优选地,所述评分标准为满分值的一半。

图2是本发明所述情感分析系统的特征提取部的构成框图,如图2所示,所述特征提取部300包括:

第一设定单元310,设定词向量训练窗口的大小、词向量的维度和变化阈值,例如,分词后的评论文本库corpussegment包括两条评论,即

在第一设定单元310可以设定词向量训练窗口的大小win=6,词向量的维度数dim=10,词向量变化阈值为0.0001;

映射单元320,将分词后的评论文本库中的所有评论中的词语去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中的词语的映射,例如,分词后的评论文本库中的词语去重后形成的词汇表为V={w1,w2,…wm},则建立所述评论文本库中的词wordi,j到与其相同的词汇表中的词语wk的映射,其中,m为词汇表V的总词汇数,wk是词汇表中第k个词;1≤k≤m,又如,词汇表>1,w2,…w9}={“我”,“很”,“喜欢”,“这”,“部”,“电影”,“演技”,“太”,“差”},建立诸如word1,1=w1的多条映射;

词向量查找表构建单元330,将上述词汇表中的每一个词语的词向量的每一维的数值设定为变量,构建词向量查找表,例如,词向量查找表LT

其中,是词汇表中第i个词的词向量;是词汇表中第i个词的词向量中第dim维的数值,例如,

第一更新单元340,随机生成所述词向量查找表构建单元中各词向量在各维度的数值,设定词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值(例如,0.0001),完成词向量查找表的更新,其中,所述数值的变化值为:

其中,a为迭代次数,为自然数;

wordc(docn)为第n条评论的词语总数;

m为词汇表中的词语总数;

win为词向量训练窗口的大小;

wordn,I为第n条评论的第I个词语;

为第a-1次迭代中,第n条评论中第I个词语的第k维的数值;

为第a-1次迭代中,第n条评论中第I+J个词语的第k维的数值;

为第a次迭代中,第n条评论中第I+J个词语的第k维的数值;

为第a-1次迭代中,第n条评论的第I个词语的词向量;

为第a-1次迭代中,词汇表的第X个词语的词向量;

pa-1(wordn,I+J|wordn,I)为第a-1次迭代中,通过中心词wordn,I词向量预测得到词语wordn,I+J词向量的预测概率;

Oa-1(wordn,I+J)为第a-1次迭代中,第n条评论的除中心词外各词语的预测概率的对数平均值;

为词语wordn,I+J第k维数值在第a-1次迭代和第a次迭代的数值变化;

评论向量构建单元340,通过计算每一条评论中的所有词向量的平均值,将所述评论的信息替换为评论向量:

RV=(rv(1)…rv(n)…rv(D))

其中,rv(D)是电影评论docsegD的电影评论向量;RV表示评论向量矩阵。

优选地,所述第一更新单元随机生成所述词向量查找表中所述变量的初始值不小于0且不大于1,例如,

此外,优选地,所述特征提取部300还包括:第一判断单元350,判断每一条评论的词语总数是否大于词向量训练窗口的大小,其中,当所述评论的词语总数不大于词向量训练窗口的大小时,选择所述评论中的一个词为中心词,对所述词向量查找表进行更新;当所述评论的词语总数大于词向量训练窗口的大小时,所述评论在所述词向量窗口中从左往右或者从右往左显示,依次选择所述词向量训练窗口中的一个词语为中心词,对所述词向量查找表进行更新,例如,词向量训练窗口的大小win=3,评论docseg1[我,很,喜欢,这,部,电影]中词语数为wordc(doc1)=6,首先以窗口[“我”,“很”,“喜欢”]中的“很”为的中心词,对词向量查找表进行更新,然后以窗口[“很”,“喜欢”,“这”]中的“喜欢”为的中心词,对词向量查找表进行更新。

当评论文本库中的评论很多时,优选地,所述第一更新单元340,随机筛选r个评论,更新满足阈值条件的所述评论中词语的词向量,重复进行上述筛选,直到词汇表中所有词于的词向量更新完成,例如,r取m/100或m/10。

图3是本发明所述情感分析系统的评论文本处理部的构成框图,如图3所示,所述评论文本处理部200包括:

第一分词单元210,对每一条电影评论遍历,根据句尾的标点符号以及空格符,将每一条评论分割为一个或多个短句,例如,

其中,corpussentences是电影评论语料按标点符号切割后的短句语料,1≤n≤D.>D)是第D条电影评论的总短句数,senti,j是第i条电影评论中的第j条短句,1≤j≤sentc(doci)。

第二分词单元220,基于Trie树结构对评论文本库进行词图扫描,生成每一条评论中汉字所有可能成词情况所构成的有向无环图,所述有向无环图由多个结点和连结节点的边组成,如图4所示,有向图是指图中的每条边具有一个方向的图,有向无环图是指,无法从任意顶点出发经过若干条边回到该点的有向图,例如,

senti,j=(chara1,chara2,…,charal)

其中,每一个charal(字符l)是senti,j中的第l个字符;l是senti,j的总字符数。

考虑每个字符左边和右边的位置,则有l+1个点对应,点的编号从0到l,把候选词看成边,可以根据词典生成一个有向无环图,如图4所示,有向无环图是一个有向正权重的图,有向无环图中的边都是词典中的词语,边的起点和终点分别是词的开始和结束位置。对字符数为l的senti,j,假设chara1chara2(字符1字符2)、chara2chara3(字符2字符3)和charal-1charal(字符l-1字符l)在词典中,其他字符组合均不在词典中,则生成有向无环图如下切割方案有两个选择:路径1:0-1-3-4-5-……-(l-1)-(l+1);路径2:0-2-3-4-5-……-(l-1)-(l+1)。

第一确定单元230,采用了动态规划查找有向无环图基于词频的最大概率路径,找出基于词频的最大切分路径,确定切割方案。

图5是本发明基于词向量的针对电影评论信息的情感分析方法的流程图,如图5所示,所述情感分析方法包括:

首先,在步骤S510中,采集电影评论,形成评论文本库;

在步骤S520中,对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;

在步骤S530中,将分词后的评论文本库中的所有评论中的词语去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中的词语的映射;

在步骤S540中,设定词向量的维度,将上述词汇表中的每一个词语的词向量的每一维的数值设定为变量,构建词向量查找表;

在步骤S550中,随机生成所述词向量查找表的各词向量在各维度的数值;

在步骤S560中,设定词向量训练窗口的大小,以所述词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值,完成词向量查找表的更新;

在步骤S570中,将每一条评论中的词向量映射到所述更新后的词向量查找表的数值进行平均计算,从而将每一条评论的文本信息替换为评论向量;

在步骤S580中,将每一条评论的评论向量代入到分类模型中进行训练,得到每一条评论的评论类型。

在步骤S520中,所述对评论文本库中的每一条评论进行分词的方法,如图6所示,包括:

首先,在步骤S521中,根据句尾的标点符号以及空格符,将评论文本库中的每一条评论分割为一个或多个短句;

在步骤S522中,基于Trie树结构对评论文本库进行词图扫描,得到所述短句中汉字所有可能成词情况,构成有向无环图,得到每一条评论的所述短语的多个分割方案;

在步骤S523中,记录每一条评论的所述多个分割方案形成的所有词语,以及该词语在所述评论文本库中出现的次数,得到每一个词语出现的频率,其中,所述频率p(wn)为:

其中,p(wn)是词语wn出现的频率;

freq(wn)是词语wn出现的频数;

t为所有有向无环图中所有可能成词情况构成的词语的总数;

是词汇表中所有词语出现的总频数;

在步骤S524中,将每一种切割方案中不存在与词典中的词语的频率用词典中最小频率替代,基于所述频率,采用查找最大概率路径的方法确定每一条评论的切割方案,优选地,采用从右往左查找最大概率路径的方法确定每一条评论的切割方案,例如,

p(Nodel+1)=1.0

p(Nodes)=p(Nodes+1)×max(p(ws,last)),1≤s≤l

其中,Nodel+1是评论doci从左往右第l+1个节点;

Nodes是评论docn中的第j条短句senti,j从左往右第s个节点;

p(Nodes+1)是评论doci从左往右第s+1个节点的概率,即最后一个字符的右边节点;

p(Nodes)是评论doci从左往右第s个节点的概率;

ws,last是到Nodes为止的从左往右最后的候选词语;

p(ws,last)表示ws,last出现的频率;

max(ws,last)表示到Nodes为止的最后的候选词语的最大出现概率。

通过上式,得到每一个短句中不同节点设置的不同概率,找到每一个短句最大概率的节点设置,即获得该短句的最大概率路径,确定了该短句的切割方案。

在本发明的另一个实施例中,如图7所示,所述情感分析系统1000除上述采集部100、评论文本处理部200、特征提取部300、判断部500还包括:

分类模型构建部600,用于构建分类模型,其中,

所述采集部100采集电影评论;

所述判断部500,判断所述采集部100采集的评论中是否具有评分,将具有评分的评论和不具有评分的评论分类储存,且将所述评分存储到评分数据库;

所述分类模型构建部600包括:

评分训练模型构建单元610,构建评分训练模型,其中,所述评分训练模型包括设定评分标准,高于标准的评论的评分值设为1,不高于所述标准的评论的评分值设为-1,将每一条评论的评分相对于所述评分标准存储成只包括1和-1的数据集,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向;

分类模型构建单元620,构建包括变量的分类模型;

第一获得单元630,通过评论文本处理部和特征提取部对具有评分的评论进行处理,获得所述评论对应的评论向量,将存储所述评论的评分的评分数 据库通过评分训练模型转变为只包括1和-1的数据集;

第二获得单元640,利用所述评论向量及其对应的数据集获得分类模型的变量,详细地,将在图9中进行描述。

优选地,上述情感分析系统还包括评论分类部400,通过存储的分类模型得到具有评分的评论的评论向量的评论类型,对分类模型构建部600的变量起到修正作用。

采用上述情感分析系统对电影评论进行情感分析的方法,如图8所示,包括:

在步骤S810中,采集电影评论;

在步骤S820中,判断所述电影评论中是否具有评分,将具有评分的评论和不具有评分的评论分类储存,且将所述评分存储到评分数据库,例如,将具有评分的评论存储到评论文本库其中,G为具有评分的电影评论的总条数;docG′表示第G条电影评论文本;将所述评分存储到评分数据库其中,score(G)表示第G条电影评论对应评分,0≤score(G)≤scoremax;scoremax为满分值,通常scoremax∈(5,10);

在步骤S830中,构建评分训练模型,其中,所述评分训练模型包括设定评分标准,高于标准的评论的评分设为1,不高于所述标准的评论的评分设为-1,将每一条评论的评分相对于所述评分标准存储成只包括1和-1的数据集,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向,例如,以满分值 得一半为标准,将评分数据库scores的评分数据转为待遇测变量数据集Y,具体地:

其中,y(1),y(n),y(G)是第1、n、G条评论相对评分标准的数据;

Y是具有评分的评论相对于评分标准的数据构成的数据集;

在步骤S840中,构建包括变量的分类模型,其中,所述包括变量的分类模型为:

yi=w·rv(i)-b

且y(n)(w·rv′(n)-b)≥1

其中,rv(i)为不具有评分的评论向量;

G为具有评分的评论向量的总个数;

En是被优化的目标函数;

w和b为变量,其中,w为垂直于评论向量平面的向量,b为阈值;

α为拉格朗日参数,是D维向量,α∈RD

αk是拉格朗日参数α第k维度的分量;

y(k),y(n)是具有评分的第k个和第n个评论向量在数据集中的数值;

rv′(k),rv′(n)分别是具有评分的第k个和第n个评论向量;

分别表示第k个和第n个评论向量的第s维分量,1≤s≤dim;

<rv′(k),rv′(n)>表示对评论向量rv′(k),rv′(n)求向量内积;

在步骤S850中,将所述评分数据库中各评论的评分在评分训练模型中进行训练,得到各评论的所述数据集;

在步骤S860中,通过评论文本处理部和特征提取部对存储具有评分的评论进行处理,得到所述评论的评论向量,例如,RV′=(rv′(1)…rv′(n)…rv′(G)),其中,RV'表示评论向量矩阵;rv′(G)是电影评论docG′的电影评论向量;

在步骤S870中,利用具有评分的评论的评论向量及其对应的数据集确定分类模型的变量,完成分类模型的构建;

在步骤S880中,通过评论文本处理部和特征提取部对存储不具有评分的评论进行处理,得到所述评论的评论向量;

在步骤S890中,将上述评论向量输入上述分类模型,得到不具有评分的评论的评论类型。

图9示出了所述第二获得单元的构成框图,如图9所示,所述第二获得单元640包括:

第二设定单元641,初始化拉格朗日参数α=(α12,…,αD)、阈值b及b>1和b2,α1=α2=…=αD=0,b=b1=b2=0;设置指定精度ε(例如ε=10-5);设置容差tol和调和函数C;

计算单元642,遍历第一获取单元630中的评论向量,计算每一个评论向量对应的E函数值,例如,评论向量rv′(n)对应的E函数值En

第二判断单元643,判断评论向量的评分相对评分标准的数据与其E函数值的乘积以及其拉格朗日参数是否满足下述条件:y(n)En<-tol且αn<C,或者y(n)En>tol且αn>0,如果存在均不满足上述两个条件的评论向量,则发送指令给计算单元642,重新计算该评论向量的E值;如果满足上述两个条件之一,发送指令给第二更新单元644;

第二更新单元644,将满足第二判断单元643条件的第一获取单元630中的任意两个评论向量配对,更新每一个评论向量的拉格朗日参数,其中,

η=2<rv′(k),rv′(n)>-<rv′(k),rv′(k)>-<rv′(n),rv′(k)>,且η<0

且L≠H

且|αn(new)n(old)|≥ε

其中,rv′(n)和rv′(k)为满足第二判断单元643条件的第一获取单元630中的任意两个评论向量;

αn(old)和αk(old)为更新前评论向量rv′(n)和rv′(k)对应的拉格朗日参数;

αn(new,wnc)为更新过程中评论向量rv′(n)待判断的新的拉格朗日参数;

αn(new)和αk(new)是更新后评论向量rv′(n)和rv′(k)对应的拉格朗日参数;

L和H为αn(old)更新的上限和下限;

η是被优化的目标函数En的二阶导数;

第三更新单元645,更新每一个评论相量对应的阈值,具体地,包括:

b1(new)=b1(old)-Ek-y(k)k(new)k(old))<rv′(k),rv′(k)>-y(n)n(new)n(old))<rv′(k),rv′(n)>

b2(new)=b2(old)-En-y(k)k(new)k(old))<rv′(k),rv′(n)>-y(n)n(new)n(old))<rv′(n),rv′(n)>

其中,b(n)为更新后评论相量rv′(n)对应的阈值b的值;

b1(old)、b2(old)为之前保留的待选参数b1和b2

第二确定单元646,根据更新后各评论向量的拉格朗日参数及其对应的阈值确定变量参数w和b,其中,

且y(n)(w·rv′(n)-b)≥1。

利用上述第二获得单元640确定分类模型的变量的方法包括:

初始化具有评分的各评论向量的拉格朗日参数和阈值,设置指定精度和容差;

计算上述评论向量对应的E函数值;

筛选出满足条件的评论向量,其中,所述条件为y(n)En<-tol且αn<C,>(n)En>tol且αn>0;

将满足上述条件的评论向量中任意两个评论向量进行配对,更新每一个评论向量的拉格朗日参数;

更新上述每一个评论向量对应的阈值;

根据更新后各评论向量的拉格朗日参数及其对应的阈值确定变量参数w和b。

综上所述,参照附图以示例的方式描述了根据本发明提出的基于词向量的针对电影评论信息的情感分析方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的系统及方法,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号