首页> 中国专利> 基于集成学习框架的中文网络评论情感分类方法

基于集成学习框架的中文网络评论情感分类方法

摘要

本发明公开了一种基于集成学习框架的中文网络评论情感分类方法。本发明采用词性组合模式、保序子矩阵模式和频繁词序列模式作为输入特征,在特征层面上考虑中文语序信息、间隔词组特征以及句子长度大小的影响等因素,并且利用语义相似度克服了特征向量稀疏问题;解决了评论文本特征繁多的问题,保证基分类器间独立性的同时,尽量提高基分类器的分类性能;采用基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向,使得最终的分类结果更加精确。本发明适用于各种领域的电商网络评论情感分类,可以使潜在消费者在购买前了解商品的评价信息,也可以使商家更加充分地了解消费者的意见,从而提高服务质量。

著录项

  • 公开/公告号CN107491531A

    专利类型发明专利

  • 公开/公告日2017-12-19

    原文格式PDF

  • 申请/专利权人 华南师范大学;

    申请/专利号CN201710713966.3

  • 申请日2017-08-18

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人江裕强

  • 地址 510275 广东省广州市天河区石牌华南师范大学科技处

  • 入库时间 2023-06-19 04:06:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-17

    授权

    授权

  • 2018-01-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170818

    实质审查的生效

  • 2017-12-19

    公开

    公开

说明书

技术领域

本发明属于自然语言处理技术与情感计算领域,具体地说是一种基于集成学习框架的中文网络评论情感分类方法。

背景技术

随着电子商务行业的发展,网络购物越来越受到人们的认可,由此也产生了大量的网络评论文本数据。面对这些海量的网络评论,一方面消费者需要快速了解评论的情感倾向,从其他消费者的经验中得到对该物品的评价信息,优化自己的购买决策;另一方面商家也需要从消费者的网络评论情感倾向中总结得到商品的市场反馈信息,对商品进行改善。因此,如何对评论文本进行情感分类已经成为自然语言处理领域的一个重要研究课题。

文本情感分类常用的技术分为基于规则的方法和基于统计的方法。基于规则的方法主要从语言学角度出发,利用人工词典和语言学规则进行情感倾向性分析。基于统计的方法则从机器学习的角度出发,Bo pang等人最早利用人工标注的影评语料进行特征提取和分类模型构建,自动化地实现情感分类任务。但是基于规则的方法所描述的语言规则非常有限,难以处理复杂的、非结构化的中文网络评论文本;而基于统计的方法一般很难通过单个算法构造一个高准确率的分类模型,并且对于众多问题,没有一种统一的行之有效的方法,即某些模型可能只对一类或几类问题有效,而在其它问题上的效果不好,泛化能力差。为了改善这些缺陷,集成学习技术应运而生。在文本情感分类任务上,已经有学者利用集成学习技术来提高分类准确率。Xia R等人利用了基于词性和基于词语关系的两种语义信息作为特征,把朴素贝叶斯、最大熵和支持向量机三个常用的文本分类器作为基分类器,并使用了固定组合、加权组合和元分类器组合三种集成策略进行情感分类对比实验,验证了集成学习在文本情感分类任务上的有效性。

但是在针对中文网络评论文本的情感分类任务上,目前还存在以下三个挑战:第一,中文网络评论具有表达多样化、句子长度不一致的特点,在特征提取时,以TF-IDF为代表的单词权重计算方法,容易造成文本特征语义信息缺失、特征向量稀疏等问题。第二,由于中文网络评论文本的复杂性,从中提取到的特征通常达到上千个,经典的Random Subspace集成学习方法虽然可以解决特征繁多问题,但是由于特征子空间是完全随机抽取的,难以保证基分类器的性能。第三,一个评论文本很可能包含多个产品属性词语,这些属性共同决定着评论的情感倾向,以往的句子级情感分类方法通常把评论中的所有属性都当成一个整体,没有单独分析每个属性带有的情感信息,容易造成情感类别误判。

针对上述问题,本发明提出一种针对中文网络评论进行情感分类的集成学习框架,主要包括以下部分:1)采用词性组合模式、保序子矩阵模式和频繁词序列模式作为输入特征,在特征层面上考虑中文语序信息、间隔词组特征以及句子长度大小的影响等因素,使得特征携带更完整的语义信息和情感信息,并且利用语义相似度克服了特征向量稀疏问题;2)采用基于信息增益的随机子空间算法,解决了评论文本复杂多样而造成的特征繁多问题,并且在Random Subspace的基础上考虑了特征的重要度权值,根据重要度权值抽取特征子空间,保证基分类器间独立性的同时,尽量提高基分类器的分类性能;3)采用基于产品属性构造基分类器算法,考虑不同产品属性对应不完全相同的特征集合、相同的特征在不同产品属性中可能起到的不同影响,并且综合了评论文本中不同产品属性的情感分类概率,使得最终的分类结果更加精确。

发明内容

在针对中文网络评论文本的情感分类任务上,为了克服现有技术存在的上述不足,本发明提出基于集成学习框架的中文网络评论情感分类方法。

本发明至少通过如下技术方案之一实现。

基于集成学习框架的中文网络评论情感分类方法,其包括以下步骤:

(1)输入某一领域比如酒店领域的中文网络评论大数据集及该领域的评测数据集,并对大数据集和评测数据集进行中文分词和词性标注,并将评测数据集划分成训练集、验证集和测试集;

(2)类序列规则(Class Sequence Rules,CSR)是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息。本发明在Pei等人提出的PrefixSpan频繁序列模式挖掘算法(Pei Jian,Han Jiawei,Mortazavi-Asl Behzad,et al.Mining Sequential Patterns by Pattern-Growth:The Prefixspan Approach[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(11):1424-1440)的基础上进行改进,考虑加入由类信息所决定的置信度,实现基于类序列规则的产品属性提取方法,在中文网络评论大数据集中提取出相应领域的产品属性集合,并划分产品属性类别;

(3)在评测数据集的训练集中提取出三种特征模式,分别为词性组合模式、频繁词序列模式和保序子矩阵模式;

(4)将评测数据集中的训练集、验证集和测试集和三种特征模式集合分别根据产品属性类别中的产品属性进行归类;

(5)本发明在Ho等人提出的随机子空间算法(Ho Tin Kam.The Random Subspace Method for Constructing Decision Forests[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,1998,20(8):832-844)基础上进行改进,提出了一种基于信息增益的随机子空间算法,对于每个产品属性类别中的训练集评论语料和特征模式集合,分别采用基于信息增益的随机子空间算法构建集成分类器,从而得到对应产品属性类别测试集中样本的输出分类概率结果;

(6)判断测试集中每个评论文本所属的产品属性类别,本发明提出了基于产品属性构造基分类器算法对评论进行集成情感分类,集成评论文本中每个属性在步骤(5)得到的分类概率,从而得到测试集中样本的最终分类结果,并计算分类准确率。

上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(1)具体是:对某一领域比如酒店领域的中文网络评论大数据集及该领域的评测数据集进行预处理,包括去除空白行、去除重复行,然后按照3:1:1的比例将其中的评测数据集同时随机划分成训练集、验证集和测试集,且保证三者中积极和消极的评论数基本平衡,使用中科院ICTCLAS对中文评论语料进行中文分词和词性标注。

上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(2)包括以下步骤:

(2-1)将中文网络评论大数据集DataSet中经过中文分词和词性标注处理后,得到词性序列,例如“房间/n,很/d,舒服/a,&,服务/n,很/d,好/a,&,价格/n,不/d,便宜/a”,并将结果存入数据库DB中;

(2-2)从中文网络评论大数据集DataSet中人工抽取部分属性词和情感词作为种子词,形成种子属性词AspectWords和种子情感词SentimentWords,并规定在评论语料中标注这些种子词时,用符号“#”表示属性词,用符号“*”表示情感词;

(2-3)类序列规则(Class Sequence Rules,CSR)是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息,首先需要给定类标签,一个类序列规则包含一个序列模式和一个类标签,通过将模式和类信息结合起来,找到与类信息具有高度相关性的序列模式。本发明将属性词和情感词搭配信息作为类序列规则中的类信息,对数据库DB进行一次扫描,根据种子属性词AspectWords和种子情感词SentimentWords,对数据库DB中部分序列标注样本进行种子词标注得到类信息,然后去掉词语,只保留词性和类信息,得到带有类信息的词性序列,例如“#/n,/d,*/a,&,#/n,/d,*/a,&,#/n,/d,*/a,&”(“&”表示标点符号,作为评论中每个分句的分隔符)。

(2-4)在Pei等人提出的PrefixSpan频繁序列模式挖掘算法(Pei Jian,Han Jiawei,Mortazavi-Asl Behzad,et al.Mining Sequential Patterns by Pattern-Growth:The Prefixspan Approach[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(11):1424-1440)的基础上进行改进,考虑加入由类信息所决定的置信度,挖掘满足最小支持度min_sup=α×num和最小置信度min_con的频繁词性序列集合frePOS,其中α为最小支持度比例,num为DataSet数目大小;

(2-5)将中文网络评论大数据集DataSet的所有评论的标点符号作为分句的分隔符,筛选frePOS中满足所有元素都在中文网络评论大数据集DataSet的所有评论中同一分句的频繁词性序列,作为提取产品属性的类序列规则CSRS

(2-6)利用类序列规则CSRS中的词性序列和类信息,将中文网络评论大数据集DataSet中所有满足条件的属性词语提取出来,从而得到产品属性词语集合A;

(2-7)为了对产品属性类别进行划分,首先需要确定产品属性类别基准词,第一,产品属性类别之间尽可能没有交集词语;第二,每个产品属性类别集合要囊括尽可能多的同类属性词语;

(2-8)采用Mikolov等人在2013年提出的著名的word2vec词向量训练工具(Mikolov Tomas,Chen Kai,Corrado Greg,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013)对中文网络评论大数据集进行训练,得到产品属性类别集合的词嵌入矩阵W∈Rd×|A|,其中W的每一列代表一个属性词向量,d表示向量的维度,A表示属性词表,|A|表示词表规模;假设产品属性类别基准词的词嵌入矩阵Wbase∈Rd×n,Xi是W中的第i属性词向量,Xj是Wbase中的第j属性类别基准词向量,采用余弦距离来衡量Xi和Xj之间的语义相似度,计算公式如式(8)所示:

(2-9)根据上式,分别计算产品属性类别集合中的每一个属性词和n个属性类别基准词之间的语义相似度,并设定超参数最小相似度min_Sim,如果属性词与多个属性类别基准词之间的相似度大于min_Sim,则选取与该属性词的相似度最大的属性类别基准词作为属性类别标记;如果属性词语全部n个属性类别基准词之间的相似度都小于min_Sim,则将该属性词的属性类别归类为“其它”。

上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(3)包括以下步骤:

(3-1)在第一种特征提取方法中,本发明通过词性组合模式来挖掘连续词组特征。本发明结合中文网络评论的特点,总结归纳了下面八种词性组合模式,如表1所示。

其中,词语的词性表示参考中科院《计算所汉语词性标记集》,“d”表示副词,“a”表示形容词,“v”表示动词,“n”表示名词,“ude1”表示助词“的”。

(3-2)根据语料进行分词和词性标注的结果,然后通过词性组合规则挖掘得到词性组合模式feature_pos,将其作为情感分类任务的输入特征之一。

(3-3)在PrefixSpan频繁序列模式挖掘算法的基础上加上一些实验超参数的限制,从而保证挖掘出有效的频繁词序列模式,实验超参数包括最小支持度min_sup、最大间隔阈值max_gap和最小区分阈值min_dist。最后挖掘得到的频繁词序列模式feature_freseq作为情感分类任务的输入特征之一。

改进的Prefixspan算法(PrefixSpan频繁序列模式挖掘算法)具体描述如下:

输入:类信息{C1,C2,...,Cn},词性序列S,最小支持阈值min_sup,最小置信度min_con

输出:满足类序列规则的词性序列模式

参数:α为一个序列模式;

l为α的长度;

SD|α如果α不为空,SD|α是α的投影数据库,否则就是词性序列数据库S算法的具体操作步骤如下:

1)对投影数据库SD|α进行一次扫描,根据事先定义好的类信息{C1,C2,...,Cn},标注部分样本作为投影数据库,建立序列与类信息之间的映射关系。

2)寻找满足最小支持度阈值min_sup的频繁项目b,其中b可以集合成为α的最后一个元素或者<b>可以被追加到α上,形成一个序列模式。

3)对于每一个连续的项b,将其添加到α上形成一个序列α',并且输出α'。

4)对于每一个α',创建一个α'投影数据库SD|α'。

5)重复以上步骤搜索出其他前缀的频繁词性序列。

6)扫描原始数据库,对于每一种频繁词性序列,根据类信息计算它的置信度,如果置信度大于设定的最小置信度min_con,则输出该词性序列模式。

(3-4)利用公共子序列挖掘得到评测数据集的向量矩阵表示Wtfidf的全部保序子矩阵模式;首先将Wtfidf每一行的非零值按从小到大排序,然后用各值所在列的列号去替换真实值,得到各行的列号序列;然后对每两行列号序列取交集,利用动态规划的思想挖掘每两行之间的所有公共子序列;最后递归地对满足最小列阈值min_column要求的公共子序列进行行拼接,输出满足最小行阈值min_row要求以及各行都来自于同一类情感标签评论的保序子矩阵模式feature_opsm,连同(3-2)得到的词性组合模式feature_pos和频繁词序列模式feature_freseq,一起作为情感分类任务的输入特征。

上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(4)包括以下步骤:

(4-1)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含产品属性类别集合A中每个属性类别的词语,如果包含A中一个类别的任一属性词语,则该评论属于该产品属性类别的数据;如果不包含任何属性词语,则该评论属于产品属性类别外的数据,该属性类别定义为“无属性”;最后分别将TrainSet和TestSet分成p+1份,表示成TrainSet1,TrainSet2,...,TrainSetp+1和TestSet1,TestSet2,...,TestSetp+1,其中p>0,表示预先设定的产品属性类别数。

(4-2)匹配特征模式集合T中的每一个特征是否出现于TrainSet1,TrainSet2,...,TrainSetp+1,从而将T根据属性类别分成p+1份,表示成T1,T2,...,Tp+1

上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(5)包括以下步骤:

(5-1)采用基于信息增益的随机子空间算法计算特征模式集合T={t1,t2,...,ti,...,tm}中的每个特征的信息增益量,得到m个特征的信息增益量集合IG={Ig1,Ig2,...,Igi,...,Igm},第i个特征ti的信息增益量计算式子如下:

其中,表示除了特征ti以外的其他特征集合,数据样本的类别标签集合C={C1,C2,...,Cj,...,Cn},i表示特征ti的序号,j表示类别标签Cj的序号,n表示类别标签的个数,H表示信息熵,P表示计算概率;

(5-2)将T所有特征的信息增益量进行归一化处理,得到m个特征的重要度权值δ={δ12,...,δi,...,δm},第i个特征ti的归一化计算式子如下:

其中,Igj表示第j个特征tj的信息增益量。

(5-3)将第i个特征ti的重要度权值δi作为ti的抽取概率,从特征集合T中随机抽取R个特征,构成第s个特征子空间Tsubs={t1,t2,...,tr,...,tR},其中s>0。

(5-4)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含Tsubs中的特征,如果包含特征tr,则第r个维度的值为1,反之为0,从而将每个评论文本全部转化成一个R维的特征向量,最后将TrainSet和TestSet转化成矩阵形式和其中Ntrain表示TrainSet的评论数目,Ntest表示TestSet的评论数目。

(5-5)将TrainMatrixs作为训练数据,输入步骤(5)分类器进行训练,得到第s个基分类器,再将TestMatrixs作为测试数据,输入该基分类器进行分类,得到测试数据集在该基分类器上的输出分类概率结果n为分类类别数,Ps(Cj,x)表示TestSet中评论x的被判别为Cj类的概率。

上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(6)具体是:查找测试集TestSet中评论x所属的属性类别,假设所属的属性类别有q个,则采用相对多数投票法将对应的各个基分类器的输出进行集成,取最有把握的分类概率结果,从而得到测试数据集在集成分类器的输出分类概率结果TestSet中评论x的输出分类概率P(y(x),x)及其所属类别y(x)的计算式子如下:

P(y(x),x)=max(Ps(Cj,x))(s=1,2,...,S;j=1,2,...,n)

其中n为分类类别数,最终得到测试数据集TestSet在集成分类器的输出分类结果

与现有技术相比,本发明具有如下优点和技术效果:

1)本发明采用词性组合模式、保序子矩阵模式和频繁词序列模式作为输入特征,在特征层面上考虑中文语序信息、间隔词组特征以及句子长度大小的影响等因素,并且利用语义相似度克服了特征向量稀疏问题;

2)采用基于信息增益的随机子空间算法解决评论文本特征繁多的问题,并且在Random Subspace的基础上考虑了特征的重要度权值,保证基分类器间独立性的同时,尽量提高基分类器的分类性能;采用基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向,使得最终的分类结果更加精确。

3)本发明能够准确地挖掘出电商评论的情感分类特征,适用于各种领域的电商网络评论情感分类,一方面可以使潜在消费者在购买商品前了解商品的评价信息,另一方面可以使商家更加充分地了解消费者的意见,从而提高服务质量,具有极大的实用价值。

附图说明

图1是实例中的流程示意图。

图2是将不同输入特征向量的单分类器和本发明的方法进行对比的实验结果图。

图3是将不同的经典集成学习算法和本发明的方法进行对比的实验结果图。

具体实施方式

以下结合附图和实例对本发明的实施方式作进一步说明,但本发明的实施和保护不限于此。

本实例的一种基于集成学习框架的中文网络评论情感分类方法,主要包括以下部分:1)采用词性组合模式、保序子矩阵模式和频繁词序列模式作为输入特征,在特征层面上考虑中文语序信息、间隔词组特征以及句子长度大小的影响等因素,使得特征携带更完整的语义信息和情感信息,并且利用语义相似度克服了特征向量稀疏问题;2)采用基于信息增益的随机子空间算法,解决了评论文本复杂多样而造成的特征繁多问题,并且在Random Subspace的基础上考虑了特征的重要度权值,根据重要度权值抽取特征子空间,保证基分类器间独立性的同时,尽量提高基分类器的分类性能;3)采用基于产品属性构造基分类器算法,考虑不同产品属性对应不完全相同的特征集合、相同的特征在不同产品属性中可能起到的不同影响,并且综合了评论文本中不同产品属性的情感分类概率,使得最终的分类结果更加精确。下面将进行详细地介绍。

图1为一种基于集成学习框架的中文网络评论情感分类方法的流程示意图,具体描述如下:

(1)输入某一领域比如酒店领域的中文网络评论大数据集及该领域的评测数据集,并对大数据集和评测数据集数据进行中文分词和词性标注,并将评测数据集划分成训练集、验证集和测试集;

(2)类序列规则(Class Sequence Rules,CSR)是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息。本发明在Pei等人提出的PrefixSpan频繁序列模式挖掘算法(Pei Jian,Han Jiawei,Mortazavi-Asl Behzad,et al.Mining Sequential Patterns by Pattern-Growth:The Prefixspan Approach[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(11):1424-1440)的基础上进行改进,考虑加入由类信息所决定的置信度,实现基于类序列规则的产品属性提取方法,在中文网络评论大数据集中提取出相应领域的产品属性集合,并划分产品属性类别属性类别,具体过程是:

(2-1)将中文网络评论大数据集DataSet中经过中文分词和词性标注处理后,得到词性序列,例如“房间/n,很/d,舒服/a,&,服务/n,很/d,好/a,&,价格/n,不/d,便宜/a”,并将结果存入数据库DB中;

(2-2)从中文网络评论大数据集DataSet中人工抽取部分属性词和情感词作为种子词,形成种子属性词AspectWords和种子情感词SentimentWords,并规定在评论语料中标注这些种子词时,用符号“#”表示属性词,用符号“*”表示情感词;

(2-3)类序列规则(Class Sequence Rules,CSR)是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息,首先需要给定类标签,一个类序列规则包含一个序列模式和一个类标签,通过将模式和类信息结合起来,找到与类信息具有高度相关性的序列模式。本发明将属性词和情感词搭配信息作为类序列规则中的类信息,对数据库DB进行一次扫描,根据种子属性词AspectWords和种子情感词SentimentWords,对数据库DB中部分序列标注样本进行种子词标注得到类信息,然后去掉词语,只保留词性和类信息,得到带有类信息的词性序列,例如“#/n,/d,*/a,&,#/n,/d,*/a,&,#/n,/d,*/a,&”(“&”表示标点符号,作为评论中每个分句的分隔符)。

(2-4)在Pei等人提出的PrefixSpan频繁序列模式挖掘算法(Pei Jian,Han Jiawei,Mortazavi-Asl Behzad,et al.Mining Sequential Patterns by Pattern-Growth:The Prefixspan Approach[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(11):1424-1440)的基础上进行改进,考虑加入由类信息所决定的置信度,挖掘满足最小支持度min_sup=α×num和最小置信度min_con的频繁词性序列集合frePOS,其中α为最小支持度比例,num为DataSet数目大小;

(2-5)将中文网络评论大数据集DataSet的所有评论的标点符号作为分句的分隔符,筛选frePOS中满足所有元素都在中文网络评论大数据集DataSet的所有评论中同一分句的频繁词性序列,作为提取产品属性的类序列规则CSRS

(2-6)利用类序列规则CSRS中的词性序列和类信息,将中文网络评论大数据集DataSet中所有满足条件的属性词语提取出来,从而得到产品属性词语集合A;

(2-7)为了对产品属性类别进行划分,首先需要确定产品属性类别基准词,第一,产品属性类别之间尽可能没有交集词语;第二,每个产品属性类别集合要囊括尽可能多的同类属性词语;

(2-8)采用Mikolov等人在2013年提出的著名的word2vec词向量训练工具(Mikolov Tomas,Chen Kai,Corrado Greg,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013)对中文网络评论大数据集进行训练,得到产品属性类别集合的词嵌入矩阵W∈Rd×|A|,其中W的每一列代表一个属性词向量,d表示向量的维度,A表示属性词表,|A|表示词表规模;假设产品属性类别基准词的词嵌入矩阵Wbase∈Rd×n,Xi是W中的第i属性词向量,Xj是Wbase中的第j属性类别基准词向量,采用余弦距离来衡量Xi和Xj之间的语义相似度,计算公式如式(8)所示:

(2-9)根据上式,分别计算产品属性类别集合中的每一个属性词和n个属性类别基准词之间的语义相似度,并设定超参数最小相似度min_Sim,如果属性词与多个属性类别基准词之间的相似度大于min_Sim,则选取与该属性词的相似度最大的属性类别基准词作为属性类别标记;如果属性词语全部n个属性类别基准词之间的相似度都小于min_Sim,则将该属性词的属性类别归类为“其它”。

(3)在评测数据集的训练集中提取出三种特征模式,分别为词性组合模式、频繁词序列

模式和保序子矩阵模式,具体过程是:

(3-1)在第一种特征提取方法中,本发明通过词性组合模式来挖掘连续词组特征。本发明结合中文网络评论的特点,总结归纳了下面八种词性组合模式,如表1所示。

其中,词语的词性表示参考中科院《计算所汉语词性标记集》,“d”表示副词,“a”表示形容词,“v”表示动词,“n”表示名词,“ude1”表示助词“的”。

(3-2)根据语料进行分词和词性标注的结果,然后通过词性组合规则挖掘得到词性组合模式feature_pos,将其作为情感分类任务的输入特征之一。

(3-3)在PrefixSpan频繁序列模式挖掘算法的基础上加上一些实验超参数的限制,从而保证挖掘出有效的频繁词序列模式,实验超参数包括最小支持度min_sup、最大间隔阈值max_gap和最小区分阈值min_dist。最后挖掘得到的频繁词序列模式feature_freseq作为情感分类任务的输入特征之一。

改进的Prefixspan算法具体如下所示:

输入:类信息{C1,C2,...,Cn},词性序列S,最小支持阈值min_sup,最小置信度min_con

输出:满足类序列规则的词性序列模式

参数:α一个序列模式;

lα的长度

SD|α如果α不为空,SD|α是α的投影数据库,否则就是词性序列数据库S算法的具体操作步骤如下:

1)对投影数据库SD|α进行一次扫描,根据事先定义好的类信息{C1,C2,...,Cn},标注部分样本作为投影数据库,建立序列与类信息之间的映射关系。

2)寻找满足最小支持度阈值min_sup的频繁项目b,其中b可以集合成为α的最后一个元素或者<b>可以被追加到α上,形成一个序列模式。

3)对于每一个连续的项b,将其添加到α上形成一个序列α',并且输出α'。

4)对于每一个α',创建一个α'投影数据库SD|α'。

5)重复以上步骤搜索出其他前缀的频繁词性序列。

6)扫描原始数据库,对于每一种频繁词性序列,根据类信息计算它的置信度,如果置信度大于设定的最小置信度min_con,则输出该词性序列模式。

(3-4)利用公共子序列挖掘得到评测数据集的向量矩阵表示Wtfidf(Wtfidf的含义是?)的全部保序子矩阵模式;首先将Wtfidf每一行的非零值按从小到大排序,然后用各值所在列的列号去替换真实值,得到各行的列号序列;然后对每两行列号序列取交集,利用动态规划的思想挖掘每两行之间的所有公共子序列;最后递归地对满足最小列阈值min_column要求的公共子序列进行行拼接,输出满足最小行阈值min_row要求以及各行都来自于同一类情感标签评论的保序子矩阵模式feature_opsm,连同(3-2)得到的词性组合模式feature_pos和频繁词序列模式feature_freseq,一起作为情感分类任务的输入特征。

(4)将评测数据集中的训练集、验证集和测试集和三种特征模式集合分别根据产品属性类别中的产品属性进行归类,具体过程是:

(4-1)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含产品属性类别集合A中每个属性类别的词语,如果包含A中一个类别的任一属性词语,则该评论属于该产品属性类别的数据;如果不包含任何属性词语,则该评论属于产品属性类别外的数据,该属性类别定义为“无属性”;最后分别将TrainSet和TestSet分成p+1份,表示成TrainSet1,TrainSet2,...,TrainSetp+1和TestSet1,TestSet2,...,TestSetp+1,其中p>0,表示预先设定的产品属性类别数。

(4-2)匹配特征模式集合T中的每一个特征是否出现于TrainSet1,TrainSet2,...,TrainSetp+1,从而将T根据属性类别分成p+1份,表示成T1,T2,...,Tp+1

(5)本发明在Ho等人提出的随机子空间算法(Ho Tin Kam.The Random Subspace Method for Constructing Decision Forests[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,1998,20(8):832-844)基础上进行改进,提出了一种基于信息增益的随机子空间算法,对于每个产品属性类别中的训练集评论语料和特征模式集合,分别采用基于信息增益的随机子空间算法构建集成分类器,从而得到对应产品属性类别测试集中样本的输出分类概率结果,具体过程是:

(5-1)采用基于信息增益的随机子空间算法计算特征模式集合T={t1,t2,...,ti,...,tm}中的每个特征的信息增益量,得到m个特征的信息增益量集合IG={Ig1,Ig2,...,Igi,...,Igm},第i个特征ti的信息增益量计算式子如下:

其中,表示除了特征ti以外的其他特征集合,数据样本的类别标签集合C={C1,C2,...,Cj,...,Cn},i表示特征ti的序号,j表示类别标签Cj的序号,n表示类别标签的个数,H表示信息熵,P表示计算概率;

(5-2)将T所有特征的信息增益量进行归一化处理,得到m个特征的重要度权值δ={δ12,...,δi,...,δm},第i个特征ti的归一化计算式子如下:

其中,Igj表示第j个特征tj的信息增益量。

(5-3)将第i个特征ti的重要度权值δi作为ti的抽取概率,从特征集合T中随机抽取R个特征,构成第s个特征子空间Tsubs={t1,t2,...,tr,...,tR},其中s>0。

(5-4)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含Tsubs中的特征,如果包含特征tr,则第r个维度的值为1,反之为0,从而将每个评论文本全部转化成一个R维的特征向量,最后将TrainSet和TestSet转化成矩阵形式和其中Ntrain表示TrainSet的评论数目,Ntest表示TestSet的评论数目。

(5-5)将TrainMatrixs作为训练数据,输入步骤(5)分类器进行训练,得到第s个基分类器,再将TestMatrixs作为测试数据,输入该基分类器进行分类,得到测试数据集在该基分类器上的输出分类概率结果n为分类类别数,Ps(Cj,x)表示TestSet中评论x的被判别为Cj类的概率。

(6)判断测试集中每个评论文本所属的产品属性类别,本发明提出了基于产品属性构造基分类器算法对评论进行集成情感分类,集成评论文本中每个属性在步骤(5)得到的分类概率,从而得到测试集中样本的最终分类结果,并计算分类准确率,具体过程是:查找测试集TestSet中评论x所属的属性类别,假设所属的属性类别有q个,则采用相对多数投票法将对应的各个基分类器的输出进行集成,取最有把握的分类概率结果,从而得到测试数据集在集成分类器的输出分类概率结果TestSet中评论x的输出分类概率P(y(x),x)及其所属类别y(x)的计算式子如下:

P(y(x),x)=max(Ps(Cj,x))(s=1,2,...,S;j=1,2,...,n)

其中n为分类类别数,最终得到测试数据集TestSet在集成分类器的输出分类结果

针对本发明方法进行实验论证,具体包括:

1、标准数据集:

本发明使用中国情感语料库ChnSentiCorp中的中文酒店评论数据ChnSentiCorp-Htl-ba-4000作为标准数据集验证基于集成学习框架的中文网络评论情感分类方法的有效性,包括2,000个积极情感评论文本和2,000个消极情感评论文本,经过去重等预处理操作后,剩余共3,147个评论文本。在基于词嵌入的近义词中,采用Sougou新闻语料作为word2vec训练语料,语料大小为2.01GB。另外,本发明在大众点评网站上爬取了102,268个酒店评论文本,作为提取酒店领域产品属性的评论语料。

2、评价指标:

本发明使用目前文本情感分类领域常用的评价指标:平均分类准确率(Average Accuracy)作为本实施例的评价指标,其计算公式如下式所示:

上式中,TP(True Positive)表示分类模型正确预测的积极样本数,TN(True Negative)表示分类模型正确预测的消极样本数,FP(False Positive)表示分类模型错误预测的积极样本数,FN(False Negative)表示分类模型错误预测的消极样本数。

3、实验流程

为了验证本发明所提方法的有效性,本发明在实验方案中设置了两组对比实验,第一组将本发明提出的方法和单分类器进行对比,单分类器分别采用不同的输入特征向量;第二组将本发明的方法和经典集成学习分类算法进行对比。分类器包括Logistics Regression(LR),Decision Tree(DT),Support Vector Machine(SVM)。本发明采用了Scikit-Learn和WEKA来实现方案中的对比实验,参数统一取默认值。

另外,本发明的实验框架存在一些超参数,如基于信息增益的随机子空间算法中的特征子空间数目S,对于这些超参数的确定,本发明使用控制变量法进行调参。在确定某个超参数时,首先设置一组该超参数的值,然后保持其它超参数不变,通过验证集在实验中的平均分类准确率确定最优值。最终得到的最优超参数值如表2所示:

表2最优超参数值

4、实验结果

第一组对比实验将不同输入特征向量的单分类器和本发明的方法进行对比,实验结果如表3和图2所示,其中不同的输入特征向量分别如下:

“lexicon+TF-IDF”:表示输入特征是基于情感词典提取的词语,再使用TF-IDF方法对评论文本进行向量化,其中情感词典采用知网“情感分析词语集(beta版)”和“台湾大学简体中文情感极性词典NTUSD”的并集;

“word2vec”:表示采用word2vec对评论语料进行训练,得到词向量,再将词向量相加求平均得到评论的输入特征向量;

“pos+freseq+opsm”:表示文中提到的三种特征进行合并,词性组合模式feature_pos、频繁词序列模式feature_freseq和保序子矩阵模式feature_opsm,再根据特征是否在评论中出现生成0/1输入特征向量。

第二组对比实验将不同的经典集成学习算法和本发明的方法进行对比,集成学习算法包括Bagging、Boosting、Random Subspace,“Random Subspace_IG”代表基于信息增益的随机子空间算法,输入特征向量采用“pos+freseq+opsm”形式,实验结果如表4和图3所示。

综合表4和表5的实验结果可以看出:1)在单分类器实验中,“pos+freseq+opsm”的分类准率均高于“lexicon+TF-IDF”和“word2vec”,主要是因为前者采用三种特征模式作为输入特征,考虑了句子语序信息、句子长度大小的影响、间隔词组特征等因素,并且利用语义相似度克服了“lexicon+TF-IDF”的特征向量稀疏问题;2)Random Subspace的情感分类准确率均高于单分类器实验中的“pos+freseq+opsm”,主要原因是“pos+freseq+opsm”将feature_pos、feature_freseq和feature_opsm三种特征模式简单地进行合并,造成特征向量非常稀疏,而Random Subspace则采用随机划分特征子空间的方法解决了特征稀疏问题;3)“Random Subspace_IG”的情感分类准确率稍高于经典的Random Subspace,主要原因是“Random Subspace_IG”在Random Subspace基础上考虑了特征的重要度权值,根据重要度权值抽取特征子空间,在保证基分类器之间独立性的同时,尽量提高基分类器的分类性能;4)本发明方法的实验效果均好于三种经典集成分类算法和“Random Subspace_IG”,特别是在LR分类算法上达到了90.3%的平均分类准确率,主要原因是本发明的方法考虑了不同产品属性对应不完全相同的特征集合、相同的特征在不同产品属性中可能起到的不同影响,并且综合了评论文本中不同产品属性的输出分类概率,使得最终的分类结果更加精确。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号