首页> 中国专利> 一种主观文本和客观文本分类方法及装置

一种主观文本和客观文本分类方法及装置

摘要

本发明实施例公开了一种主观文本和客观文本分类方法及装置,该发明对不平衡训练样本进行多次欠采样,并对欠采样后的训练集进行训练,从而构建出多个基分类器,进而利用基分类器对待分样本进行分类,最后将所有分类结果进行统计得到最终的分类结果。本发明实施例采用多次欠采样能够充分利用样本,训练欠采样训练集时使用不同的机器学习方法,构建出差异性大的基分类器。解决了样本不平衡给机器学习分类方法带来的不利影响,提高了分类效果。

著录项

  • 公开/公告号CN102298646A

    专利类型发明专利

  • 公开/公告日2011-12-28

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN201110281938.1

  • 发明设计人 李寿山;孔芳;周国栋;

    申请日2011-09-21

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人逯长明

  • 地址 215123 江苏省苏州市工业园区仁爱路199号

  • 入库时间 2023-12-18 04:04:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-03

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20140409 终止日期:20160921 申请日:20110921

    专利权的终止

  • 2014-04-09

    授权

    授权

  • 2012-02-15

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110921

    实质审查的生效

  • 2011-12-28

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理技术领域及模式识别领域,尤其涉及一种主观 文本和客观文本分类方法及装置。

背景技术

主客观分类是将文本分为主观性文本或者客观性文本的任务。所谓主观 性文本是指对于非事实进行描述的文本。在文本中会带有发表者的个人情感 倾向。所谓客观性文本是指作者对于事件、对象等进行基于事实的描述,不 带有个人的好恶和偏见。例如:“我今天买了一台笔记本,机子超级漂亮,我 非常喜欢”,这句话中的前半句“我今天买了一台笔记本”为一客观句而后半句 “机子超级漂亮,我非常喜欢”为主观句。主客观分类任务就是要将文本分成主 观和客观部分。该任务是自然语言处理技术中的一个基础任务,实现文本的 主客观计算机自动分类能够更好的帮助我们分析目前的浩瀚文本信息中的主 观信息,并能帮助其他进一步的情感分析任务,例如情感倾向性分类。同时, 主客观分类方法涉及到模式识别中的很多基本问题,例如分类器设计问题,高 维特征问题等等。因此,主客观分类技术的研究具有重要的实用价值和理论 意义。

目前,主流的主客观分类方法是基于机器学习的监督分类方法,该方法 分为两个过程:训练过程和分类过程。其中,在训练过程中,需要人工标注 一定数目的主观性文章和客观性文章,然后使用这些标注样本和机器学习分 类方法,如最大熵分类方法去训练出主客观分类器;在分类过程中,使用获 得的分类器对未知样本进行分类获得主客观类别。

但是,目前的方法一个重要的假设是训练数据是平衡的,即主观性文章 和客观性文章数目相当。但是实际应用中,主客观文本的分布往往会非常不 平衡。例如,观察豆瓣网上的大量的电影评论后,发现电影评论中客观的文 本远远超过主观的文本,平均一篇文章包含10句左右的客观句和2句左右的主 观句。由于传统的机器学习方法在样本不平衡的情况下,会将样本严重倾向 地分为数量多的那个类别,从而严重影响分类的整体效果。

发明内容

本发明实施例提供了一种主观文本和客观文本分类方法及装置,能够有 效解决主客观分类中的数据不平衡分布问题,改善分类效果。

一种主观文本和客观文本分类方法,包括:

对不平衡训练样本进行多次欠采样,每次得到对应的一组欠采样训练集; 对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练,从而 为每一组所述欠采样训练集构建一个对应的基分类器;使用每个所述基分类 器对待分样本进行分类,分别得到对应的分类结果;将所有所述的分类结果 进行统计,得到统计结果;使用所述统计结果判断待分样本的主客观类别。

一种主观文本和客观文本分类装置,包括:

欠采样单元,用于对不平衡训练样本进行多次欠采样,从而得到每次对 应的一组欠采样训练集;训练单元,用于对每一组所述欠采样训练集任意选 择一种机器学习分类方法进行训练,从而为每一组所述欠采样训练集构建一 个对应的基分类器;分类单元,用于使用每个所述基分类器对待分样本进行 分类,从而分别得到对应的分类结果;统计单元,用于将所有的分类结果进 行统计,得到统计结果;判断单元,用于使用所述统计结果判断待分样本的 主客观类别。

从以上技术方案可以看出,本发明实施例具有以下优点:本发明实施例 提供了一种主观文本和客观文本分类方法及装置,该发明对不平衡训练样本 进行多次欠采样,并对欠采样后的训练集进行训练,从而构建出多个基分类 器,进而利用基分类器对待分样本进行分类,最后将所有分类结果进行统计 得到最终的主客观分类结果。本发明实施例多次欠采样能够充分利用样本, 训练欠采样训练集时使用不同的机器学习方法,构建出差异性大的基分类器。 解决了样本不平衡给机器学习分类方法带来的不利影响,提高了分类效果, 有效解决主观文本和客观文本分类中的数据不平衡分布问题。

附图说明

图1为本发明实施例提供的一种主观文本和客观文本分类方法的流程图;

图2为本发明实施例提供的一种主观文本和客观文本分类装置的基本逻 辑结构图;

图3为本发明实施例提供的另一种主观文本和客观文本分类装置的结构 示意图。

具体实施方式

下面将结合附图说明对本发明实施例进行详细描述。本发明实施例提供 了一种主观文本和客观文本分类方法及装置,用于解决主客观分类中的数据 不平衡分布问题,改善分类效果。该发明实施例将一定的主观和客观不平衡 文本作为训练样本,然后对不平衡训练样本进行多次欠采样,并对欠采样训 练集进行训练,从而构建多个基分类器,进而用于对待分样本进行分类,最 后将所有分类结果进行统计从而得到最终的分类结果。本发明实施例能够充 分利用不平衡训练样本,解决了样本不平衡给机器学习分类方法带来的不利 影响。在构建基分类器时,随机使用三种不同的方法,使得构建出来的基分 类器的差异性大,有利于改善分类效果。

本发明实施例的主观文本和客观文本分类方法的基本流程可参考图1,图 1为本发明实施例提供的一种主观文本和客观文本分类方法的流程图,该方法 主要包括以下步骤:

101、对不平衡训练样本多次欠采样,每次得到一组欠采样训练集。

由于欠采样是从多数类样本中选取一定数目的样本,所以会丢失掉一些 信息,因此多次欠采样能够达到充分利用多数类样本的效果,使分类结果更 为准确。

这其中,首先要对所选用的测试语料中的不平衡训练样本进行人工标注, 分成客观句子一类和主观句子一类,比较不平衡训练样本中包含主观类句子 的数量和客观类句子的数量的多少,将包含句子数量多的类别作为多数类样 本,将包含句子数量少的类别作为少数类样本。然后计算多数类样本数量和 少数类样本数量的比例,确定欠采样的次数。最后按照确定的欠采样次数, 重复多次从多数类样本中抽取出部分多数类样本。需要指出的是,每一次从 多数类样本中抽取出的部分多数类样本的数量与少数类样本的数量相同。需 要特别说明的是,由于在实际中,在实行用不平衡训练样本来进行欠采样这 一步骤时,所选用的语料里的多数类样本的数量与少数类样本的数量的比例 不一定恰好是整数比,所以计算出的欠采样次数也不是整数,此时我们应该 将计算出的欠采样次数取整数,取整后的次数应该是比原来计算出来的次数 要大,同时是与原来计算出来的次数最为接近的整数。多次欠采样有利于提 高分类效果。

欠采样时,每一次均从多数类样本中抽取出与少数类样本数量相同的部 分多数类样本,该部分多数类样本和少数类样本共同组成一个欠采样训练集, 即每欠采样一次就得到一组欠采样训练集,由欠采样的次数决定欠采样训练 集的组数。

为了便于理解,下面以一具体的应用场景对上述实施例中描述的对不平 衡训练样本多次欠采样方法进行详细的描述,具体的:

1、使用的训练样本包含4000个句子,其中,包含客观类句子3000个, 包含主观类句子1000个。即多数类样本为客观类句子3000个,少数类样本 为主观类句子1000个。计算得出的欠采样次数为3000/1000=3次。则进行欠 采样时,每次均从多数类样本中抽取出1000个句子,即每次从客观类3000 个句子中抽取出1000个句子,每一次均与主观类句子的1000句组成一个欠 采样训练集。显然,欠采样完成后会得到3组欠采样训练集。

2、使用的训练样本包含4000个句子,其中,包含客观类句子2500个, 包含主观类句子1500个。即多数类样本为客观类句子2500个,少数类样本 为主观类句子1500个。计算得出的欠采样次数为2500/1500≈1.7次。则实际 进行欠采样时,次数应该取2次。即在欠采样时,每次从多数类样本中抽取 出1500个句子,即从客观类句子2500个中抽取出1500个句子,每一次均与 主观类句子的1500句组成一个欠采样训练集。显然,欠采样完成后会得到2 组欠采样训练集。

102、对每一组欠采样训练集任意选择一种机器学习分类方法进行训练, 从而为每一组欠采样训练集构建一个对应的基分类器。

这其中,本发明实施例选用的机器学习方法有三种,包括:朴素贝叶斯 分类、最大熵分类和支持向量机分类。

下面对这三种方法进行详述:

1、朴素贝叶斯分类方法

计算文档D属于ci类的概率为:

P(ci|D)=P(ci)ΠtP(t|ci)TF(t,D)ΣmP(cm)ΠtVP(t|cm)TF(t,D)

P(t|ci)=1+TF(t,ci)|V|+ΣiTF(t,ci)

其中P(ci)为一个文档属于ci类的概率,P(t|ci)是对在ci类文档中特征t 出现的条件概率的拉普拉斯概率估计,TF(t,ci)是ci类文档中特征t出现的频 度,|V|为所有文档中包含的不同特征的总数目,TF(t,D)是在文档D中特征t 出现的频度。

2、最大熵分类方法

最大熵分类方法是基于最大熵信息理论,其基本思想是为所有已知的因 素建立模型,而把所有未知的因素排除在外。即要找到一种概率分布,满足 所有已知的事实,但是让未知的因素最随机化。相对于朴素贝叶斯方法,该 方法最大的特点就是不需要满足特征与特征之间的条件独立。因此,该方法 适合统计各种不一样的特征,而无需考虑它们之间的影响。

在最大熵模型下,预测条件概率P(c|D)的公式如下:

P(ci|D)=1Z(D)exp(Σkλk,cFk,c(D,ci))

其中Z(D)是归一化因子。Fk,c是特征函数,定义为:

Fk,c(D,c)=1,nk(d)>0andc=c0,otherwise

3、支持向量机分类方法

支持向量机分类方法(SVM,Support Vector Machine)是在统计理论基础 上发展起来的一种新的通用学习方法,它在结构风险最小化原理的近似实现, 因为它同时是最小化经验风险和VC维的界。在主客观分类任务中,这种分类 方法得到了很大的应用,相关的研究工作非常多。

这其中,由于每对一组欠采样训练集进行训练,就得到一组对应的基分 类器,所以显而易见地,欠采样训练集的组数与基分类器的组数相同。由于 每次对样本进行欠采样训练时,所使用的机器学习方法为三种不同的学习分 类方法之中的任意一种,从而使得构建出来的基分类器的差异性大,在步骤 103,对待分样本进行分类时,就是使用这些构建出来的基分类器对待分样本 进行分类,因此基分类器之间差异性大有利于提高分类的效果,分类结果更 为准确。

103、使用每个基分类器对待分样本进行分类,得到对应的分类结果。

这其中,分类结果表示为每个基分类器给出的待分样本属于主观类的后 验概率和属于客观类的后验概率。

104、将全部分类结果进行统计,得出统计结果。

此步骤使用贝叶斯统计规则统计所有基分类器的结果,得到统计后最终 的分类结果。即将步骤103中得到的每个基分类器给出的待分样本属于主观 类的后验概率和属于客观类的后验概率进行统计,得出统计后的主观类的后 验概率和客观类的后验概率,即最终的统计结果。

为了便于理解,下面给出使用贝叶斯公式统计后的主观后验概率和客观 的后验概率:

每个基分类器都给待分样本一个分类结果,用Pl(csubjective|D)表示第1个基 分类器给出的属于主观的后验概率,Pl(cobjective|D)表示第1个基分类器给出的 属于客观的后验概率。贝叶斯统计规则具体是指假设每个分类器给出的结果 是相互独立,这样,样本属于主观的后验概率P(csubjective|D)和属于客观的后验 概率P(cobjective|D)可以通过贝叶斯公式表示为:

P(csubjective|D)=P(csubjective)Πl=1NPl(csubjective|D)

P(cobjective|D)=P(cobjective)Πl=1NPl(cobjective|D)

其中,P(csubjective)表示统计后属于主观的先验概率,P(cobjective)表示统计后 属于客观的先验概率。本发明中忽略先验概率的影响,都设置为0.5。N表示 基分类器的数目。

105、使用统计结果判断待分样本的主客观类别。

由统计后的后验概率大的类别作为分类结果。

样本属于主观或者客观类别的判定通过后验概率P(csubjective|D)和 P(cobjective|D)来决定,具体判定规则如下:

如果P(csubjective|D)>P(cobjective|D),则样本属于主观,否则样本属于客观。

为了将本发明的方法和传统的使用所有样本和单一欠采样的方法比较, 本实施例使用一定的训练语料和测试语料分别对这三种分类方法进行训练和 测试。实验中使用的语料是在豆瓣网搜集的关于电影方面的中文评论,将文 档分成句子。语料一共包括5597个句子。我们对这些句子进行了主客观的人 工标注,标注完成之后,客观句子共有4592个,主观句子共有1005个,比 例为4.6∶1。实验过程中,我们选用400个句子作为测试语料,其中包括200 个主观句子,200个客观句子。其余剩下5197句子中包含客观句子4392个和 主观句子805个作为训练样本。

实验选用的评价标准是客观句子的召回率RObjective、主观句子的召回率 RSubjective以及几何均值G-mean,其中G-mean一 般是评价不平衡分类问题的综合评价标准。

表1为采用三种不同方法进行分类之后的测试效果对比表格,如表1所 示,其中参与比较的分类方法包括:

全部数据分类,代表使用所有主客观训练样本训练,需要指出的是,这 个时候参与训练的主观和客观的样本是不平衡的,客观句要远远多于主观句;

欠采样,代表仅使用一次欠采样,选择与主观句同样数目的客观句与所 有主观句一起训练一个基分类器,用于后续分类测试样本;

本发明方法,代表本发明的主观文本和客观文本的分类方法。

表1

从表1所示的对比数据,可以看出,本发明的方法要远远好于使用全部 数据训练的结果,提高的幅度超过15个百分点,这个结果显示本发明方法能 够很好的处理主客观分类中的不平衡问题。本发明方法同样要优于单次欠采 样的方法,说明本发明方法中使用多次欠采样能够充分利用多数类样本,并 且在统计不同的基分类器时提高了分类效果。特别在主观句的召回率方面, 要比单次采样的方法好8个左右的百分点。对于主客观分类,主观文本的识 别往往显得更重要,所以本发明的方法更适合实际需要。

下面对本发明提供的主观文本和客观文本分类装置进行说明,其基本逻 辑结构示意图参考图2,主要包括:

欠采样单元201,用于对训练样本进行多次欠采样,每次得到对应的一组 欠采样训练集;

所述欠采样单元还用于:按照所述确定的欠采样次数,从所述多数类样 本中重复抽取出部分多数类样本,且每一次抽取出的部分多数类样本的数量 与所述少数类样本的数量相同。

所述欠采样单元用于对归类为多数类样本的不平衡训练样本进行多次欠 采样。

训练单元202,用于对每一组所述欠采样训练集任意选择一种机器学习分 类方法进行训练,从而为每一组所述欠采样训练集构建一个对应的基分类器;

这其中,所述机器学习分类方法为朴素贝叶斯分类、最大熵分类和支持 向量机分类中的任意一种。

分类单元203,用于使用每个基分类器对待分样本进行分类,从而分别得 到对应的分类结果;

这其中,分类结果为每个基分类器给出的待分样本属于主观类的后验概 率和属于客观类的后验概率。

统计单元204,用于将所有分类结果进行统计,得到统计结果;

其中,依据以下贝叶斯公式将所有所述的分类结果进行统计,得到统计 结果:

P(csubjective|D)=P(csubjective)Πl=1NPl(csubjective|D)

P(cobjective|D)=P(cobjective)Πl=1NPl(cobjective|D)

所述样本属于主观的后验概率P(csubjective|D)和属于客观的后验概率 P(cobjective|D)可以通过贝叶斯公式表示。P(csubjective)表示样本统计后属于主观 的先验概率,P(cobjective)表示样本统计后属于客观的先验概率;本发明中忽略 先验概率的影响,都设置为0.5。N表示基分器数目。

所述统计结果包括主观后验概率P(csubjective|D)和客观后验概率 P(cobjective|D)。

判断单元205,用于使用统计结果判断待分样本的主客观类别。

该装置具体用于判断主观文本和客观文本统计后的后验概率的大小,将 较大的主观或者客观的类别作为最终的分类结果。

其中,样本属于主观或者客观类别的判定通过后验概率P(csubjective|D)和 P(cobjective|D)来决定,具体判定规则如下:

如果P(csubjective|D)>P(cobjective|D),则样本属于主观,否则样本属于客观。

请参考图3,图3为本发明实施例提供的另一种主观文本和客观文本分类 装置的结构示意图。

本实施例的主观文本和客观文本分类装置还可以进一步包括:

样本采集单元206,用于采集由人工标注方法分成为主观类句子和客观类 句子的不平衡训练样本;

比较单元207,用于比较所述不平衡训练样本包含主观类句子和客观类句 子的数量的多少;

归类单元208,用于将句子数量多的一类归类为多数类样本,将句子数量 少的一类归类为少数类样本;

计算单元209,用于计算多数类样本的数量和少数类样本的数量的比例以 确定欠采样的次数;

组合单元210,用于将每一次所述抽取出的部分多数类样本与所述少数类 样本组合成一组欠采样训练集。

本发明实施例提供的主观文本和客观文本分类装置用于对不平衡训练样 本进行多次欠采样,对欠采样训练集进行训练,构建多个基分类器,进而用 于对待分样本进行分类,最后该装置还用于将所有分类结果进行统计从而得 到最终的分类结果。本实施例中的装置能够充分利用不平衡训练样本,解决 了样本不平衡给机器学习分类方法带来的不利影响。使用了三种不同的方法 构建基分类器,使得各个基分类器的差异性大,有利于改善分类效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤 是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机 可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上对本发明所提供的一种主观文本和客观文本分类方法及装置进行了 详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体 实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解 为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号