首页> 中国专利> 基于层次化分类体系的情感判别和重要性划分方法

基于层次化分类体系的情感判别和重要性划分方法

摘要

本发明涉及一种基于层次化分类体系的情感判别和重要性划分方法,其包括:S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示;S3)针对每层中的内节点和基类,选取一定量的新闻数据进行人工标注;S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率;S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。

著录项

  • 公开/公告号CN108804524A

    专利类型发明专利

  • 公开/公告日2018-11-13

    原文格式PDF

  • 申请/专利号CN201810394797.6

  • 发明设计人 冯翱;徐天豪;吴锡;

    申请日2018-04-27

  • 分类号

  • 代理机构

  • 代理人

  • 地址 610000 四川省成都市西南航空港经济开发区学府路1段24号

  • 入库时间 2023-06-19 07:08:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-27

    授权

    授权

  • 2018-12-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20180427

    实质审查的生效

  • 2018-11-13

    公开

    公开

说明书

技术领域

本发明涉及数据处理技术领域,尤其涉及一种基于层次化分类体系的情感判别和重要性划分方法。

背景技术

随着网络信息的迅猛发展,互联网产生了海量的各种类型的原始信息,为了在浩如烟海又纷繁芜杂的信息中获取有效信息,信息处理成了人们必不可少的工具。在实际应用中,信息的获取往往聚焦于某一垂直领域,如财经、社会、体育等,以更好的对新闻的情感倾向(正面/负面/中性)和重要性(对于新闻主体影响高/中/低)进行判别,情感倾向和重要性是构建推荐系统及量化处理时的重要属性。在垂直领域内,通过层次化分类体系来构建分类器以自动对文本进行分类,是减少人工标注工作量和实时高效处理的前提。

在传统文本分类中,并没有考虑到类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面,从而使得特征间存在大量冗余,因此基于层次化体系对文本进行分类是非常必要的。在将文本通过分类器归入到细分领域后,进行情感倾向和重要性两个属性的判别,通常将正/负面新闻与重要性相结合,构成一个单维度的分类,从而将问题转化为一个多分类问题,可使用机器学习中的通用分类算法解决。因为细分领域的新闻中存在专有名词,一些情感倾向及重要程度通过与内容相关的语义特征表达,所以通用的基于情感词表的方法在很多领域中不再适用。以新闻《创美药业2016年全年盈利同比大幅增加125.15%》为例,“集团的毛利为人民币180.30百万元,同比增长9.47%;毛利率为4.91%,较上年度增加0.06个百分点;净利润率为1.62%,较上年度增加0.84个百分点。总费用率为3.06%,较上年度减少0.73个百分点”,在内容中出现了“增加”,也出现了“减少”,所以通过情感词很难判断文章情感倾向。实际的情感倾向要取决于关键词对应的主体,既文中的“毛利”“总费用率”,事实上,“增加”和“减少”对应的情感倾向都是正面的。

综上,现有技术方案主要包括:

1、不考虑新闻特征,与其他情感分类问题类似,使用通用情感词表构建分类器。该方案对于大量不含明显情感词的新闻,不能进行正确的情感和重要性判别。

2、采集某一垂直领域大量待分类新闻,由人工基于预先设定的规则,对于部分数据进行人工标注,并使用标注数据训练单一分类器,用分类器对未标注数据进行划分。然而,由于不同内容的新闻具有不同的情感和重要性划分标注,将所有类别的训练数据合并进行处理,训练得到的通用分类器对于大多数类别的分类效果都不够好。

3、现有的普通层次化分类方法,对垂直领域内新闻内容进行分类,采集各层次中不同节点的内容进行标注,再对每个节点使用相同分类器进行训练,之后新获取的新闻数据,使用分类器对其进行划分。该方案存在以下不足:即使单一垂直领域,同一层次内新闻仍有不同的特点,针对不同节点使用相同分类器进行训练,忽略了不同新闻内容间的差异性,各节点间只是参数不同,当节点过多时容易误分,很难获得高准确率的结果。

发明内容

针对现有技术之不足,本发明提出一种基于层次化分类体系的情感判别和重要性划分方法,其包括:

S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;

S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示,出现频率/概率高的细分领域被划分为内节点和基类,每层包含一个“其他”节点,归类出现频率低的细分领域;

S3)针对每层中的内节点和基类,选取一定量的新闻数据,由专业人员进行人工标注,其中数据量的选取应满足节点分类器的训练要求;

S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率,每个节点设置一个门限值Pmin;

S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;

S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。

根据一个优选实施方式,在S4中,所分类器采用的分类算法包括:支持向量机、贝叶斯模型、决策树和神经网络算法。

根据一个优选实施方式,在S5中,根据Naive Bayes分类方法计算新闻数据属于某节点的概率:

其中,di表示任意新闻数据,cj表示某节点;对di进行分类,就是将di放入概率值最大的节点,即:

本发明具有以下有益效果:

本发明设计了一种在垂直领域中,基于层次化分类体系的情感判别和重要性划分方法。该方法首先将垂直领域进行分层处理,层次结构中每一个内节点处都有一个分类器,该分类器通过对节点处的样本子集使用Bayes方法进行训练得到,最后使用这些分类器将大量未标注的待分类新闻数据分到每个层次结构的节点当中。之后对节点中的新闻数据,针对该节点主题进行情感和重要性分类,得到最终的分类标签。该方法可以有效提高情感和重要性分类的准确率,处理更有针对性,克服了对传统垂直领域新闻数据处理的弊端。同时,通过层次体系分类,提高了标注数据的精确度,提升了训练的效率。而且该方法的层次化分类思想,可以根据不同垂直领域内新闻数据的特点,使用多种算法来实现,有良好的适应性和可移植性。

附图说明

图1是本发明的方法流程图;

图2是垂直领域层次化分类的示意图;

图3是不同节点使用多种方法训练的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

如图1所示,本发明的基于层次化分类体系的情感判别和重要性划分方法包括:

步骤1:

采集某垂直领域的大量新闻数据,内容尽可能多样化。

步骤2:

分析垂直领域,根据层次化分类的思想,可借助参考信息(包括但不限于百度指数等),对该领域进行层次化划分。划分后垂直领域可由树状图表示,出现频率/概率高的细分领域被划分为内节点(可再分)和基类(叶节点,不可再分),每层包含一个“其他”节点,归类出现频率低的细分领域。

步骤3:

针对每层中的内节点和基类,选取一定量的新闻数据,由专业人员进行人工标注,数据量的选取应满足节点分类器的训练要求。

步骤4:

对于每个内节点和基类,使用步骤3中标注好的训练数据建立分类器,分类器可根据该垂直领域的新闻特点选择,包括支持向量机、贝叶斯模型、决策树、神经网络等,此处不加以限制。分类器输出新进新闻属于该节点的概率,每个节点也要设置一个门限值Pmin,概率超过门限值时,不再继续向下判断。

步骤5:

对于新采集到的新闻数据,使用步骤4中分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,所以新闻数据会被归类到内节点或基类。假设di为任意新闻数据,计算其属于所有节点中某节点cj的概率,则根据Naive Bayes分类方法有:

对di进行分类,就是将di放入概率值最大的节点,即:

步骤6:

将新闻数据归类到节点后,使用与当前节点主题相关性强的情感词对新闻数据进行处理,根据匹配到的情感词的情感倾向及词频,确定该新闻数据的情感和重要性标签。

如图2所示,C1,C2,C3是对垂直领域的第一层分类,可看作是相对于根节点的三个基类,然后将层次分类问题逐层转化为一个个局部分类问题,在类树的每一个内部节点分别建立分类器。从图2中可以看出,对C2进行层次化分类,直到分出X1和X2两个基类,分类停止。

如图3所示,为系统的实现示意,针对不同节点,使用多种不同分类器进行训练,选取效果最好的作为节点应用的分类器。需要说明的是,该示意图中所示的具体训练方法是示意性的,在具体应用中,需要根据实际情况选取效果最好的方法作为节点应用的分类器。

本发明针对垂直领域中新闻数据间仍有细分差异,而不能高效准确处理的问题,设计了一种在垂直领域中,基于层次化分类体系的情感判别和重要性划分方法。该方法首先将垂直领域进行分层处理,层次结构中每一个内节点处都有一个分类器,该分类器通过对节点处的样本子集使用Bayes方法进行训练得到,最后使用这些分类器将大量未标注的待分类新闻数据分到每个层次结构的节点当中。之后对节点中的新闻数据,针对该节点主题进行情感和重要性分类,得到最终的分类标签。该方法可以有效提高情感和重要性分类的准确率,处理更有针对性,克服了对传统垂直领域新闻数据处理的弊端。同时,通过层次体系分类,提高了标注数据的精确度,提升了训练的效率。而且该方法的层次化分类思想,可以根据不同垂直领域内新闻数据的特点,使用多种算法来实现,有良好的适应性和可移植性。

需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号