首页> 中国专利> 文本分类器的构建方法、构建装置及文本分类方法

文本分类器的构建方法、构建装置及文本分类方法

摘要

本申请实施例公开了一种文本分类器的构建方法,包括以下步骤:获取分类体系,以多叉树数据结构存储所述分类体系,生成本体树;从所述本体树的本体节点中提取关键词;获取本体表达式,所述本体表达式根据分类规则和语义模型生成,所述分类规则根据所述关键词和逻辑算子生成,所述语义模型根据所述关键词生成;将所述本体节点与相应的所述本体表达式建立关联,得到文本分类器,所述文本分类器包括所述本体树以及与所述本体树各个本体节点相应关联的本体表达式。利用上述方法所构建的文本分类器对未知文本进行分类,可以精确地对特征交叉严重的文本进行分类,同时,避免了训练语料不均衡导致分类出错的问题。

著录项

  • 公开/公告号CN107491554A

    专利类型发明专利

  • 公开/公告日2017-12-19

    原文格式PDF

  • 申请/专利权人 北京神州泰岳软件股份有限公司;

    申请/专利号CN201710779864.1

  • 发明设计人 李德彦;晋耀红;席丽娜;

    申请日2017-09-01

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构11363 北京弘权知识产权代理事务所(普通合伙);

  • 代理人逯长明;许伟群

  • 地址 100089 北京市海淀区万泉庄路28号万柳新贵大厦A座601室

  • 入库时间 2023-06-19 04:06:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-17

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20200629 变更前: 变更后: 申请日:20170901

    专利申请权、专利权的转移

  • 2019-12-20

    专利实施许可合同备案的生效 IPC(主分类):G06F17/30 合同备案号:X2019990000215 让与人:北京神州泰岳软件股份有限公司 受让人:中科鼎富(北京)科技发展有限公司 发明名称:文本分类器的构建方法、构建装置及文本分类方法 申请公布日:20171219 授权公告日:20181204 许可种类:排他许可 备案日期:20191127 申请日:20170901

    专利实施许可合同备案的生效、变更及注销

  • 2018-12-04

    授权

    授权

  • 2018-01-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170901

    实质审查的生效

  • 2017-12-19

    公开

    公开

说明书

技术领域

本申请涉及文本挖掘技术领域,尤其涉及一种文本分类器的构建方法。此外,本申请还涉及一种文本分类器的构建装置,以及一种文本分类方法。

背景技术

随着互联网资源的迅猛发展,各种各样的文本快速增加。文本包括结构化文本和非结构化文本,从非结构化文本中获取用户感兴趣或者有用的文本信息的过程,被称为文本挖掘。文本分类是文本挖掘技术中重要的一种。

常见的文本分类主要采用统计方法,包括k近邻法、朴素贝叶斯法、神经网络法及支持向量机方法等。基于统计方法的文本分类,采用预先标记好的训练语料来训练获取各类别的模板,再利用模板对未知文本进行分类。当文本分类要求为细粒度分类时,类别与类别之间的语料内容存在相同的特征,即产生特征交叉现象。当特征交叉现象较为严重时,就会显著降低文本分类的精度。

发明内容

现有的文本分类器不能适用于特征交叉严重的文本,为解决这个技术问题,第一方面,本申请提供一种文本分类器的构建方法,包括以下步骤:

获取分类体系,以多叉树数据结构存储所述分类体系,生成本体树;

从所述本体树的本体节点中提取关键词;

获取本体表达式,所述本体表达式根据分类规则和语义模型生成,所述分类规则根据所述关键词和逻辑算子生成,所述语义模型根据所述关键词生成;

将所述本体节点与相应的所述本体表达式建立关联,得到文本分类器,所述文本分类器包括所述本体树以及与所述本体树各个本体节点相应关联的本体表达式。

结合第一方面,在第一方面第一种可能的实现方式中,从所述本体树的本体节点中提取关键词的步骤,包括:

从本体节点的名称中提取主题词;

根据所述主题词获取扩展词,得到包括所述主题词和所述扩展词的所述关键词。

结合第一方面及上述可能的实现方式,在第一方面第二种可能的实现方式中,根据所述主题词获取扩展词的步骤包括:

将预设的样本文本进行分词得到第一字符;

根据第一字符构建倒排索引,得到索引库;

将所述主题词进行分词得到第二字符;

将第二字符与所述索引库匹配;

根据匹配的结果计算样本文本与主题词的相关度;

按照相关度由大至小降序显示相关度大于零的所述样本文本;

在显示的样本文本中高亮标记与所述第二字符匹配的第一字符;

根据显示的样本文本中与所述主题词部分匹配的字符获取扩展词。

结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,利用所述文本分类器确定预设的测试文本的预测分类标签;

当准确率小于预设阈值时,调整所述文本分类器中的本体表达式,所述准确率为与测试文本的原始分类标签匹配的预测分类标签的数量占预测分类标签总数的比值。

结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,调整分类器中的本体表达式的步骤,包括:

提取与原始分类标签不匹配的预测分类标签所对应的本体表达式;

当对应的本体表达式中缺少约束因子时,在本体表达式中增加约束因子,得到优化的本

体表达式,所述约束因子包括语义模型中的概念和/或逻辑算子。

第二方面,本申请提供一种文本分类方法,包括以下步骤:

获取待分类文本;

确定文本分类器中与所述待分类文本匹配的本体表达式,其中,所述文本分类器包括本体树,以及与所述本体树中的各个本体节点相应关联的本体表达式;

确定与所述本体表达式关联的本体节点;

根据本体节点的信息确定所述待分类文本所属的类别。

结合第二方面,在第二方面第一种可能的实现方式中,确定文本分类器中与所述待分类文本匹配的本体表达式的步骤包括:

当本体节点关联的本体表达式多于一个时,并行判断所述待分类文本是否与本体表达式匹配。

第三方面,本申请提供一种文本分类器构建装置,包括:

第一获取单元,用于获取分类体系,以多叉树数据结构存储所述分类体系,生成本体树;

提取单元,用于从所述本体树的本体节点中提取关键词;

第二获取单元,用于获取本体表达式,所述本体表达式根据分类规则和语义模型生成,所述分类规则根据所述关键词和逻辑算子生成,所述语义模型根据所述关键词生成;

生成单元,用于将所述本体节点与相应的所述本体表达式建立关联,得到文本分类器,所述文本分类器包括所述本体树以及与所述本体树各个本体节点相应关联的本体表达式。

结合第三方面,在第三方面第一种可能的实现方式中,所述提取单元还包括:

主题词提取子单元,用于从本体节点的名称中提取主题词;

扩展子单元,用于根据所述主题词获取扩展词,得到包括所述主题词和所述扩展词的所述关键词。

结合第三方面及上述可能的实现方式,在第三方面第二种可能的实现方式中,文本分类器的构建装置还包括:

测试文本分类单元,用于利用所述文本分类器确定预设的测试文本的预测分类标签;

优化单元,用于准确率小于预设阈值时,调整所述文本分类器中的本体表达式,所述准确率为与测试文本的原始分类标签匹配的预测分类标签的数量占预测分类标签总数的比值。

上述技术方案中的文本分类器构建方法和文本分类方法,首先生成本体树,再从本体树的本体节点提取关键词,然后基于关键词生成语义模型,基于关键词和逻辑算子生成分类规则,再以语义模型和分类规则生成本体表达式,将所构建的本体表达式与其对应的本体节点关联起来,从而本体树和所有与本体节点关联的本体表达式构成了文本分类器。将文本分类器用于文本分类时,待分类文本触发特定的本体表达式,由于本体表达式与特定的本体节点关联,因此通过被触发的本体表达式可以确定本体节点。以该本体节点的信息,例如名称,作为分类标签来标记待分类文本,确定待分类文本的类别。

由于本体表达式包括至少一个能够有效表征待分类文本的语义模型中的概念,并且当存在多个语义模型中的概念时,多个语义模型之间存在相同或不同的逻辑关系,因此,不同的本体节点中所提取出的关键词即便可能相同,但所关联的本体表达式是不同的,因此适用于特征词交叉严重的文本的分类。

同时,由于通过触发本体表达式来确定文本的类别,不必计算特征覆盖的数量或者权重,因此,即便训练预料不均衡,某个类别的特征词数量特别少,也不会出现特征倾斜导致文本分类错误的情况。这是因为,能够表征文本语义的特征词一旦被提取出来,并且被用于构建本体表达式,则一旦触发本体表达式,就可以对待分类文本进行标记,无需考虑特征词出现的数量和权重,从而避免训练预料不均匀导致的分类出错的情况。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请文本分类器的构建方法的第一个实施例的流程图;

图2为本申请文本分类器的构建方法的第二个实施例中步骤S200的流程图;

图3为本申请文本分类器的构建方法的第三个实施例中步骤S220的流程图;

图4为本申请文本分类器的构建方法的第四个实施例的流程图;

图5为本申请文本分类器的构建方法的第五个实施例中步骤S600的流程图;

图6为本申请文本分类方法的第一个实施例的流程图;

图7为本申请文本分类器的构建装置的第一个实施例的结构示意图;

图8为本申请文本分类器的构建装置的第二个实施例的结构示意图;

图9为本申请文本分类器的构建装置的第三个实施例的结构示意图。

具体实施方式

下面结合附图对本申请的实施例作详细说明。

文本分类是指给定分类体系,将文本分到某个或者某几个类别中。文本分类器是文本挖掘过程中对文本进行分类的方法的统称。

分类体系包含多个层级的标签,体现了不同应用场景中人们对于文本分类的具体需求。以银行信用卡部客户服务工单文本为具体应用场景来举例,分类体系可以如表1所示,包括一级分类标签、隶属于一级分类标签的二级分类标签,以及隶属于相应二级分类标签的三级分类标签。除了表1中示出的分类,该分类体系还可以包括其他的一级分类标签,及隶属于相应一级分类标签的二级分类标签,分类体系中的二级分类标签下,也还可以其他三级分类标签,其他级别的分类标签与此类似。

表1分类体系实施例示意表

采用基于统计方法的文本分类的方法,至少存在以下两个缺陷。

第一,当文本分类要求为细粒度分类时,类别与类别之间的语料内容存在相同的特征词,即产生特征交叉现象。

以银行信用卡部客户服务工单文本为具体应用场景来举例,现有两条待分类文本:

待分类文本1:

之前有xw伪冒单:20150503nxxxxx181。现客户再次来电对结果不满,坚持要求我行也要承担一份责任,强烈不满再次投诉,望贵部尽快核实处理,谢谢!联系电话:152xxxx4718。

待分类文本2:

客户来电要求催办表单号:20150916nxxxxx311,要求尽快处理并将处理结果告知,表示至今未有人联系,要求减免损失,并要求先将4900元做争议登记,只愿还其正常消费的金额,不愿还被盗刷的金额,望贵部尽快核实处理,谢谢!联系电话:138xxxx8628。

上述两个待分类文本中,待分类文本1表示的语义与伪冒盗刷相关,待分类文本2表示的语义与业务催办相关。然而,两个待分类文本中同时出现了很多相同或者相似概念的特征词。例如,两个待分类文本中都出现了“不满”、“来电”、“核实”这些特征词;还例如,对于银行信用卡部客户服务工单而言,待分类文本1中的“伪冒”和待分类文本2中的“盗刷”被认为是相似的特征词。这两个待分类文本中,能够有效地来表征该待分类文本实际所属类别的特征词相对较少,例如:“伪冒盗刷”中的“伪冒单”,“催办业务”中的“要求尽快处理”、“至今未有人联系”。

在采用基于统计方法的文本分类的方法进行分类的过程中,由于上述两个待分类文本能提取出很多相同或相似的特征词,特征交叉严重,实际上很难或者无法有效提取出类似“要求尽快处理”、“至今未有人联系”这样的特征词。面对类似这样的训练语料,使用计算机自动学习的统计分类方法,由于很容易错判,因此文本分类器很难达到理想的精度要求。

第二,当训练预料不均匀时,部分类别的训练语料非常多,提取的特征很多,覆盖面广,部分类别的训练语料非常少,提取特征有限,不足以覆盖当前类别的所有方面。此时,采用统计方法进行文本分类容易导致特征倾斜的问题。

仍然以银行信用卡部客户服务工单文本为具体应用场景来举例,沿用前述的待分类文本2,在该待分类文本中,“要求尽快处理”、“至今未有人联系”等能够有效表征催办业务概念的特征词很难被提取到;同时,待分类文本2中的“不愿还被盗刷的金额”,容易提取出特征词“盗刷”。因此,在待分类文本2中,能够有效表征的特征词无法被提取,误导性的特征词被提取,从而容易引发误判的问题,导致分类出错。

另外,如果在文本分类器构建时,“催办业务”这一个类别的训练语料很少,从中提取的特征词有限,只有“催办”、“盗刷”、“金额”、“核实”、“处理”共5个特征词;而同时,“伪冒盗刷”这一个类别的训练语料很多,从中提取到的特征词覆盖面比较宽泛,可以提取到“信用卡”、“金额”、“提额”、“额度”、“盗刷”、“来电”、“不满”、“核实”、“处理”、“责任”、“还款”、“投诉”、“进度”、“受理”共14个特征词。

当面对以下的待分类文本3时,待分类文本3实际上属于“催办业务”类别,而基于统计方法的文本分类方法很容易误判。

待分类文本3:

之前投诉单:20150826j00000044,20150902j00000248,20150910j00000149,客户表示从8月26日来电投诉,信用卡申请提额,工作人员拒绝受理,至今未接到分行负责人员回复电话,客户要求针对分行办理能力进行投诉,并多次在电话中询问监管部门机构电话,且要求无论处理结果如何,要求分行回复处理进度,客户表示处理时间过久,不愿继续等待,劳烦处理,谢谢。

基于统计方法的文本分类方法会根据提取特征的数量和权重来确定分类。如果采用统计方法来分类,待分类文本3会被标记为“伪冒盗刷”类别。这是因为“伪冒盗刷”类涵盖了更多特征词,而“催办业务”类特征词少,覆盖面受限,无法更优先匹配到待分类文本3的内容。

现有的文本分类器不能适用于特征交叉严重的文本,并且不能适用于训练语料不均匀的情况,为解决这个技术问题,请参考图1,本申请的一个具体实施方式中提供一种文本分类器的构建方法,包括以下步骤:

S100获取分类体系,以多叉树数据结构存储所述分类体系,生成本体树;

S200从所述本体树的本体节点中提取关键词;

S300获取本体表达式,所述本体表达式根据分类规则和语义模型生成,所述分类规则根据所述关键词和逻辑算子生成,所述语义模型根据所述关键词生成;

S400将所述本体节点与相应的所述本体表达式建立关联,得到文本分类器,所述文本分类器包括所述本体树以及与所述本体树各个本体节点相应关联的本体表达式。

在S100的步骤中,分类体系可以由人工构建,也可以由计算机构建,本申请对此不作限制。S100的步骤中“以多叉树数据结构存储所述分类体系”的步骤,具体地可以采用以下方式:首先建立根节点,以根节点为父节点,添加一级本体节点,并以分类体系中的一级分类标签作为相应的一级本体节点的名称;类似的,再以一级本体节点为父节点,添加二级本体节点,并以分类体系中的二级分类标签作为相应的二级本体节点的名称;以此类推,直到获取的分类体系中所有级别的分类标签都对应建立了本体节点。各级本体节点以及相应本体节点之间的父子关系,就构成了本体树。在本体树中,一级本体节点、二级本体节点、三级本体节点等都可以统称为本体节点。

举例来说,沿用以上表1中的例子,以多叉树数据结构存储该分类体系,生成的本体树如表2所示。

表2本体树实例示意表

可选地,S200中的从本体树的本体节点中提取关键词的步骤,可以包括:获取本体节点的名称;对该本体节点的名称进行分词,获得主题词;以这些主题词作为该本体节点的关键词。

举例来说,沿用表2中的例子,以名称为“伪冒盗刷”的三级本体节点为例,该本体节点的名称为“伪冒盗刷”,对“伪冒盗刷”进行分词,获得主题词“伪冒”和“盗刷”。以“伪冒”和“盗刷”作为关键词,进行下一步获取本体表达式的步骤。

可选地,请参见图2,S200中的从本体树的本体节点中提取关键词的步骤,可以包括:

S210从本体节点的名称中提取主题词;

S220根据所述主题词获取扩展词,得到包括所述主题词和所述扩展词的所述关键词。

通过获取扩展词,可以挖掘出更多隐含的相近语义的扩展词,以主题词和扩展词共同作为关键词来构建分类规则和语义模型,从而提高文本分类器的分类精度。

其中,步骤S210中提取主题词的方法可以参见前述实现方式中提取主题词的方法。

请参见图3,步骤S220中根据主题词获取扩展词的步骤,可以包括:

S221将预设的样本文本进行分词得到第一字符;

S222根据第一字符构建倒排索引,得到索引库;

S223将所述主题词进行分词得到第二字符;

S224将第二字符与所述索引库匹配;

S225根据匹配的结果计算样本文本与主题词的相关度;

S226按照相关度由大至小降序显示相关度大于零的所述样本文本;

S227在显示的样本文本中高亮标记与所述第二字符匹配的第一字符;

S228根据显示的样本文本中与所述主题词部分匹配的字符获取第一扩展词。

步骤S221和S222利用特定的样本文本,建立基于特定样本文本的索引库,用于利用该索引库来获取第一扩展词。举例来说,预先获取了银行信用卡部客服工单文本10000条作为样本文本,对这10000条样本文本进行按照单字符粒度进行分词,获得第一字符。对每个第一字符逐字构建倒排索引,形成索引库。

在S223的步骤中,按照和S221的步骤同样的分词方法,对S210步骤提取到的主题词进行分词,得到第二字符。

在S224的步骤中,将第二字符逐字与索引库中的倒排索引进行匹配,每篇样本文本中,匹配的字符越多,认为该样本文本与主题词的相关度越高,具体地可以通过匹配字符的长度来计算该样本文本与主题词的相关度。

在S228的步骤中,样本文本中与主题词部分匹配的第一字符,向后或者向前扩展,从而获取具有完整意义的词级的字符串,将该字符串作为第一扩展词。除了部分匹配的情况外,即便与主题词完全匹配,也可以在样本文中向前或向后扩展,获取具有完整意义的字符串来作为第一扩展词。该步骤可以通过人工完成,可以通过计算机完成,本申请对此不作限制。

步骤S223至S228,在特定的索引库中以主题词为检索词,与索引库中的倒排索引进行匹配,从而计算出样本文本与主题词的相关度,将样本文本按照相关度进行降序排序显示,并且在显示的样本文本数据中高亮标记与第二字符匹配的第一字符,进行可视化展示,从而协助快速定位获取第一扩展词。尤其当样本文本内容很长,或者相关度大于零的样本文本数量很大时,如果由人工根据高亮的第一字符来获取第一扩展词,则大大提升获取第一扩展词的效率,减少工作量。

举例来说,沿用表2中的例子,提取到主题词“伪冒”和“盗刷”。分别以“伪冒”和“盗刷”作为检索词,利用前述10000条样本文本所构建的索引库,在样本文本中定位匹配的信息内容。假如结果显示相关度大于0的样本文本有3条,具体如下所示。

样本文本1:

之前有xw伪冒单:20150503nxxxxx181。现客户再次来电对结果不满,坚持要求我行也要承担一份责任,强烈不满再次投诉,望贵部尽快核实处理,谢谢!联系电话:152xxxx4718。

样本文本2:

客户反映未办卡,且发生交易,详见伪冒单:20150207j11000092,期间客户已多次来电催办,见表单:20150209j23240075、20150210j23240017、20150211j23240055,现客户再次来电,表示反映问题至今且多次催办后,2/11接到分行回复时只是询问卡片是否本人申请,任何关于处理结果的回复都没有,对于我行处理进度非常不满,要求尽快回复最终结果,或回复告知准确处理时限,我部在线安抚无效,烦请贵部回复处理,谢谢!

样本文本3:

客户投诉卡片被盗用问题,已填单:20150708j00000081,20150714j00000214,对当前处理结果不满,仍需我行出具该短信是伪冒短信的证明,并要求尽快处理,望贵部协助处理,谢谢!

样本文本1和2的文本中都完全匹配到“伪冒”这个主题词。而样本文本3除了完全匹配到“伪冒”外,还部分匹配到“盗”。为此,可以将“伪冒”向右扩展成“伪冒短信”,将“盗”向右扩展成“盗用”,从而将“伪冒短信”和“盗用”作为第一扩展词。将第一扩展词与主题词一起作为关键词,用于下一步获取本体表达式的步骤。

除了利用索引库获得第一扩展词之外,还可以根据主题词的语义来获取字符无法匹配到,但语义相同或相近的第二扩展词,以第一扩展词、第二扩展词和主题词共同作为关键词,用于下一步获取本体表达式的步骤。

举例来说,从上述的样本文本2中可以发现,该样本文本中,即便不出现“伪冒”这个词,但当该文本中“未办卡”和“发生交易”同时出现时,该文本的内容也仍然与伪冒盗刷相关,用户也期望将该文本分类到“伪冒盗刷”的类别下。为此,可以将“未办卡”和“发生交易”作为第二扩展词。

通过根据主题词获取第二扩展词的步骤,可以进一步挖掘出隐含的扩展词,从而进一步提高文本分类器的分类精度。第二扩展词的获取可以由人工进行,也可以通过计算机来获取,本申请对此不作限定。

在S300的步骤中,本体表达式可以由人工构建生成,也可以由计算机生成,本申请对此不作限制。获取本体表达式可以是人工将本体表达式输入某一计算机,被该计算机获取,也可以是该计算机接收由另一计算机生成并发送的本体表达式,从而完成获取本体表达式的步骤,本申请对此也不作限制。

本体表达式的生成过程,具体地可以通过以下步骤来实现:

首先,根据S200的步骤提取到的关键词,采用逻辑算子将至少一个关键词连接起来,使逻辑算子与关键词、关键词与关键词之间存在逻辑关联,生成分类规则。

逻辑算子,又称为逻辑运算符,本申请实施例中的逻辑算子包括:逻辑与“+”、逻辑非“-”、逻辑或“|”,以及多元取整“()”。举例来说,分类规则为A+B,表示要求同时包含A和B;分类规则为A+(B|C),表示要求包含B或C中的任一个,同时还要求包含A。

沿用S200中“伪冒盗刷”的例子,从名称为“伪冒盗刷”的三级本体节点中提取的主题词为“伪冒”和“盗刷”,通过主题词获得的第一扩展词为“伪冒短信”和“盗用”,第二扩展词为“未办卡”和“发生交易”。将主题词和两类扩展词共同作为关键词,生成了3个分类规则:

分类规则1:伪冒|盗刷;

分类规则2:伪冒短信+盗用;

分类规则3:未办卡+发生交易。

上述的分类规则可以由人工来构建生成,也可以由计算机来生成,本申请对此不作限定。

其次,根据关键词生成语义模型。语义模型是指面向已知概念,从样本数据中归纳穷举出的用于描述已知概念语义的文本表现形式。

具体地,在一种实现方式中,语义模型可以包括通用语言概念和业务要素概念中的任意一种,分别以“c_”和“e_”两种符号标记。将关键词分为通用语言概念和业务要素概念,分别从每个关键词出发,从上下文文本信息中提取已知概念的不同表现形式。

举例来说,仍然沿用S200中“伪冒盗刷”的例子,将“伪冒”、“盗刷”、“伪冒信息”、“盗用”、“办卡”、“用卡”分别作为业务要素概念,将“否定概念”作为通用语言概念,从已有的样本数据中归纳穷举出特定概念下,表示该概念的不同文本表现形式。如下表3所示:

表3语义模型示例一

概念类型概念概念的不同表现形式(特征词)业务要素概念e_伪冒伪冒、假冒、冒充业务要素概念e_盗刷盗刷业务要素概念e_伪冒信息伪冒短信、伪冒消息、伪冒来电、伪冒邮件业务要素概念e_盗用盗用业务要素概念e_办卡办.{0,2}卡业务要素概念e_用卡用卡、发生交易、使用卡片、卡片被刷通用语言概念c_否定概念未、没有、不曾

在语义模型中,除了包括通用语言概念和/或业务要素概念两类外,还可以包括即用概念,即用概念是用户根据实际需要来即时设定的一类概念,可以用“k_”符号来标记。例如,当分类时需要文本中出现“初始额度”,可以直接定义一个即时概念,以“k_初始额度”来表示,该即用概念中仅包含“初始额度”一词。

上述的语义模型可以由人工来构建生成,也可以由计算机来构建生成,本申请对此不作限定。

最后,根据分类规则和语义模型生成本体表达式。具体来说,将分类规则中的关键词对应到语义模型中相应的概念上,并采用与分类规则中相同的逻辑算子将相应概念用逻辑算子关联起来,生成本体表达式。

举例来说,沿用前述“伪冒盗刷”的例子,可以生成以下本体表达式:

本体表达式1:e_伪冒|e_盗刷;

本体表达式2:e_伪冒信息+e_盗用;

本体表达式3:c_否定概念+e_办卡+e_用卡。

需要说明的是,在S300的步骤中,分类规则和语义模型可以同时生成,也可以先后生成,本申请对其生成顺序不作限制。

在S400的步骤中,将在S300步骤中基于S200步骤中某个本体节点所生成的本体表达式,与S200步骤中的该本体节点建立关联。一个本体节点可以与一个或者多个相应的本体表达式建立关联。当本体树中所有的本体节点都与各自相应的本体表达式建立关联后,该本体树,以及与本体树各个本体节点相应关联的本体表达式,共同构成文本分类器,用于未知文本的分类。

上述实施方式中的文本分类器构建方法和文本分类方法,首先生成本体树,再从本体树的本体节点提取关键词,然后基于关键词生成语义模型,基于关键词和逻辑算子生成分类规则,再以语义模型和分类规则生成本体表达式,将所构建的本体表达式与其对应的本体节点关联起来,从而本体树和所有与本体节点关联的本体表达式构成了文本分类器。将文本分类器用于文本分类时,待分类文本触发特定的本体表达式,由于本体表达式与特定的本体节点关联,因此通过被触发的本体表达式可以确定本体节点。以该本体节点的信息,例如名称,作为分类标签来标记待分类文本,确定待分类文本的类别。

由于本体表达式包括至少一个能够有效表征待分类文本的语义模型中的概念,并且当存在多个语义模型中的概念时,多个语义模型之间存在相同或不同的逻辑关系,因此,不同的本体节点中所提取出的关键词即便可能相同,但所关联的本体表达式是不同的,因此适用于特征词交叉严重的文本的分类。

同时,由于采用上述文本分类器是通过触发本体表达式来确定文本的类别,不必计算特征覆盖的数量或者权重,因此,即便训练预料不均衡,某个类别的特征词数量特别少,也不会出现特征倾斜导致文本分类错误的情况。这是因为,能够表征文本语义的特征词一旦被提取出来,并被用于构建本体表达式,则一旦触发本体表达式,就可以对待分类文本进行标记分类,无需考虑特征词出现的次数和权重,从而避免训练预料不均匀导致的分类出错的情况。

举例来说,沿用上述统计方法的缺点部分中的待分类文本1、待分类文本2以及待分类文本3的例子,将名称为“伪冒盗刷”的三级本体节点关联本体表达式“k_伪冒单”和“e_伪冒+c_要求担责|c_不满”,就可以将通过触发文本分类器中的本体表达式,从而将待分类文本1分类到“伪冒盗刷”类别中。类似地,名称为“催办业务”的三级本体节点关联本体表达式“e_催办”、“c_询问+e_处理进度”和“e_没有回复+e_处理时间+c_长”,可以将待分类文本2、待分类文本3标识到“催办业务”类别中。

其中,语义模型如表4所示。

表4语义模型示例二

需要说明的是,表2中,“承担.{0,2}责任”表示在匹配文本时,只要承担和责任之间还包含0~2个字符的文本,也会被“承担.{0,2}责任”匹配上,例如,当文本中有“承担一切责任”或“承担所有责任”时,就会认为已匹配到“承担.{0,2}责任”。本申请中其他类似的表示方法含义与此相同。

表2中,“[^不].{0,5}不满”表示在匹配文本时,只要不满之前包括0~5个字符的文本,都会被“[^不].{0,5}不满”匹配上,例如“很不满”,同时排除“不是不满”、“不算不满”等反向语义的特征词。本申请中其他类似的表示方法含义与此相同。

可选地,请参考图4,文本分类器的构建方法还可以包括:

S500利用所述文本分类器确定预设的测试文本的预测分类标签;

S600当准确率小于预设阈值时,调整所述文本分类器中的本体表达式,所述准确率为与测试文本的原始分类标签匹配的预测分类标签的数量占预测分类标签总数的比值。

在S500的步骤中,预设的测试文本已经采用原始分类标签人工标记好,通常测试文本的数量多于一条,与样本文本属于同一类文本。例如,样本文本是银行信用卡部客户服务工单文本,则测试文本通常也是银行信用卡部客户服务工单文本。

在S600的步骤中,如果准确率大于等于预设阈值,表示该文本分类器能够有效地对未知文本进行分类。如果小于预设阈值,则通过调整本体表达式来优化该文本分类器。

S500和S600的步骤可以是一个迭代的过程,通过不断优化,直到使优化后的文本分类器的准确率可以达到用户期望的阈值。

请参考图5,S600的步骤具体可以包括:

S610提取与原始分类标签不匹配的所述预测分类标签所对应的本体表达式;

S620当对应的本体表达式中缺少约束因子时,在本体表达式中增加约束因子,得到优化的本体表达式,所述约束因子包括语义模型中的概念和/或逻辑算子。

在S610的步骤中,具体可以通过以下方式来实现,首先提取与原始分类标签不匹配的预测分类标签,找到名称与预设分类标签相同的本体节点,再确定与该预设分类标签关联的本体表达式,从而确认测试文本所触发到的本体表达式。

在S620的步骤中,当S610步骤中提取出来的本体表达式缺少约束因子时,可以在本体表达式中增加约束因子,也就是通过加业务要素概念、通用语言概念或者即用概念中的至少一种,以及逻辑算子,从而优化原本体表达式,使能与原本体表达式匹配的待分类文本不能匹配优化后的本体表达式,或者不能与原本体表达式匹配的待分类文本能匹配优化后的本体表达式。例如,可以在语义模型中增加新的概念,同时增加新的逻辑算子,从而生成优化后的本体表达式;也可以在原概念中增加或减少特征词;还可以增加或减少逻辑算子,使概念之间形成新的逻辑关系。以该优化的本体表达式替换原本体表达式,与本体树中相应的本体节点建立关联,得到了优化后的文本分类器。

举例来说,沿用前述“伪冒盗刷”的例子,测试文本中包含测试文本1。

测试文本1:

客户对于伪冒单处理结果不满,要求投诉,详见表单号:20150810s11000063。已在线为其填写新投诉单20150906s00000076至风险管理处。但是客户坚持要求前往湖北武汉市的信用卡中心当面解决这个问题,请贵部尽快核实处理,谢谢。联系电话:138xxxxx124。

该测试文本1能够与本体表达式“e_伪冒|e_盗刷”匹配,即触发了该本体表达式,根据该本体表达式,在本体树中确定与之关联的本体节点,并根据本体节点的名称,将该测试文本用预测分类标签“伪冒盗刷”来标识。然而,该预测文本1实际语义并不是伪冒盗刷,而是催办业务,人工标识的原始分类标签为“催办业务”,与预测分类标签不匹配。如果该类发现该测试文本1中如果出现伪冒或盗刷,同时不出现“处理结果”,则该测试文本1不会触发上述的本体表达式,因此,当前的本体表达式中缺少约束因子:逻辑算子“-”和业务要素概念“e_处理结果”,“e_处理结果”包括特征词“处理结果”。在本体表达式中增加缺少的约束因子,得到优化的本体表达式:e_伪冒|e_盗刷-e_处理结果。以该优化的本体表达式替换原本体表达式,与本体树中相应的本体节点建立关联,得到了优化后的文本分类器。

请参考图6,在另一个具体实施方式中,提供了一种文本分类方法,包括以下步骤:

S710获取待分类文本;

S720确定文本分类器中与所述待分类文本匹配的本体表达式,其中,所述文本分类器包括本体树,以及与所述本体树中的各个本体节点相应关联的本体表达式;

S730确定与所述本体表达式关联的本体节点;

S740根据本体节点的信息确定所述待分类文本所属的类别。

在S720的步骤中,本体树以多叉树数据结构形式存储。在一个本体树中,一个本体节点可以关联至少一个本体表达式。当本体节点关联的本体表达式多于一个时,多个本体表达式形成本体表达式集,可以通过逐个遍历本体表达式集的方式来判断待分类文本是否与其中的本体表达式匹配;也可以并行判断待分类文本是否与本体表达式匹配,从而提高匹配速度,尤其是当待分类文本数量较大时,可以从整体上提高文本分类速度。

在S740的步骤中,本体节点的信息,具体可以是本体节点的名称等。以S730中与本体表达式关联的本体节点的名称作为分类标签,标记待分类文本,从而对待分类文本进行分类。当同一个待分类文本触发了大于一条本体表达式时,并且多条本体表达式各自对应的本体节点不同时,可以以多个本体节点的名称作为分类标签,分别标记同一个待分类文本,达到多分类的效果。

请参考图7,在另一个具体实施方式中,提供了一种文本分类器构建装置,包括:

第一获取单元1,用于获取分类体系,以多叉树数据结构存储所述分类体系,生成本体树;

提取单元2,用于从所述本体树的本体节点中提取关键词;

第二获取单元3,用于获取本体表达式,所述本体表达式根据分类规则和语义模型生成,所述分类规则根据所述关键词和逻辑算子生成,所述语义模型根据所述关键词生成;

生成单元4,用于将所述本体节点与相应的所述本体表达式建立关联,得到文本分类器,所述文本分类器包括所述本体树以及与所述本体树各个本体节点相应关联的本体表达式。

可选地,请参考图8,生成本体表达式的步骤可以由外部计算机或人工进行,此时,提取单元提取了关键词后,将关键词发送出去。外部计算机或人工根据关键词来生成分类规则和语义模型,并根据语义模型和分类规则生成本体表达式。然后由第二获取单元接收外部输入的本体表达式,最后由生成单元构建出文本分类器。在这种情况下,可以减少文本分类器构建装置本身的计算量。

可选地,请参考图9,提取单元2可以包括:

主题词提取子单元21,用于从本体节点的名称中提取主题词;

扩展子单元22,用于根据所述主题词获取扩展词,得到包括所述主题词和所述扩展词的所述关键词。

通过扩展子单元获取扩展词,可以挖掘出更多隐含的相近语义的扩展词,以主题词和扩展词共同作为关键词来构建分类规则和语义模型,从而提高文本分类器的分类精度。

可选地,请参考图9,文本分类器构建装置还可以包括:

测试文本分类单元5,用于利用所述文本分类器确定预设的测试文本的预测分类标签;

优化单元6,用于准确率小于预设阈值时,调整所述文本分类器中的本体表达式,所述准确率为与测试文本的原始分类标签匹配的预测分类标签的数量占预测分类标签总数的比值。

通过不断优化,直到使优化后的文本分类器的准确率可以达到用户期望的阈值。

可选地,扩展子单元22可以包括:

第一分词单元,用于将预设的样本文本进行分词得到第一字符;

索引库构建单元,用于根据第一字符构建倒排索引,得到索引库;

第二分词单元,用于将所述主题词进行分词得到第二字符;

匹配单元,用于将第二字符与所述索引库匹配;

相关度计算单元,用于根据匹配的结果计算样本文本与主题词的相关度;

显示单元,用于按照相关度由大至小降序显示相关度大于零的所述样本文本;

高亮单元,用于在显示的样本文本中高亮标记与所述第二字符匹配的第一字符;

第一扩展词获取单元,用于根据显示的样本文本中与所述主题词部分匹配的字符获取扩展词。

可选地,优化单元6可以包括:

本体表达式提取单元,用于提取与原始分类标签不匹配的预测分类标签所对应的本体表达式;

调整单元,用于当对应的本体表达式中缺少约束因子时,在本体表达式中增加约束因子,得到优化的本体表达式,所述约束因子包括语义模型中的概念和/或逻辑算子。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号