首页> 中国专利> 基于多层文本分类器的轻量级本体匹配方法

基于多层文本分类器的轻量级本体匹配方法

摘要

一种基于多层文本分类器的轻量级本体匹配方法,该方法包括以下步骤:选择待匹配的两个本体中的第一本体,将第一本体的概念分类树和文本实例作为训练集,利用自底向上的多层文本特征选择策略构造多层文本分类器;利用多层文本分类器对所述两个本体中的第二本体的文本实例进行预测分类,将第二本体的文本实例分别归属到第一本体的多个概念;判定第二本体中的每个概念的所有文本实例中分别归属到第一本体中的每个概念的文本实例在所述所有文本实例中的比例,分别作为所述两个本体中的相应概念之间的相似度;基于概念之间的相似度得出所述两个本体的概念之间的映射关系,由此完成轻量级本体匹配。

著录项

  • 公开/公告号CN102193928A

    专利类型发明专利

  • 公开/公告日2011-09-21

    原文格式PDF

  • 申请/专利号CN201010120535.4

  • 发明设计人 刘思培;王进;彭鸽;姜赢;胡晨;

    申请日2010-03-08

  • 分类号G06F17/30;

  • 代理机构北京铭硕知识产权代理有限公司;

  • 代理人韩明星

  • 地址 210008 江苏省南京市中山路268号汇杰广场8楼

  • 入库时间 2023-12-18 03:13:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-04-03

    授权

    授权

  • 2011-11-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20100308

    实质审查的生效

  • 2011-09-21

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理、文本分类和语义Web领域,更具体地讲,涉及一种轻量级本体匹配方法。

背景技术

随着信息技术的发展,基于文本的分类技术、搜索技术也得到较快发展。当前引入了本体(ontology)的概念,本体是领域(可以是特定领域,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础。本体可以分为轻量级本体(Lightweight ontology)、中级本体(Middle ontology)和重量级本体(Heavyweight ontology),轻量级本体不具备逻辑推理功能,中级本体具有简单的逻辑推理功能,重量级本体具有复杂的逻辑推理功能。轻量级本体除了包含概念层次结构之外,还包含若干概念实例。鉴于轻量级本体简单易用,轻量级本体更适合于实际的应用程序设计和开发。

本体匹配是解决本体异构问题的主要方法之一,一个高效、精确的相似度计算方法是实现本体匹配的前提条件。

现有的文本分类技术一般用于管理文本或其他可采用向量形式描述的资源,基于分类技术能够对未知资源的类别进行预测,从而为用户提供一种辅助性的指导和帮助。而传统的本体匹配的方法,大多通过某种策略直接衡量概念的相似程度,或对比两个文本实例集合之间相似度。现有的一种本体匹配方法是基于传统二元分类器的本体匹配方法,但在计算概念相似度时该方法需要为每个概念对都训练一个分类模型,需要对两个本体的文本实例都进行预测分类,故具有很高的复杂度;此外,源于特征选择的局限性,分类模型训练仅从两个类别的文本中进行特征选择,没有考虑所选特征与其他类别的区分度,影响预测分类的准确性,也会造成相似度计算的准确性不高,影响本体匹配的正确性。

现有的基于文本分类的本体匹配方法的计算复杂度较高,且利用多个二元分类器仅在两个概念的文本实例中筛选特征,衡量每个概念对的相似度,具有很大的局限性,使得文本分类无法有效评估文本之间的相似度,限制了概念相似度计算的可信性。

发明内容

针对现有技术中本体匹配时计算复杂以及计算不精确的问题,本发明将文本分类技术应用于解决轻量级本体的匹配问题,提出了一种基于多层文本分类器的轻量级本体匹配方法。

根据本发明的一方面,一种基于多层文本分类器的轻量级本体匹配方法,该方法包括以下步骤:选择待匹配的两个本体中的第一本体,将第一本体的概念分类树和文本实例作为训练集,利用自底向上的多层文本特征选择策略构造多层文本分类器;利用多层文本分类器对所述两个本体中的第二本体的文本实例进行预测分类,将第二本体的文本实例分别归属到第一本体的多个概念;判定第二本体中的每个概念的所有文本实例中分别归属到第一本体中的每个概念的文本实例在所述所有文本实例中的比例,分别作为所述两个本体中的相应概念之间的相似度;基于概念之间的相似度得出所述两个本体的概念之间的映射关系,由此完成轻量级本体匹配。

利用自底向上的多层文本特征选择策略构造多层文本分类器的步骤可包括:对第一本体的概念分类树的各个叶节点进行文本特征选择;利用自底向上的策略对第一本体的概念分类树的分支节点进行文本特征选择,直至当前分支节点为根节点,获得最终的文本特征;使用最终的文本特征构造多层文本分类器。

对于第二本体中的一个概念,如果所述一个概念的所有文本实例中分别归属到第一本体中的每个概念的文本实例在所述所有文本实例中的比例中的最大值大于或等于预定义的阈值,则确定第二本体中的一个概念与比例中的最大值所对应的第一本体的概念相似。

所述两个本体中的概念之间可构成概念对,每个概念对的相似度是第二本体的概念的所有文本实例被归属到概念对中的另一概念的文本实例在所有文本实例中的比例。

根据概念对的相似度的计算结果,对于第二本体中的任一个概念,在第一本体中寻找与所述任一个概念的相似度最大的概念,根据预定义的阈值确定构成概念对的两个概念之间的匹配关系。

当最大相似度大于或等于所述预定义的阈值时,确定构成概念对的所述两个概念彼此相似。

附图说明

通过结合附图,从下面的实施例的描述中,本发明这些和/或其它方面及优点将会变得清楚,并且更易于理解,其中:

图1是根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法的原理框图;

图2是根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法的流程图;

图3是多层文本分类的类别的示意图;

图4示出了根据本发明的多层文本特征选择策略的示意图。

具体实施方式

以下,参照附图来详细说明本发明的实施例。

图1是根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法的原理框图,图2是根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法的流程图。

参照图1,根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法包括四个步骤:多层文本分类器的训练(即,构造多层文本分类器);文本实例的预测分类;概念相似度(概念匹配)的计算;本体匹配关系的判定。

参照图1和图2,在步骤201,选择待匹配的两个本体(第一本体O1和第二本体O2)中的一个本体(例如选择第一本体O1),将选择的第一本体O1的概念分类树和文本实例作为训练集,利用自底向上的多层文本特征选择策略构造多层文本分类器。

图3是多层文本分类的类别的示意图。参照图3,“General Taxonomy”,是根节点,最下层的矩形是叶节点(诸如“Animation & Comics”、“Music,Theatre & Dance”等),第二层都是分支节点(诸如“Arts”、“Business”等)。应该理解,虽然图3中示出了基于英文的多层文本分类,但是本发明不限于此,也可适用于基于中文的多层文本分类。

在现有技术中,多层文本分类一般采用bing-Bang或自顶而下两种策略;前者在分类过程中使用同一个分类器,将类别层次树结构中所有页节点看成平等的类,本质上还是一种单层分类;后者则是为不同类别训练不同的分类器,枝分类器只关心当前的不同分支。

在本发明中,采用自底向上的多层文本特征选择策略构造多层文本分类器。具体地,首先对第一本体O1的概念分类树的各个叶节点进行文本特征选择,再采用自底向上的策略对第一本体O1的概念分类树的分支节点进行文本特征选择,直至当前分支节点为根节点,获得最终的文本特征,使用最终的文本特征构造多层文本分类器。基于该策略的多层文本分类只需要训练一个统一的分类器,具体策略如图4所示。

图4示出了根据本发明的多层文本特征选择策略的示意图。在图4中,A1、A2、A3、B1和B2为叶节点,A和B为分支节点,A和B上面的节点(未示出)为根节点。当然,还可以包含更多的分支节点,图4中未示出,以省略号表示。如图4所示,例如,分支节点A1对应的文本实例包含文本特征a1、a2、...aN,分支节点A2对应的文本实例包含文本特征b1、b2、...bM,分支节点A3对应的文本实例包含文本特征c1、c2、...cL。在对各个叶节点进行文本特征选择时,可分别提取各个叶节点的文本实例的前k个文本特征,例如a1、a2、...aK,b1、b2、...bK,c1、c2、...cK。然后,将提取的文本特征组合,可得到文本特征集合“a1、a2、...aK、b1、b2、...bK、c1、c2、...cK”,如图4右侧所示。

返回参照图2,在步骤202,利用多层文本分类器对所述两个本体O1和O2中的第二本体O2的文本实例进行预测分类,从而将第二本体O2的文本实例分别归属到第一本体O1的多个概念。即,按照第一本体O1的多个概念来对第二本体O2的文本实例进行分类,将第二本体O2的文本实例分别归类到第一本体O1的多个概念。

例如,假设第二本体O2总共有x个文本实例,x个文本实例分别属于第二本体O2自身包含的m个概念,并且第一本体O1包含n个概念。现在利用构造的多层文本分类器对第二本体O2的x个文本实例进行预测分类,将第二本体O2的x个文本实例归属到第一本体O1的每个概念。如果没有第二本体O2的文本实例归属到第一本体O1的某个概念,则归属到第一本体O1的这个概念的文本实例的数量为0。

在步骤203,判定第二本体O2中的每个概念的所有文本实例中分别归属到第一本体O1中的每个概念的文本实例在所述所有文本实例中的比例(可称为归属比例或归属关系),分别作为所述两个本体中O1和O2的相应概念之间的相似度,其取值范围为[0,1]。

例如,假设第一本体O1包含n个概念,第二本体O2自身包含m个概念,第二本体O2的文本被预测分类,归属到第一本体O1的每个概念。

假设第二本体O2中的第1个概念包含y个文本实例,则计算这y个文本实例中归属到第一本体O1中的第1个概念的文本实例在所有y文本实例中的比例,计算这y个文本实例中归属到第一本体O1中的第2个概念的文本实例在所有y个文本实例中的比例,依此类推,直到计算这y个文本实例中归属到第一本体O1中的第n个概念的文本实例在所有y个文本实例中的比例,由此依次有n个所得值。类似地,按照上述方式,可计算第二本体O2中的第2个概念的所有文本实例中分别归属到第一本体O1中的每个概念的文本实例在所有文本实例中的比例,直到计算第二本体O2中的第m个概念的所有文本实例中分别归属到第一本体O1中的每个概念的文本实例在所有文本实例中的比例。

下面给出第二本体O2中一个概念的文本实例的归属比例的计算公式。

对于两个本体O1和O2,第一本体O1包含概念C1i,第二本体O2包含概念C2j,给出概念C2j的所有文本实例中归属到概念C1i的文本实例在所述所有文本实例中的比例的计算公式如下:

Sim(C1i,C2j)=ΣIC1iC1iSum(IC1iC2j)Sum(IC1i),(C1i∈O1,C2j∈O2,IC代表实例)

例如,第二本体O2中的第1个概念包含10个文本实例,这10个文本实例通过构造的多层文本分类器分别归属到第一本体O1中的第1个概念至第n个概念中,在这10个文本实例中,有8个文本实例归属到第一本体O1中的第1个概念,有1个文本实例归属到第一本体O1中的第2个概念,有1个文本实例归属到第一本体O1中的第3个概念,第二本体O2中的第1个概念的文本实例中归属到第一本体O1中的其它概念的文本实例的数量为0。按照上述计算方式,第二本体O2中的第1个概念与第一本体O1中的第1个概念的相似度为8/10=0.8,第二本体O2中的第1个概念与第一本体O1中的第2个概念的相似度为1/10=0.1,第二本体O2中的第1个概念与第一本体O1中的第3个概念的相似度为1/10=0.1,第二本体O2中的第1个概念与第一本体O1中的其它概念的相似度均为0/10=0。另外,对于第二本体O2中的一个概念,如果所述一个概念的所有文本实例中分别归属到第一本体O1中的每个概念的文本实例在所述所有文本实例中的比例中的最大值大于或等于预定义的阈值,则确定第二本体O2中的一个概念与比例中的最大值所对应的第一本体O1的概念相似。

例如,在上述针对第二本体O2中的第1个概念计算的n个所得值中,如果n个所得值中的最大值大于或等于预定义的阈值,则确定第二本体O2中的第1个概念与最大值所对应的第一本体O1中的概念相似。例如,在上述示例中,n个所得值中第1个值(为0.8)最大,并且大于或等于预定义的阈值,则确定第二本体O2中的第1个概念与第一本体O1中的第2个概念相似。应该理解,可根据实际应用选择预定义的阈值。

因此,对于第一本体O1的概念C1i和第二本体O2的概念C2j,如果满足:

Sim(C1i,C2j)=MaxC2kO2(Sim(C1j,C2k))Threshold,其中,Threshold为预定义的阈值,则称概念C1i和概念C2j相似,此时相似度为Sim(C1i,C2j)。

另外,两个本体O1和O2中的概念之间可构成若干概念对,在每个概念对中,一个概念是训练模型类别,另一个概念是被预测类别。这里,概念对是指两个本体O1和O2中概念之间的任意组合,概念对的相似度是指,来自第二本体O2的概念的所有文本实例中归属到概念对中另一个概念的文本实例在所有文本实例中的比例。

因此,根据概念对(例如,概念C1i和概念C2j)相似度计算方法的结果,对于第二本体O2的任一个概念,在第一本体O1中寻找相似度与第二本体O2的所述任一个概念最大的概念,根据预定义的阈值确定概念对中两个概念之间的匹配关系。如果最大相似度大于或等于预定义的阈值,则确定该概念对的两个概念彼此相似。

返回参照图2,在步骤204,基于概念相似度得出所述两个本体O1和O2的概念之间的映射关系,由此完成轻量级本体匹配。

下面给出轻量级本体匹配的表示方法:对于两个本体O1和O2,基于上述概念匹配方法,可得到一个映射关系组成的集合,其中,映射关系表示为:(id,e1,e2,R,n),其中,id表示该映射关系的唯一标识,e1表示第一本体O1中的某个概念,e2表示第二本体O2中某个概念,R表示概念e1和概念e2之间存在的语义关系(等价、相交、不相交等),n表示这种映射关系的信度(即,前面所计算的概念之间的相似度),取值范围为[0,1]。例如,当n≥0.9时,可判定概念e1和概念e2等价;当0.5≤n<0.9时,可判定概念e1和概念e2相交;当n<0.5时,可判定概念e1和概念e2不相交。应该理解,上述数字范围是示例性的,可以根据实际应用具体设置。

映射关系(id,e1,e2,R,n)中包含5个元素,也可称为五元组方法。即,可用五元组方法来描述轻量级本体匹配结果。

在本发明中,可假设本体的概念的实例是一系列的网页文本,但本发明不限于此。下面给出本发明的一个应用实例。对于两个门户网站A和B,它们的标题栏中所有的条目即对应着概念分类树:如新闻、军事、天气、娱乐、体育等。而在每个条目下面有很多网页,即对应着文本实例。两个网站A和B的这些分类及内容分别可看作是一个轻量级本体,而匹配过程可利用本发明的策略为以上两个网站的条目之间建立映射关系。通过应用本发明,可利用多层文本分类技术和概念相似度计算方法实现上述过程。

本发明利用一种自底向上的多层文本特征选择策略,为概念分类树构建一个统一的多层分类器,能够更全面的筛选文本特征,更充分表达文本的语义,以一种更准确的方式计算概念相似度,从而获得更优的本体匹配结果。

本发明为解决轻量级本体匹配问题提供了一种更快捷、高效的方法。本发明适用于解决手机资源共享、Web 2.0、社会网络等应用中存在的异构集成问题。

虽然本发明是参照其示例性的实施例被具体描述和显示的,但是本领域的普通技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节的各种改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号