首页> 中国专利> 一种汉语框架网标注时框架排歧方法及装置

一种汉语框架网标注时框架排歧方法及装置

摘要

本发明公开了一种汉语框架网标注汉语句子时的框架排歧方法及装置,该方法包括:选择训练语料,对训练语料中的句子进行依存句法分析;将框架排歧任务作为标注任务,选择树结构条件随机场模型为标注模型,并为建立的标注模型选择特征;根据所述选择的特征利用训练语料对所述标注模型进行训练,得到合适的标注模型;将待识别句子的词性标注信息以及依存句法关系提交训练后的标注模型,得到待识别句子中目标词的所属框架。

著录项

  • 公开/公告号CN102375808A

    专利类型发明专利

  • 公开/公告日2012-03-14

    原文格式PDF

  • 申请/专利权人 山西大学;

    申请/专利号CN201010264377.X

  • 发明设计人 李茹;刘海静;李双红;高俊杰;

    申请日2010-08-20

  • 分类号G06F17/27;G06F17/30;

  • 代理机构北京同达信恒知识产权代理有限公司;

  • 代理人黄志华

  • 地址 030006 山西省太原市坞城路92号

  • 入库时间 2023-12-18 04:38:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-23

    授权

    授权

  • 2013-07-24

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20100820

    实质审查的生效

  • 2012-03-14

    公开

    公开

说明书

技术领域

本发明涉及中文信息处理技术和语义处理技术领域,特别涉及一种汉语框 架网标注汉语句子时的框架排歧的方法及装置。

背景技术

随着中文信息处理技术的不断发展,越来越多的研究人员逐渐从对词法、 句法方面的研究过渡到语义方面。汉语框架网(Chinese FrameNet)就是中文语义 的探索性研究之一。

利用汉语框架网对一个中文句子进行标时,经常遇到一个目标词可以充当 多个不同框架的词元这种问题,这是由于中文词汇的多义现象所致。上述情况 导致用户在利用汉语框架网进行中文句子分析时,很难选择合适的框架。

现有技术中虽然提出了框架排歧的概念,即根据上下文语境与各个侯选框 架所表示场景的一致程度,为目标词选择一个合适的框架。但是针对以上提到 的汉语框架排歧问题,至今还没有一种有效的解决办法。

发明内容

本发明实施例提供一种汉语框架网标注汉语句子时的框架排歧方法及装 置,用于解决现有技术中没有合适的方法实现汉语框架排歧的问题。

一种汉语框架网标注汉语句子时框架排歧的方法,当应用汉语框架网标注 待识别句子的框架信息时,包括:

选择训练语料,该训练语料包含待识别句子中出现的目标词激起的所有框 架的句子实例,并且包括每个句子实例的框架语义信息;

对所述句子实例进行依存句法分析,得到每个句子实例的依存句法关系;

选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型,并利用 所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训 练,得到特定参数的标注模型;

对待识别句子进行分词、词性标注及依存句法分析,得到待识别句子的词 法信息和依存句法关系;

将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型, 得到待识别句子中目标词的所属框架。

根据上述方法本发明还提供一种汉语框架网标注时框架排歧的装置,包 括:

训练语料选择模块,用于当应用汉语框架网标注待识别句子的框架信息 时,选择训练语料,该训练语料包含待识别句子中出现的目标词激起的所有框 架的句子实例,并且包括每个句子实例的框架语义信息;

依存句法分析模块,用于对所述句子实例进行依存句法分析,得到每个句 子实例的依存句法关系;

标注模型生成模块,用于选择树结构条件随机场T-CRF模型作为框架排歧 任务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架语义 信息进行标注模型的训练,得到特定参数的标注模型;

待识别框架句子处理模块,用于对待识别句子进行分词、词性标注及依存 句法分析,得到待识别句子的词法信息和依存句法关系;将待识别句子的词法 信息和依存句法关系提交所述特定参数的标注模型,得到待识别句子中目标词 的所属框架。

应用本发明实施例所提供的方法进行框架排歧时,首先,引入了句子的依 存句法关系,由于语义上的歧义在许多情况下可以通过句法信息来区分,因此 依存句法关系非常有利于框架排歧的处理。其次,运用了T-CRF模型。T-CRF 模型可以与句子的依存句法关系结合,更加合理地利用句子的依存句法关系。

附图说明

图1为本发明实施例一种汉语框架网标注时框架排歧方法的流程图;

图2为现有技术中举例句子进行依存分析的结果示例图;

图3为本发明实施例中处理待识别的句子具体实现流程图;

图4为本发明实施例中得到合适标注模型的方法流程图;

图5为本发明实施例一种汉语框架网标注时框架排歧装置的结构图;

图6为本发明实施例中标注模型生成模块的结构图。

具体实施方式

本发明实施例提供一种语义消岐的方法,具体包括:选择训练语料,该训 练语料包含待识别句子中出现的目标词激起的所有框架的句子实例,并且包括 每个句子实例的框架语义信息;对所述句子实例进行依存句法分析,得到每个 句子实例的依存句法关系;选择树结构条件随机场T-CRF模型作为框架排歧任 务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架语义信 息进行标注模型的训练,得到特定参数的标注模型;对待识别句子进行分词、 词性标注及依存句法分析,得到待识别句子的词法信息和依存句法关系;将待 识别句子的词法信息和依存句法关系提交所述特定参数的标注模型,得到待识 别句子中目标词的所属框架。

如图1所示,本发明实施例提供一种汉语框架网标注汉语句子时框架排歧 的方法,当应用汉语框架网标注待识别句子的框架信息时,具体实现方法包括 步骤:

步骤101,选择训练语料。

本发明实施例所提供的方法运用了机器学习方法,因此需要训练语料来训 练机器学习模型。

训练语料必须包含待识别句子中出现的所有目标词能够激起的所有框架 的句子实例,并且包括每个句子实例的框架语义信息。

如,动词“是”一共可以激起两个框架:[等同]框架和[属性]框架。

因此,如果待识别句子中出现了“是”这个目标词,那么训练语料中必须 得有“是”激起[等同]框架的实例,同时也得有“是”激起[属性]框架的实例。

训练语料可以选择经过汉语框架网标注的特定的语料来充当,也可以直接 选择汉语框架网的句子库作为训练语料。其中选择汉语框架网的句子库作为训 练语料更方便、更合理。因为汉语框架网的句子库有以下几个特点:规模大、 语料有代表性、语言现象丰富、标注完整无误。

步骤102,对训练语料中的句子实例进行依存句法分析,得到每个句子实 例的依存句法关系。

本发明方法需要运用句子的依存句法关系,因此需要对训练语料进行依存 句法分析。依存句法分析一般通过运用现成的工具来实现。

图2则为句子“钱其琛表示同意斯卡尔法罗总统的看法”进行依存分析的 结果示例图。

选择依存分析图中的特定依存关系是标注模型完成标注的主要依据。

步骤103,选择树结构条件随机场(T-CRF,tree-structured conditional random  field),模型作为框架排歧任务的标注模型。

条件随机场(CRF)是处理序列标注任务的最先进的方法。树结构条件随机 场(T-CRF)是一种特殊的CRF模型,它能够对层次结构中的依存关系进行建模, 句子的依存图即可用T-CRF来建模。

T-CRF的图形结构为一棵树,它主要包括三种结点关系:父-子,子-父, 兄弟。本发明中仅考虑前两种关系,而忽略兄弟关系,因为在一个句子的依存 句法树中,同一层次各结点之间的依存关系非常弱。

基上以上考虑,本发明中,T-CRF模型中各种概率分配如下:

p(y|x)=1Z(x)expΣvV{F+G+S}

F=Σjλjfj(v,y(v),x)

G=Σkμkgk(v,y(v),x,v,y(v))

S=Σlσlsl(v,y(v),x,v*,y(v*))

上面的F、G、S分别代表当前结点的特征、当前结点父结点的特征、当 前结点子结点的特征。

T-CRF模型中的观察序列x对应于句子中的一个词,而标注序列y对应于 这个词激起框架的框架名称。因此,如果一个词为句子中的目标词,对应的y 为激起框架的名称,若不然,对应的y则为NULL。CRF模型的原理是使标注 序列在观察序列上的条件概率最大。

步骤104,利用句子实例的词法信息、依存句法关系和框架语义信息进行 T-CRF标注模型的训练,得到特定参数的标注模型。

步骤105,对待识别句子进行分词、词性标注及依存句法分析,得到待识 别句子的词法信息和依存句法关系。

如图3所示,本步骤的实现步骤具体包括:

步骤301,针对待识别句子,进行分词、词性标注。

步骤302,针对待识别句子,进行依存句法分析,得到待识别句子的依存 句法关系。

步骤106,将待识别句子的词法信息和依存句法关系提交所述特定参数的 标注模型进行处理,得到句子中目标词的所属框架。

此步骤中的输入为待识别的句子中的词、词性和句子特定依存关系,与步 骤104的输入相比,仅差“当前词所属框架”一列。“当前词所属框架”是标 注模型的输出信息。

如图4所示,本发明实施例步骤104的具体实现,包括以下步骤:

步骤401,选择所述标注模型的训练特征,该训练特征用于确定在训练所 述标注模型时,从句子实例的词法信息、依存句法关系和框架语义信息中提取 的具体参数。

所述训练特征主要考虑两种类型,训练语料中的词性标注信息特征和依存 句法关系特征:

训练语料中的词性标注信息包括:最基本的词、词性、词与词性的组合;

依存结构树(即依存句法关系)中的特征包括:当前词的父结点、当前词 的子结点、结点间的关系,本发明中主要包括主谓关系(简称SBV)、动宾关 系(简称VOB)、状中结构(简称ADV)、定中关系(简称ATT)。

步骤402,根据所述训练特征从所述训练语料各句子实例的词法信息、依 存句法关系和框架语义信息中提取具体参数对所述标注模型进行训练,得到特 定参数的标注模型;使该特定参数的标注模型根据待识别句子词法信息和依存 句法确定框架语义信息。

本实施例所选择的训练特征包括:当前词、当前词词性、当前词父结点、 当前词与父结点的依存关系、SBV子结点、VOB子结点、ADV子结点、ATT 子结点、当前词所属框架。

如“钱其琛表示同意斯卡尔法罗总统的看法”作为训练语料时,最终得到 本步骤的输入如表1所示,表中的每一列依次对应于所述选择的特征:

  钱其琛   nh   表示   SBV   NULL   NULL   NULL   NULL   NULL   表示   v   NULL   HED   钱其琛   同意   NULL   NULL   表达   同意   v   表示   VOB   NULL   看法   NULL   NULL   NULL   斯卡尔法罗   nh   总统   ATT   NULL   NULL   NULL   NULL   NULL   总统   n   的   DE   NULL   NULL   NULL   斯卡尔法罗   NULL   的   u   看法   ATT   NULL   NULL   NULL   NULL   NULL   看法   n   同意   VOB   NULL   NULL   NULL   的   NULL

表1

这里选择第二行数据进行具体说明:“表示”为当前词;“表示”的词性为 “v”(动词);“表示”在句法依存图中没有父结点所以二维表的对应位置为 NULL,HED为依存图中最顶结点与父结点的关系(无实际意思,仅指明最高 层结点);“表示”的SBV子结点为“钱其琛”;“表示”的VOB子结点为“同 意”;“表示”的ADV子结点为NULL;“表示”的ATT子结点为NULL;在 汉语框架标注中,“表示”激起的框架为“表达”。

经过训练语料对T-CRF模型的训练、模型参数的不断调节,便可以得到合 适的标注模型,即特定参数的训练模型。

如图5所示,根据上述方法本发明实施例还提供一种汉语框架网标注时框 架排歧的装置,包括训练语料选择模块501、依存句法分析模块502、标注模 型生成模块503和待识别框架句子处理模块504:

训练语料选择模块501,用于选择训练语料,该训练语料包含待识别句子 中出现的目标词激起的所有框架的句子实例,并且包括每个句子实例的框架语 义信息;

依存句法分析模块502,用于对所述句子实例进行依存句法分析,得到每 个句子实例的依存句法关系;

标注模型生成模块503,用于选择树结构条件随机场T-CRF模型作为框架 排歧任务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架 语义信息进行标注模型的训练,得到特定参数的标注模型;

待识别句子处理模块504,用于对待识别句子进行分词、词性标注及依存 句法分析,得到待识别句子的词法信息和依存句法关系;将待识别句子的词法 信息和依存句法关系提交所述特定参数的标注模型,得到待识别句子中目标词 的所属框架。

如图6所示,所述标注模型生成模块503包括训练特征选择单元601、训 练单元602和输入数据生成单元603:

训练特征选择单元601,用于选择所述标注模型的训练特征,该训练特征 用于确定在训练所述标注模型时,从句子实例的词法信息、依存句法关系和框 架语义信息中提取的具体参数;

训练单元602,用于根据所述训练特征从所述训练语料各句子实例的词法 信息、依存句法关系和框架语义信息中提取具体参数,对所述标注模型进行训 练,得到特定参数的标注模型;使该特定参数的标注模型根据待识别句子词法 信息和依存句法关系确定框架语义信息。

为了便于所述标注模型对输入数据的识别,所述标注模型生成模块还包 括:

输入数据生成单元603,用于将选择的训练特征和具体参数设置为二维表 格式作为所述标注模型的输入,其中,所述训练特征作为二维表的列,训练语 料中的每个词都生成二维表的一行。

应用本申请所提供的方法和装置进行框架排歧时,首先,引入了句子的依 存句法关系,由于语义上的歧义在许多情况下可以通过句法信息来区分,因此 依存句法关系非常有利于框架排歧的处理。其次,运用了T-CRF模型。T-CRF 模型可以与句子的依存句法关系结合,更加合理地利用句子的依存句法关系。 并且本发明所提供的方法经过实验证实,可使多义词元的框架识别的准确率达 近85%。

本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人 员根据本发明的技术方案得出其它的实施方式,同样属于本发明的技术创新范 围。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号