首页> 中国专利> 一种用于语言理解的层次语义树构建方法及系统

一种用于语言理解的层次语义树构建方法及系统

摘要

一种用于语言理解的层次语义树构建方法及系统,该方法主要包括以下步骤:对语句进行分词并加载语义知识库;根据LV规则识别语句的所有节点,根据语义知识和词语位置及搭配识别节点的层次;把句末标点生成特殊的节点,作为语义树的根节点;根据上述生成的节点信息对其进行合并,识别语句的语义边语块,把0级语义边作为子节点挂于根节点;循环遍历其各个子节点直至无低层次语义边,作为叶子节点挂于子节点。该方案在没有句法资源的情况下,仅使用语义信息和词语位置及搭配而得到语义结构树,使计算机能够进入自然语言的语义深层,在理解的基础上完成对自然语言的各种处理,实现了自然语言语义理解的第一步,可用于信息检索、自动文摘、机器翻译、文本分类以及信息过滤等。

著录项

  • 公开/公告号CN104142917A

    专利类型发明专利

  • 公开/公告日2014-11-12

    原文格式PDF

  • 申请/专利权人 北京师范大学;

    申请/专利号CN201410216929.8

  • 发明设计人 晋耀红;朱筠;刘小蝶;

    申请日2014-05-21

  • 分类号G06F17/27(20060101);

  • 代理机构11250 北京三聚阳光知识产权代理有限公司;

  • 代理人张秀民

  • 地址 100875 北京市海淀区新街口外大街19号

  • 入库时间 2023-12-17 01:54:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-06

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2014102169298 申请日:20140521 授权公告日:20180501

    专利权的终止

  • 2018-05-01

    授权

    授权

  • 2014-12-10

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20140521

    实质审查的生效

  • 2014-11-12

    公开

    公开

说明书

技术领域

本发明涉及一种自然语言处理领域,具体地说是利用语义知识和词语的 位置及搭配而得到的层次语义树构建方法及系统。

背景技术

随着电子信息技术的发展,数字信息资源被越来越多的广泛使用。这就 需要机器也能理解自然语言,在“懂”的基础上完成对自然语言的各种处理, 如信息检索、自动文摘、机器翻译、文本分类以及信息过滤等等。可见,使 得计算机能够进入自然语言的语义深层,是达到上述目的一个条件。要想让 机器了解自然语言的意义,首先要了解自然语言语句的结构,语句结构是自 然语言的一种基本结构,一般包括语法结构和语义结构。为了更好的对语句 的语义进行描述,采用语句结构树是一种简单且清晰有效的方式。语句的结 构树类型主要包括两种:一种是句法结构树,一种是语义结构树。句法结构 树主要包括短语结构树、依存树等,其自动构建主要在句法标注的基础上, 采用基于统计的方法来实现,此类句法结构树的构建不使用或较少使用词语 的语义知识。

语义结构树的构建必须使用语义知识,构建语义树是在HNC(概念层次 网络)理论的指导下,在没有句法资源的情况下,仅使用语义知识和语词语 位置及搭配而进行的,使得计算机能够进入自然语言的语义深层,在理解的 基础上进行自然语言的各种处理,实现自然语言语义理解的第一步,为后续 应用在信息检索、机器翻译、信息过滤、文本分类等过程中创造条件。

在中国专利文献CN1606004A中公开了一种从文本标识语义结构的方法 和装置,形成至少两个候选语义结构,基于所述语义结构的似然性对每一候 选语义结构确定语义得分,也基于单词在文本中的位置以及从该单词形成的 语义实体在该语义结构中的位置对每一语义结构确定句法得分,将句法得分 和语义得分组合来对该文本的至少一部分选择语义结构。该方案中定义实体 的模式,该模式包括语义类型和概率、马尔科夫概率和语义规则,这些语义 内容的获取需要训练大规模的数据,对文本的领域依赖性强,由于任务的复 杂性,取得的效果不一定理想,后续的所有的操作都依赖这一步的结果,其 效果将大打折扣。

发明内容

本发明所要解决的技术问题在于现有技术中的标识语义结构的方法需 要训练大规模的数据,对文本的领域依赖性强,从而提出一种无需训练的层 次语义树构建方法和系统。

为解决上述技术问题,本发明提供一种用于语言理解的层次语义树构建 方法及系统,包括如下步骤:

S1、输入待处理语句,对待处理语句进行分词,并加载分词后词语的语 义知识;

S2、根据分词结果,识别出该语句的语义节点;

S3、利用语义知识和词语位置及搭配获得语义节点的层次;

S4、识别该语句中不同层次的语义边;

S5、根据各层次的语义边生成层次语义树。

优选地,所述步骤S1中,对待处理语句进行分词时,按照领域词典和通 用词典对待处理语句进行分词。

优选地,所述语义知识包括词语的广义概念类及其子类,所述词语的广 义概念类包括动态、静态、物、人、属性、逻辑。

优选地,所述步骤S2中“根据分词结果,识别出该语句的语义节点”的 过程,包括:

对于分词后的词语,如果词语的语义知识中有逻辑概念,对该词语标记 为L,如果词语的语义知识中有动态概念,标记为V;

对所有标记为L或V的词语,进行LV排除处理;

对所有L标记根据其概念类别进行标记,并判断其是否有后标记,如果有 后标记,对后标记的词语标记为L1H,根据上述所有标记生成语义节点。

优选地,所述步骤S2中“根据分词结果,识别出该语句的语义节点”的 过程,还包括:将句末标点生成语义节点作为根节点。

优选地,所述步骤S3中“利用语义知识和词语位置及搭配获得语义节点 的层次”的过程,包括:

所有L标记和v标记的默认层次都记为0,当出现两个上述标记相邻时,第 二个标记的层次减小一层为-1。

优选地,所述步骤S4中“识别该语句中不同层次的语义边”的过程,包 括

对所有标记为V的语义节点,进行核心动词识别,生成语块;

对所有标记为L的语义节点,生成语块;

根据语块生成语义边。

优选地,所述进行核心动词识别的过程包括:

排除不能构成核心动词的词语;

其余的词语根据构成和词语本身所具有的特征赋予不同的权值,根据权 值的排序结果和位置信息选择核心动词。

优选地,所述根据各层次的语义边生成层次语义树的过程,包括:

选择根节点;

把层次高的语块,按照该层次中的顺序,挂到根节点上,作为子节点;

遍历所有子节点,将每个子节点范围内的所有语块作为该子节点的子节 点,直到没有新的子节点产生。

一种所述的层次语义树构建方法对应的层次语义树构建系统,包括:

预处理单元:输入待处理语句,对待处理语句进行分词,并加载分词后 词语的语义知识;

第一序列生成单元:根据分词结果,识别出该语句的语义节点;利用语 义知识和词语位置及搭配获得语义节点的层次;

第二序列生成单元:识别该语句中不同层次的语义边;

层次语义树生成单元:根据各层次的语义边生成层次语义树。

本发明的上述技术方案相比现有技术具有以下优点,

(1)本实施例所述的层次语义树构建方法,主要包括预处理、节点识别、 语义边识别、语义树生成的过程,输出上述结构树即可得到层次语义树。本 实施例中的层次语义树构建的方案,对语句的分析都是利用规则方法进行实 现的。本方案中通过节点及其层次的识别、语义边及其层次的识别,来控制 规则在不同层次、不同阶段的调度。在此原则指导下,首先需要对规则进行 层次分类,每一类规则只在固定分析层次中调用,且每一条规则只关注对邻 近语串中语言现象的分析,不需要兼顾对整体形势的判断,而是通过调度来 解决规则的兼容性问题。

(2)本发明中的层次语义树构建方法,在没有句法资源的情况下,仅 使用语义信息和词语位置及搭配而得到的语义结构树,使计算机能够进入自 然语言的语义深层,在理解的基础上完成对自然语言的各种处理,实现了自 然语言语义理解的第一步。构建语义树,可广泛应用在自然语言处理领域, 如信息检索、自动文摘、机器翻译、文本分类以及信息过滤等方便。本实施 例中的语义树的构建方法,已经应用到专利文献汉英机器翻译上,显著提高 了专利文献译文的可读性和准确性。

附图说明

为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施 例并结合附图,对本发明作进一步详细的说明,其中

图1是本发明所述的层次语义树构建方法的流程图;

图2本发明所述的层次语义树构建方法的节点生成流程图;

图3本发明所述的层次语义树构建方法的语义边生成流程图;

图4、图5本发明所述的层次语义树构建方法的一个应用实例的结果 示意图;

图6是本发明所述的层次语义树构建系统的结构框图。

具体实施方式

实施例1:

本实施例中提供一种用于语言理解的层次语义树构建方法及系统,语义 树即语义结构树,是针对自然语言中的一个句子而言,指的是一个句子中特 征语块(核心动词语块)和由其决定的其他语块之间的语义关系。如一个句 子中的特征语块V是表示作用的动词,该特征语块决定此句中必有作用者语 块、对象语块、内容语块,只有如此句子的语义才完整。虽然后三者在一定 的上下文环境中可以省略其一,但是这四种语块是句子成立即语义完整的必 要构件,又叫主要语块。而相比较而言,辅助语块不是句子成立的必要构件, 主要是表示动作的方式、手段、途径、条件、时间等。主要语块和辅助语块 都可由一定的逻辑概念来提示,因此使用LV(逻辑概念和动态概念)准则来 识别句子的语义结构成为可能。本实施例中的层次语义树构建方法,就是利 用LV准则来识别一个句子的主要语块和辅助语块,该方案可实现自动对语句 进行划分,用于语言翻译中,可以大大提高了机器翻译的可读性和准确性。

本实施例中的层次语义树构建方法,主要的处理过程包括:待处理语句 S110经过预处理S120、节点识别S130、语义边识别S140、语义树生成S150后 得到语义树S160,流程图如图1所示,具体包括如下步骤:

S1、输入待处理语句,对待处理语句进行分词,并加载分词后词语的语 义知识。对待处理语句进行分词时,按照领域词典和通用词典对待处理语句 进行分词。

S2、根据分词结果,识别出该语句的语义节点。主要包括以下过程:对 于分词后的词语,如果词语的语义知识中有虚词义项,对该词语标记为L,如 果词语的语义知识中有动词义项,标记为V;对所有标记为L或V的词语,进行 LV排除处理;对所有L标记根据其概念类别进行标记,并判断其是否有后标记, 如果有后标记,对后标记的词语也进行标记,根据上述所有标记生成语义节 点。

上述过程具体的方式如下:

对每个词语进行LV识别,如果词语的语义知识中有虚词义项,则该词语 标记为L,如果词语的语义知识中有动词义项,则该词语标记为V。所述语义 知识包括词语的广义概念类及其子类(即概念类别),所述词语的概念广义概 念类包括动态、静态、物、人、属性和逻辑。

对所有标记为L或V的词语,进行LV排除处理,如果该词语前面有“的”、 “一种”这样的词语,则取消其L和V标记;如果该词语后面有“的”这样的 词语,则取消其L和V标记;

对所有L标记,如果该节点的概念类别是l1,则其标记修改为L1;判断其 是否有后标记,“当…时候”中,“时候”是“当”的后标记,对后标记的词 语,生成一个标记为L1H的标记;如果该节点的概念类别是l0,则其标记修改 为L0。

把所有L标记(包括L0、L1和L1H)和V标记,带上位置信息,生成一个语 义节点,记入一个队列,称之为第一序列。如果一个词语上生成超过1个语义 节点,都记入第一序列。

S3、利用语义知识和词语位置获得语义节点的层次。首先,将所有L标记 和v标记的默认层次都记为0,当出现两个上述标记相邻时,第二个标记的层 次减小一层。具体如下:

对第一序列中的所有语义节点,进行LV层次识别,所有L标记和V标记的 默认层次都记为0;

当两个L相邻时,即出现L1L2时,L2的层次减1;

当L和V相邻时,即出现L1V2时,V2的层次减1;

当L和V相邻时,即出现V1L2时,L2的层次减1;

对句号标点符号,生成一个语义节点,其标记为SST,记入第一序列。

S4、识别该语句中不同层次的语义边。包括:首先,对所有标记为V的语 义节点,进行核心动词识别,生成语块;然后,对所有标记为L的语义节点, 生成语块;从而,根据语块生成语义边。

具体方式如下:

生成一个队列,称之为第二序列;

对第一序列中所有标记为V的语义节点,进行EG识别,生成语块,其标记 为CHK_EG,把语块加入第二序列;

对第一序列中所有标记为L的语义节点,进行以下处理:

对所有标记为L1的语义节点,生成一个语块,其标记是CHK_ABK,其起始 位置为L1节点的起始位置;判断该节点后是否有L1H,如果有,则语块结束位 置是L1H的结束位置;如果其后没有L1H,则语块结束位置是紧邻的下一个标 记为L的语义节点的起始位置pos-1,语块层次是语义节点的层次,把语块加 入第二序列;

对所有标记为L0的语义节点,生成一个语块,其标记是CHK_L0,其起始 位置是L0的起始位置,其结束位置是L0的结束位置,语块层次是语义节点的 层次,把语块加入第二序列;

对所有标记为L0的语义节点,生成一个语块,其标记是CHK_GBK,其起始 位置是L0的结束位置pos+1,其结束位置是紧邻的下一个语块(其标记是 CHK_EG或CHK_ABK或CHK_L0)的起始位置pos-1,语块层次是语义节点的层次, 把语块加入第二序列;

对第一序列中标记为SST的语义节点,生成一个语块,其标记是CHK_SST, 加入到第二序列。该过程中得到的语块CHK_SST、CHK_ABK、CHK_EG、CHK_L0 即为语义边。

上述过程中,EG识别是指核心动词识别,主要是通过设计一系列有序的 权值来判断每一个动态概念作为EG的权值大小,该过程包括:首先,排除不 能构成核心动词的词语,将语句中有可能构成EG的词语进行初步排除,包括 动态概念与静态概念、逻辑概念、属性兼类以及不同动态概念的兼类。然后, 其余的词语根据搭配和词语本身所具有的特征赋予不同的权值,根据权值的 排序结果和位置信息选择核心动词。也就是把排除后剩下的候选词语全部生 成EG,并根据它们构成或词语本身所具有的特征赋予不同的权值,综合考虑 权值排序结果及位置信息选择一个合适的词语作为语句的EG。

S5、根据各层次的语义边生成层次语义树。首先,选择根节点;然后, 把层次高的语块,按照该层次中的顺序,挂到根节点上,作为子节点;最后, 遍历所有子节点,将每个子节点范围内的所有语块作为该子节点的子节点, 直到没有新的叶子节点产生。

本实施例所述的层次语义树构建方法,主要包括以下步骤:对语句进行 分词并加载语义知识库;根据LV规则和语言规则,识别语句的所有节点及其 层次;把句末标点符号生成特殊的节点,作为语义树的根节点;根据上述生 成的节点信息对其进行合并,识别语句的语义边语块,把0级语义边语块作为 子节点挂于根节点;遍历各个子节点直至无低层次语义边语块,作为叶子节 点挂于子节点。输出上述结构树即可得到层次语义树。本实施例中的层次语 义树构建的方案,对语句的分析都是利用规则方法进行实现的。规则系统受 到质疑的一个原因在于,若规则描述过于简单,则规则产生的结果或者互相 矛盾,或者不足以分析句子。若想完全依赖规则准确地给出分析结果,就需 要每一条规则能够描写复杂的语言现象,这使得规则的概括性差,书写需要 大量人工,不具有可行性。为解决这一矛盾,本方案中通过节点及其层次的 识别、语义边及其层次的识别,来控制规则在不同层次、不同阶段的调度。 在此原则指导下,首先需要对规则进行层次分类,每一类规则只在固定分析 层次中调用,且每一条规则只关注对邻近语串中语言现象的分析,不需要兼 顾对整体形势的判断,而是通过调度来解决规则的兼容性问题。本实施例中 解决的策略有两条:首先避免规则的贪婪匹配,使规则调用具有层次性,并 在每一个层次上依据激活信息调用相应规则;其次,调度会根据不同处理阶 段的语句特征对规则生成的结果进行选择合成。这样,既减少了需要匹配的 规则,也减少了不同规则所产生的矛盾对最终分析的影响,以此加强对规则 调用的控制,也使得基于规则的层次语义树的构建成为可能。

上述构建语义树是在概念层次网络理论的指导下,在没有句法资源的情 况下,仅使用语义信息和语言规则而得到的语义结构树,使计算机能够进入 自然语言的语义深层,在理解的基础上完成对自然语言的各种处理,实现了 自然语言语义理解的第一步。构建语义树,可广泛应用在自然语言处理领域, 如信息检索、自动文摘、机器翻译、文本分类以及信息过滤等方便。本实施 例中的语义树的构建方法,已经应用到专利文献汉英机器翻译上,显著提高 了专利文献译文的可读性和准确性。

实施例2:

本实施例中给出一个具体的层次语义树构建方法,该方案的基本流程也 是如图1所示,本实施例中层次语义树构建方法100开始于步骤S110即输入待 处理语句,然后在步骤S120中对待处理语句进行预处理,即按照领域词典和 通用词典对待处理语句进行分词,并加载词语的语义知识,语义知识主要包 括词语的广义概念类即V(动态)、G(静态)、W(物)、P(人)、U(属性)、L (逻辑)六大广义概念类和其统筹下的若干子类;其次,在步骤S130中识别 该语句的语义节点并对其的层次进行区分,第一步是对分词后的结果,采用 LV规则识别所有的语义节点,第二步是利用语义知识和词语位置,比较判断 出节点的层次;再次,在步骤S140中识别该语句的不同层次的语义边,把小 句层面的语义节点的识别结果,识别为小句层面的语义边,把语块层面的语 义节点的识别结果,识别为语块层面的语义边;然后,在步骤S150中生成层 次语义树,根据语义边的识别结果,根据调度分层次生成在树结构上;最后, 在步骤S160中输出待处理语句的层次语义树。

图2是说明节点识别300的示意图。如图2所示,节点识别的入口S310是待 处理语料的分词结果。在步骤S311中对词语和标点区别对待。对于词语来说, 需要对每一个词加载概念类别等语义知识。语义知识简单包括如下两个方面: 词语属性,其包括广义概念类GCC、概念类别CC、LV属性LV、语素QH、是否是 纯V动词CHUNV;句类属性,其包括广义作用句GXGY、主语块数量GBK_NUM、是 否块扩句EPER、是否GBK2原型句蜕GBK2_YT、被动语态ALL_PASS、是否构成双 向关系句R0、是否构成比较判断句JD0。需要特别说明的是,概念类别的分类 及其说明如下表所示:

其中知识库体例的基本格式如下:

词形

$Feature[Value]$

例如:

半导体元件

$GCC[W]CC[pw]$

表示

$CC[v]SC_GXY[GX]EPER[Y]GBK_NUM[3;4]SC_GBK1_PP[Y]$

其中,GCC[W]表示该词条(“半导体元件”)的概念大类是物W,CC[pw]表 示概念类别是人造物PW;CC[v]表示该词条(“表示”)的概念类别是动词, SC_GXY[GX]表示是广义作用句,EPER[Y]表示是块扩句,GBK_NUM[3;4]表示是 三主块或四主块句,SC_GBK1_PP[Y]表示GBK1必须是人或生命体。

对于标点来说,句号要生成特殊的语义节点,标记为SST,作为根节点。

在步骤S330中,对每个词语进行“LV”识别,如果词语的语义知识中有 逻辑l概念,生成语义节点,则该词语标记为L,如果词语的语义知识中有动 态v概念等,生成语义节点,则该词语标记为V。同时,分别对标记为V和L的 词语通过相应的若干排歧规则进行兼类排除处理。对所有标记为V的词语,可 通过如下面两条规则为例进行兼类排除处理:对于标记为V的词语,如果该词 语前面有“的”、“一种”这样的词语,则取消其V标记;如果该词语后面有“的” 这样的词语,则取消其V标记。

在步骤S340中,对所有L标记,如果该词语的概念类别是l1,则其标记修 改为L1;判断其是否有后标记,如果有后标记,对后标记的词语,生成一个 标记为L1H的标记。如在汉语中的“当……时候”,其中,“当”的概念类别是 l1,则其标记可以修改为L1,而“时候”是“当”的后标记,把“时候”标 记为L1H。如果该词语的概念类别是l0,则其标记修改为L0,如汉语的“把” 字。

步骤S350即是识别出的所有节点。

在步骤S360中,对所有节点进行LV层次识别即区分节点的LEVEL信息。对 第一序列中的所有语义节点,进行LV层次识别,其包括以下操作:所有L标 记和V标记的默认层次都记为0;当两个L相邻时,即出现L1、L2时,L2的层次 减1,如“把在书架上的那本数学书拿下来”,其中“把”和“在”是两个相 邻的L概念,此时,“把”为L1,其层次为0;而“在”为L2,其层次为-1;当 L和V相邻时,即出现L1、V2时,V2的层次减1,如“把位于书架上的那本数学 书拿下来”,其中“把”和“位于”是两个相邻的L和V概念,此时,“把” 为L1,其层次为0;而“位于”为V2,其层次为-1;当V和L相邻时,即出现V1、 L2时,L2的层次减1,如“应用与用户有关的模块”,其中“应用”和“与” 是两个相邻的V和L概念,此时,“应用”为V1,其层次为0,而“与”是L2, 其层次为-1。

步骤S370中,得到的结果就是该语句的区分了LEVEL信息的所有节点,并 记入第一序列,称之为第一序列:把所有L标记(包括L0、L1和L1H)和V标记, 带上在语句中的位置信息,作为语义节点,记入第一序列;如果一个词语上 生成超过1个语义节点,都记入第一序列;对标点符号,生成的语义节点SST, 也一同记入第一序列。

图3是说明语义边识别400的示意图。如图4所示,语义边识别的入口是所 有节点及其层次LEVEL信息。

首先先生成一个队列,称之为第二序列。

在步骤S410中,对第一序列中所有标记为V的语义节点,进行EG识别,生 成语块,其标记为CHK_EG,把语块加入第二序列。

如“本发明可以快速访问与电子设备10对接的各种设备。”中“访问、对 接”是标记为V的语义节点,通过语言规则对两个语义节点进行加权和降权, “访问”通过“可以、快速”两词加权,而“对接”通过与紧邻其后的“的” 对其降权,在此句中“访问”权值较高,被选为小句的EG,标记为CHK_EG。

在步骤S420中,对第一序列中所有标记为L的语义节点,进行以下处理:

对所有标记为L1的语义节点,生成一个语块,其标记是CHK_ABK,其起始 位置为L1节点的起始位置,;判断该节点后是否有L1H,如果有,则语块结束 位置是L1H的结束位置;如果其后没有L1H,则语块结束位置是紧邻的下一个 标记为L的语义节点的起始位置pos-1,语块层次是语义节点的层次,把语块 加入第二序列。

如下示例说明小句层面的CHK_ABK的生成情况:如“存储器130可以以不 同方式被分离。”,其中“以”是标记为L1的语义节点,其后没有标记为L1、 L1H的语义节点,则可生成一个标记为CHK_ABK的语块,其起始位置为“以” 语义节点的起始位置,结束位置是CHK_EG的起始位置并不包括该位置,即该 句的CHK_ABK语块是“以不同方式”;如“本发明用刀片以螺旋滚动方式除去 杂草。”,其中“用”是标记为L1的语义节点,其后有标记为L1的语义节点“以”, 则可生成一个标记为CHK_ABK的语块,其起始位置为“用”语义节点的起始位 置,结束位置是“以”的起始位置并不包括该位置,即该句第一个CHK_ABK语 块是“用刀片”,同上,“以螺旋滚动方式”也是该句的一个CHK_ABK;又如“在 电子设备10上呈现媒体内容”,其中,“在”是标记为L1的语义节点,其后有 标记为L1H的语义节点“上”,则可生成一个标记为CHK_ABK的语块,其起始位 置为“以”语义节点的起始位置,结束位置是“内”语义节点的位置,即该 句的CHK_ABK语块是“在电子设备10上”。上述三例的L1和L1H都是小句层面的, 其层次默认为0,CHK_ABK的层次也是0。如下示例说明语块内部的CHK_ABK的 生成情况,在句子“用户有权访问通过操作系统137呈现的媒体内容。”中,“访 问”是句子的CHK_EG,“通过操作系统137呈现的媒体内容”是一个CHK_GBK语 块,其是由句子“通过操作系统137呈现媒体内容”降级蜕化而来的,其中“呈 现”是该CHK_GBK语块的V语义节点,可以生成CHK_EG,其层次是-1;其中“通 过”是标记为L1的语义节点,其层次是-1,则“通过操作系统137”可生成一 个标记为CHK_ABK的语块。同样,在GBK语块内部生成的CHK_ABK的层次是-1。

对所有标记为L0的语义节点,生成一个语块,其标记是CHK_L0,其起始 位置是L0的起始位置,其结束位置是L0的结束位置,语块层次是语义节点的 层次,把语块加入第二序列。如下示例说明小句层面的CHK_L0的生成情况, 在句子“用户将用户名和/或密码组合输入到用户接口150和/或认证设备70。” 中,“由”被标记为L0,其层次信息为0,则将其生成一个标记是CHK_L0语块, 起始位置和结束位置都是L0;如下示例说明语块层面的CHK_L0的生成情况, 在语块“由用户访问的媒体内容”中,“由”被标记为L0,其层次信息为-1, 则将其生成一个标记是CHK_L0语块,起始位置和结束位置都是L0。

对第一序列中标记为SST的语义节点,生成一个语块,其标记是CHK_SST, 加入到第二序列。

在步骤S430中,利用所有的语块CHK_L0与CHK_ABK和CHK_EG之间的关系, 生成一个语块,其标记是CHK_GBK,其起始位置是CHK_L0的结束位置pos+1, 其结束位置是紧邻的下一个语块(其标记是CHK_ABK或CHK_EG)的起始位置 pos-1,语块层次是语义节点的层次,把语块加入第二序列。如在上述示例“用 户将用户名和/或密码组合输入到用户接口150和/或认证设备70。”中,“将” 生成语块CHK_L0,“输入到”生成语块CHK_EG,则“用户”、“用户名和/或密 码组合”和“用户接口150和/或认证设备70”是CHK_GBK语块。

在步骤S440中,得到的CHK_EG、CHK_ABK、CHK_L0、CHK_SST即是所有的 语义边。

确定以SST为根节点,第一层次CHK_EG、CHK_L0、CHK_ABK、CHK_GBK为其 子节点并挂于其下,第二层次的CHK_EG、CHK_L0、CHK_ABK、CHK_GBK围棋子 节点的子节点挂于其下,以此类推,直至全部为叶子节点。

实施例3:

本实施例中给出一个具体的应用实例,图4和图5是说明示例语句的层次 语义树构建结果的示意图。如图4所示,待处理语句是“网络浏览器使用统一 资源定位符将HTML请求发送给由系统控制的服务器。”,小句层面的语义树结 构是:GBK1“网络浏览器”+ABK“使用统一资源定位符”+L0“将”+GBK2“HTML 请求”+EG“发送给”+GBK3“由系统控制的服务器”,其中,CHK_SST(句号) 语块作为根节点。第一层次的语义节点是L1(使用)、L0(将)、V(发送给), 三个层次全部都为0;第一层次的语义边是CHK_ABK(使用统一资源定位符)、 CHK_L0(将)、CHK_EG(发送给)、CHK_GBK(网络浏览器、HTML请求、远程服 务器),六个语块层次全部都为0,其作为根节点的子节点挂出。根据CHK_EG “发送给”表示传递的动作,可以确定CHK_GBK的语义角色如下:“网络浏 览器”是作用者GBK1,“HTML请求”是内容GBK2,“远程服务器”是目标地GBK3。 GBK1、GBK2语块层面语义关系比较简单,虽然“浏览器”是“网络浏览器” 的语义中心,“请求”是“HTML请求”的语义中心,“服务器”是“远程服务 器”的语义中心,但是因为没有语块层次的语义边,语块的词语都作为叶子 节点挂出。在GBK3中语块层面的语义树结构:L0“由”+GBK2“系统”+EG“控 制”+CHK_L1“的”+GBK3“服务器”,其中GBK3语块作为根节点。第二层次 的语义节点是L0(由)、V(控制)、L1(的),三个层次全部都为-1;第二层 次的语义边是CHK_L0(由)、CHK_EG(控制)、CHK_L1(的)、CHK_GBK(系统、 服务器),五个语块层次全部都为-1,其作为子节点挂出。根据CHK_EG“控制” 是表示广义的作用的概念,可以确定CHK_GBK的语义角色如下:“系统”是 作用者GBK1,“服务器”是内容GBK2。本实施例中该语句建立的语义树如图4 和图5所示。

实施例4:

本实施例中给出一种实现上述实施例所述的层次语义树构建方法的系 统,本实施例中的层次语义树构建系统500,结构框图如图6所示,包括

预处理单元S520:输入待处理语句,对待处理语句进行分词,并加载分 词后词语的语义知识;

第一序列生成单元S530:根据分词结果,识别出该语句的语义节点;利 用语义知识和词语位置获得语义节点的层次;

第二序列生成单元S540:识别该语句中不同层次的语义边;

层次语义树生成单元S550:根据各层次的语义边生成层次语义树。

此外,在实施时,还包括输入语句单元和层次语义树输出单元S560.

优选地,所述预处理单元S520中,对待处理语句进行分词时,按照领域 词典和通用词典对待处理语句进行分词。本实施例中,所述语义知识包括词 语的广义概念类及其子类,所述词语的广义概念类包括动态、静态、物、人、 属性、逻辑。

优选地,第一序列生成单元S530中,包括:

第一子单元:对于分词后的词语,如果词语的语义知识中有逻辑概念,

对该词语标记为L,如果词语的语义知识中有动态概念,标记为V;

第二子单元:对所有标记为L或V的词语,进行LV排除处理;

第三子单元:对所有L标记根据其概念类别进行标记,并判断其是否有后 标记,如果有后标记,对后标记的词语标记为L1H,根据上述所有标记生 成语义节点。

还包括第四子单元:将句末标点生成语义节点作为根节点。

第一序列生成单元S530还包括:

第五子单元:所有L标记和v标记的默认层次都记为0,当出现两个上述标 记相邻时,第二个标记的层次减小一层为-1。

第二序列生成单元S540包括:

核心动词识别单元:对所有标记为V的语义节点,进行核心动词识别,生 成语块;

语块生成单元:对所有标记为L的语义节点,生成语块;

语义边生成单元:根据语块生成语义边。

核心动词识别单元中,进行核心动词识别,还包括:

排除子单元:排除不能构成核心动词的词语;

选择子单元:其余的词语根据构成和词语本身所具有的特征赋予不同的 权值,根据权值的排序结果和位置信息选择核心动词。

层次语义树生成单元S550,包括:

根节点子单元:选择根节点;

子节点子单元:把层次高的语块,按照该层次中的顺序,挂到根节点上, 作为子节点;

遍历子单元:遍历所有子节点,将每个子节点范围内的所有语块作为该 子节点的子节点,直到没有新的子节点产生。

图6是说明本发明实施例中的层次语义树构建系统500的示意图。层次语 义树构建设备500包括五个单元:预处理单元S520、第一序列生成单元S530、 第二序列生成单元S540、层次语义树生成单元S550和层次语义树输出单元 S560。步骤S510表示语句的输入,一般指的是一个完整的句子,而非句群或 篇章。预处理单元S520包括对语句进行分词处理、对成对的括号、引号、书 名号等特殊标点的处理、加载语义知识库、对语句中出现的数字和英文缩写 进行绑定并加载其语义信息、对逗号、冒号、顿号、句号等有效标点进行处 理并加载其语义信息以及采用消歧规则对兼类的词语进行消歧处理,预处理 单元的操作主要目的是排除干扰使得后续的识别步骤更加简洁易行。第一序 列生成单元S530主要是采取LV原则对所有含有l或v概念的词语进行处理以识 别所有语义节点L/V,并利用LV语义节点所呈现的位置关系区分其层次,默认 都是0,其表示第一层次,第二层次则是-1;根据逗号、冒号、顿号、句号等 有效标点的语义信息识别标点类的语义节点。第二序列生成单元S540主要根 据所有的语义节点L/V/SST及其层次识别节点边CHK_EG、CHK_L0、CHK_ABK、 CHK_GBK及其层次。层次语义树生成单元S550主要是针对CHK_GBK内部结构的 分析,根据语块内部组合符识别其中并列语义结构、上述降级蜕化句的语义 结构及其它。特别需要说明的是,降级蜕化句的识别与小句层面类似,不同 的是CHK_ABK、CHK_L0、CHK_EG的层次信息是-1。层次语义树输出单元S560主 要是根据层次语义树生成单元的结果将其输出以得到的层次语义树,具体包 括:确定以SST为根节点,第一层次CHK_EG、CHK_L0、CHK_ABK、CHK_GBK为其 子节点并挂于其下,第二层次的CHK_EG、CHK_L0、CHK_ABK、CHK_GBK围棋子 节点的子节点挂于其下,以此类推,直至全部为叶子节点。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式 的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做 出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷 举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围 之中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号