首页> 中国专利> 一种基于语义匹配驱动的自然语言知识获取方法

一种基于语义匹配驱动的自然语言知识获取方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于语义匹配驱动的自然语言知识获取方法，包括如下过程：（1）定义自然语言处理的语义模型；（2）定义词汇语义的表示方法；（3）定义词汇间的语义匹配关系；（4）定义语句处理方法；（5）将分析结果转化为知识点。该方法利用语义匹配信息，结合少量自然语言中常见的语法规则，根据语义匹配值，能够在多种符合语法的分析方案中，选择一种比较符合语义逻辑的分析方案作为最终的分析结果。通过该方法可以进行自然语言语句分析并获取其中所蕴含的知识。实验证明，该方法具有较好的可行性。

著录项

公开/公告号CN102945230A

专利类型发明专利
公开/公告日2013-02-27

原文格式PDF
申请/专利权人刘运通;郭磊;王爱民;
展开▼

申请/专利号CN201210396625.5
发明设计人刘运通;郭磊;王爱民;
展开▼

申请日2012-10-17
分类号G06F17/28(20060101);G06F17/27(20060101);
代理机构北京同辉知识产权代理事务所(普通合伙);
代理人赵慧
地址 455002 河南省安阳市安阳开发区弦歌大道东段安阳师范学院计算机与信息工程学院
入库时间 2024-02-19 16:59:17

法律信息

法律状态公告日

法律状态信息

法律状态
2018-10-09

未缴年费专利权终止 IPC(主分类):G06F17/28 授权公告日:20150325 终止日期:20171017 申请日:20121017

专利权的终止
2016-08-03

专利权的转移 IPC(主分类):G06F17/28 登记生效日:20160714 变更前: 变更后: 申请日:20121017

专利申请权、专利权的转移
2015-03-25

授权

授权
2013-04-03

实质审查的生效 IPC(主分类):G06F17/28 申请日:20121017

实质审查的生效
2013-02-27

公开

公开

说明书

技术领域

本发明属于计算机自然语言理解领域，特别涉及一种基于语义匹配驱动的自然语言知识获取方法。

背景技术

在知识集成中，大量的知识被蕴含在自然语言语句中，只有实现了自然语言语句的自动分析，才能有效获取语句中所蕴含的知识。因此，自然语言处理技术就成为了知识集成的关键基础技术。

自然语言处理技术主要有基于规则的方法和基于统计的方法两种思路，但这两种方法都没有充分地利用语义信息，很难取得高质量的处理结果。因此，研究者越来越重视语义的作用，出现了基于Wordnet、hownet、framenet 等词汇语义知识库来分析自然语言的方法，但这些知识库中所包含语义信息的描述粒度太粗，没有表示到词素的层次，也不够准确。这些缺点致使很难利用它们形成一套系统的语句处理方法和模型。

在基于语义的语句分析方面，学者们作了一定程度的研究：姚天顺研究过基于语义驱动的自然语言理解，但词汇语义的描述比较粗糙，对语义信息的利用也不够充分，分析方法也不够系统；HPSG方法是基于词汇信息驱动的，但词汇的信息主要是用来描述语法规则的，对语义的描述过少也不够准确，与汉语的特点不相适应。文献（Tom OH，Janyce W，Exploiting Semantic Role Resources for Preposition Disambiguation[J].Computational Linguistics，2008，35(2):151-184.）研究了将语料树库与framenet相结合的介词短语消歧，文献（Patwardhan S，Banerjee S，Pedersen T.Using measures of semantic relatedness for word sense disambiguation[C]. Proceedings of the 4th International Conference on Intelligent Text Processing and Computational Linguistics(CICLING-03)，Mexico City， 2003 241–257.）研究了使用语义关系进行词汇语义消歧。虽然这些研究取得一定的成果，但还没有形成一套系统地利用语义信息进行自然语言处理的模型和方法。

要形成一个完整的自然语言处理的语义模型，必须较为准确地表示词汇的语义，应具体到词素的级别才可能满足语义模型的要求，而现有的词汇语义表示方式大多没有对此进行深入的研究。格语法使用“格”来描述深层语义关系，但格语法仅仅被用来进行语法分析，很少用格来描述词汇的语义。模态是描述动作执行状态关键因素之一，自然语言中很多词汇的准确语义在本质上蕴含了某个动作概念的模态，而现有的各种词汇语义表示方式没有考虑模态，因此很难准确地描述概念的语义。本体能够严格地表示概念语义，本体一般使用描述逻辑来表示所有概念；但描述逻辑中将概念之间的语义关系进行平等的对待，没有对动作性概念的语义关系的本质特征进行特殊的语义解释和处理。

发明内容

针对现有技术中存在的不足，本发明的目的在于提供一种利用语义信息来进行自然语言处理并获取其中所蕴含的知识的基于语义匹配驱动的自然语言知识获取方法。

本发明的技术方案是这样实现的：为了能够自动分析自然语言并获取中所蕴含的知识，提出了一个自然语言处理的语义模型，该模型使用一个假设公理来判定最佳语法分析方案。为了满足该模型的语义表示需求，对描述逻辑进行了特殊化处理，使之能够更适合地表示自然语言词汇语义。基于该模型，提出了一种基于词汇语义匹配驱动的自然语言分析方法；该方法利用语义匹配信息，结合少量自然语言中常见的语法规则，根据语义匹配值，能够在多种符合语法的分析方案中，选择一种比较符合语义逻辑的分析方案作为最终的分析结果，通过该方法可以进行自然语言语句分析并获取其中所蕴含的知识。本发明基于语义匹配驱动的自然语言知识获取方法，包括如下过程：

（1）定义自然语言处理的语义模型：包括定义词汇间的语义匹配关系；定义词汇的语义修饰目标；以及定义语句的语义匹配值；

（2）定义词汇语义的表示方法；

（3）定义词汇间的语义匹配关系：包括名词-名词间的语义匹配关系；名词-动词间的语义匹配关系；名词-形容词的语义匹配关系；并列语义匹配关系；副词的语义匹配关系；量词的语义匹配关系；代词的语义匹配关系；以及语法匹配关；

（4）定义语句处理方法：涉及语义结构的三个层次及其文法；包括获取最佳语法分析方案的思路，获取最佳的语法分析方案，以及简单子句的最佳语义匹配值等几部分；

（5）将分析结果转化为知识点。

本发明的有益效果是：本发明提出了一个自然语言处理的语义模型。在该模型中，提出了语义匹配的概念，使用一个假设公理来判定最佳语法分析方案。由于使用该模型必须具有较为准确的词汇语义表示方式，本发明对基于描述逻辑的语义表示方式作了特殊化处理，其特点为：

（1）将“格”和“模态”作为基本的语义关系；

（2）对描述逻辑进行了变型、限制并赋予特殊的语义解释，使之便于表示自然语言的词汇语义；

基于该模型，本发明提出了一种基于语义匹配驱动的自然语言处理的方法，该方法具有以下的特点：

（1）提出了基于语义匹配的自底向上的简单子句归结法；

（2）语句分析的目的和结果是获得语句中隐含的知识。

附图说明

图1是本发明基于语义匹配驱动的自然语言知识获取方法中基于语义关系的词汇定义；

图2是本发明基于语义匹配驱动的自然语言知识获取方法中文法规则示意图。

具体实施方式

本发明基于语义匹配驱动的自然语言知识获取方法的具体实现过程如下：

步骤1：

(1a)定义词汇间的语义匹配关系：

定义1：在词汇语义知识库中，任意两个实词W_X和W_Y之间具有的内在语义联系，称为语义匹配关系。用函数match(W_X，W_Y)来表示其密切程度，函数的值就是语义匹配值。语义匹配关系与具体语句无关。假如W_X与W_Y之间没有语义匹配关系，则设置match(W_X,W_Y)=MAX，MAX是一个大常数。

(1b)定义2：语句中的任意实词W_i(除去谓语中心词)均语义修饰于另外一个实词W_Gi，称W_Gi是W_i语义修饰目标。

(1c)定义3：在特定的语法分析方案Ai的情况下，假设V为谓语中心词， S为V的施动者，O为V的承受者，Wi是语句中的一个实词且!(W_i∈{S，V， O})，W_Gi是W_i的语义修饰目标，用函数match(W_i，W_Gi)表示其语义匹配值，那么，整个语句的语义匹配值Value_Ai可以用公式(1)来表示:

${Vaule}_{Ai} = K_{SVO} * (match (S, V) + match (O, v)) + K_{W} Σ_{i = 1}^{n} * match (W_{i}, W_{Gi}) - - - (1)$

S和O的语义修饰目标是V，n是实词的个数(不包括S，V，O)，K_SVO和K_Wi为权值系数。需要注意的是，值越小表示语义匹配程度越大。

(1d)假设公理1(最佳语法分析公理)：假设一个语句具有m种语法分析方案，最符合语义逻辑的语法分析方案A_i满足条件：A_i=argmin(Value_Ai)，即语义匹配值最小的语法分析方案是最佳语法分析方案。

步骤2：

(2a)定义4(基本概念)：在构建语义库前所设定的、无需进行语义定义的、并在语句分析和推理时由系统进行特别语义解释处理的有限符号集合，基本概念数量极少，用C_WB={W_B1，W_B2…W_Bk}表示，默认每个基本概念W_Bi继承于根概念。

(2b)定义5(格)：表示动作类概念与其他事物之间相关情况的深层语义关系的特殊基本概念集合，用C_VC={C₁，C₂…C_m}表示。例如“原因”是一个表示动作原因的一个格。

(2c)定义6(模态)：表示动作类概念的执行状态的特殊基本概念集合，用 C_VM={M₁，M₂…M_n}表示。例如“完成”是一个表示动作已经执行完毕的一个模态。

(2d)定义7(基本的语义关系)：在构建语义库前所设定的、不可改变的、并在语句分析时需要进行特别语义解释处理的语义关系，包括如下语义关系：

R_C(V，C，W)格语义关系：用以表示动作类概念V与概念W具有格为C的深层语义关系，其中C∈C_VC；

R_M(V，M)模态语义关系：用以表示动作类概念V的执行状态为M，其中C∈C_VM；

R_AP(W，P)属性语义关系：用以表示概念P是名词类概念W的一个属性的语义关系；

R_AS(W，S)状态语义关系：用以表示概念S是名词类概念W的一个状态的语义关系；

R_D(W)继承语义关系：概念的语义定义式中只能使用一次，例如W₁继承于 W₂；

R_P(W₁，W₂)描述部分语义关系的有限集合：说明概念W₂的语义是W₁的语义的一部分；

R_W(W₁，W₂)描述整体关系的有限集合：说明概念W₁语义包含W₂；

R_VS(V，W)表示动作V的施动者是W的语义关系，R_VO(V，W)表示动作V的承受者是W的语义关系。

(2e)定义8(扩展语义关系)：在构建语义库过程中所新定义的语义关系集合，数量不限。在语句分析时，所有的扩展语义关系具有统一的处理方法，不进行特殊的处理。用R_R(W₁，W₂)表示，说明被定义的概念W是W₁和W₂之间的一种语义关系。在非定义式中，用R_R(W，W₁，W₂)表示W₁和W₂之间存在名为 W的扩展语义关系。

(2f)基于基本描述逻辑，对其概念定义按规则1-7进行限制和变换，成为本文的概念语义定义方法。

规则1(概念定义规则)：

1)假如W_B1，W_B2是基本概念，R₁，R₂是语义关系，则新符号

$W = ⫬ W_{B 1} | ⫬ R_{1} (W_{B 1}) | ⫬ W_{B 1} | ⫬ R_{1} (W_{B 1}) | R_{1} (W_{B 1}) \cup R_{2} (W_{B 2}) | R_{1} (W_{B 1}) \cap$

$R_{2} (W_{B 2})$ 是概念；

2)假如W_B1，W_B2是概念，R₁，R₂是语义关系，则新符号

$W = ⫬ W_{B 1} | ⫬ R_{1} (W_{B 1}) | ⫬ W_{B 1} | ⫬ R_{1} (W_{B 1}) | R_{1} (W_{B 1}) \cup R_{2} (W_{B 2}) | R_{1} (W_{B 1}) \cap$

$R_{2} (W_{B 2})$ 是概念；

在规则1中没有概念并、概念交、量词的使用规则，它们的处理方式见规则2-2。规则2-3是为了把概念的定义方式转化为一组语义关系，并且要求名词满足单继承的原则。

规则2(概念并的处理规则)：假如W₁，W₂是概念，W₁，W₂的最近共同祖先概念为W_P，当新概念W具有W=W₁∪W₂的语义时，由于单继承规则，可将W定义为W=R_D(W_P)∩(R_P(W_P，W₁)∪R_P(W_P，W₂))。例如，双亲=R_D(人)∩(R_P(人，父亲)∪R_P(人，母亲))。

规则3(概念交的处理规则)：假如W₁，W₂是概念，当新概念W具有W=W₁∩W₂的语义时，由于单继承规则，可将W定义为W=R_D(W₁)∩R_W(W₁，W₂)或 W=R_D(W₂)∩R_W(W₂，W₁)。

规则2和规则3只不过是将概念并、概念交转换了一种表示方式而已，只需规定该两种表示方式的特定语义解释即可，这样做是为了解决多继承问题和保证单继承原则的一种变通手段，作用类似于java中的接口，以加快概念的检索和匹配的速度。

在自然语言中，名词均会在语义上直接或间接继承于基本概念，为了更清晰准确的表示名词的语义，要求名词语义表示时采用单继承的原则，对于具有多继承语义的概念，采用规则2和规则3来处理。及物动词在语义上表示名词对另一个名词所做施加的一个动作；不及物动词则表示名词自身的一种变化；形容词在语义上均表示名词或名词间的状态或属性；副词在语义上均表示动作的执行情况(模态)和相关情况(格)。因此，可用满足规则4的方式来表示自然语言中各类词汇的语义。

规则4(概念分类定义规则)：自然语言中概念按性质被分类表示为名词、动词、形容词、副词。假设用Def(W)表示概念W的定义式，Num(R，W)为定义式中语义关系R的出现次数，每类词汇定义应满足如下规则：

名词的单继承：满足条件 $(R_{D} (W_{P}) ⋐ Def (W)) \cap (Num (R_{D}, W) = 1)$ 的概念W。

动词：满足条件 $(R_{VS} (W_{1}) \cup (R_{VO} (W_{2})) ⋐ Def (W) \cap (Num (R_{VS}, W_{1}) = 1)$

$\cap (Num (R_{VO}, W_{2}) = 1) .$

形容词：满足条件 $(R_{AP} (W, W_{1}) \cup R_{AS} (W, W_{1})) ⋐ Def (W)) \cap$

$(Num (R_{AP}, W) = 1) \cap (Num (R_{AS}, W) = 1) .$

副词：满足条件 $(R_{M} (W_{1}, W) ⋐ Def (W)) \cap (Num (R_{M}, W) = 1) .$

规则5(量词的处理规则)：量词(全称量词和存在量词)没有得到特殊的对待，被作为”次数”格语义关系的一个值表示动作的次数，作为“数量” 属性语义关系的值来表示名词的个数。因为这不影响自然语言的语法结构分析，在推理时根据动作的“次数”格和名词“数量”属性的值进行具体分析。

规则6(实例设置规则)：在定义概念W时，假如定义式中的概念W_i出现m 次，而这m次出现指代的n个语义{S₁，S₂…S_n}，则可用{W，W#1…W#n-1}，来区别W的n个语义，W#i在推理时可解释为实例。

规则7(多义词处置规则)：自然语言中有很多多义词，假如多义词W具有 n个语义{S₁，S₂…S_n}，则针对每一个具体语义定义一个概念，共定义n个概念{W1，W2…Wn}来区别表示这n个不同语义。

(2g)假设公理2：继承语义关系具有单向传递性，下层概念继承上层概念所具有语义关系。

定理1。根据继承关系R_D，所有名词构成一棵树。

根据规则1-7和定义4-8，可以定义自然语言中词汇的语义。假设用一条有向线段来表示语义关系的话，根据定理1和词汇的定义和规则可知，词汇 W的语义可以由名词树中的一组有向线段来表示。

步骤3：

(3a)定义名词-名词间的语义匹配关系：

定义9(关联词汇集)：名词定义式中所包含的所有词汇的集合，用C_RW表示。例如附图图1中的名词W的关联词汇集

C_RW={W，W_P，W_r1，W_r2，W_r3，W_r4，W_r5，W_v，W_vc}

在下文的分析中用∝为表示继承语义关系，W_X∝W_Y表示W_X继承于W_Y，并且规定W∝W。

（1）基本语义匹配关系

定义10(直接语义匹配关系)：如果词汇W_X、W_Y满足下述条件，用符号表示：

条件：假设W_Y的关联词汇集是C_WY，则

$\exists W_{Z} \cap (W_{Z} \in C_{WY}) \cap (W_{X} \propto W_{Z}) .$

当时，match(W_X，W_Y)=K_T*d(W_X，W_Z)。

K_T为匹配关系系数，根据所匹配的关系R的类型，设置为不同的常数，一般有1≤K_T≤3。

例如：附图图1中{W_dr1，W_dvc，W_dr2，W_d2，W_dr3，W_dr4，W_dr5}中的每个词汇都与 W具有直接语义匹配关系。

定义11(继承语义匹配关系)：如果词汇W_X、W_Y满足下述条件，用符号表示：

条件：

当时，match(W_X，W_Y)=match(W_X，W_Z)+d(W_Y，W_Z)。

例如：附图图1中{W_dr1，W_dvc，W_dr2，W_d2，W_dr3，W_dr4，W_dr5}与W_d1，W_d2具有继承语义匹配关系。

定义语义距离函数d(W_X，W_Y)：表示具有继承关系的两个词汇W_X，W_Y之间的继承次数。

（2）包含语义匹配关系

定义12(显式语义包含关系)：如果词汇W_X、W_Y满足下述条件，用符号W_X⊙W_Y表示。

条件：存在概念W_Z，满足条件

$\exists W_{Z} (R_{W} (W_{Y}, W_{Z}) ⋐ Def (W_{Y})) \cap (W_{X} \propto W_{Z})$

当W_X⊙W_Y时，有match(W_X，W_Y)=K_P*(d(W_X，W_Z)。K_P为包含匹配关系系数。

定义13(隐含语义包含关系)：如果词汇W_X、W_Y满足下述条件，用符号W_X○W_Y表示。

条件：存在概念W_Z，满足条件

$\exists W_{Z} (R_{P} (W_{Z}, W_{X}) ⋐ Def (W_{X})) \cap (W_{Z} \propto W_{Y})$

当W_X○W_Y时，match(W_X，W_Y)=K_P*(d(W_Z，W_Y))。

定义14(包含语义匹配关系)：如果词汇W_X、W_Y满足下述条件，用符号W_X◎W_Y表示：

条件：

当W_X◎W_Y时，match(W_X,W_Y)=

min{match(W_X,W_Z)+match(W_Z,W_Y),match(W_X,W_Y)}

定理3：当词汇WX、WY满足WX◎WY时，WY具有WX的语义关系。

(3b)名词-动词间的语义匹配关系

名词-动词的语义匹配关系可以分为两类：

1)SVO语义匹配关系：名词可能作施动者或动作的承受者

2)格语义匹配关系：名词与动词具有格语义匹配关系

假设动词为V，V的定义中的施动名词为S₀，受动名词为O₀。由于在定义时已经将S₀设置为可能实施V的最高层名词，O₀设置为承受该动作的最高层名词，所以只有同S₀或O₀具有某种关系的名词S和名词O才有可能执行动作 V，即构成SVO的语义匹配。SVO语义匹配有6种情况，其值可用Value_SVO表示，计算公式如下：

Value_SVO=match(S，S₀)+match(O，O₀)

定义15(常规SVO语义匹配关系)：满足条件(S∝S₀)∩(O∝O₀)。

定义16(重载SVO语义匹配关系)：满足条件：

$((S \propto S_{0}) \cap (\exists R_{VO} (R_{VO} (V, W) ⋐ Def (S)) \cap (O \propto W)) \cup ((O \propto O_{0}) \cap$

$(\exists R_{VS} (R_{VS} (V, W) ⋐ Def (O)) \cap (S \propto W))$

对于名词S和O以及动词V，当V的定义中不满足SVO匹配时，而S、O 的定义说明它们满足SVO匹配。

例：戒指=R_D(饰品)∩R_VS(佩戴，人)∩R_VO(佩戴，饰品)∩R_C(佩戴，位置，手)，由于“戒指”中包含了R_VS(佩戴，人)，所以{人，佩戴，戒指}构成重载SVO语义匹配关系。

定义17(包含SVO语义匹配关系)：满足条件 ((S◎S₀)∩(O∝O₀))∪((S∝S₀)∩(O◎O₀))。

例：班级=R_D(集合)∩R_W(集合，学生)，由于“学生”可以“吃”“饭”， “学生”是“班级”的一部分，所以{班级，吃，饭}构成整体SVO语义匹配关系。

定义18(相似SVO语义匹配关系)：满足条件 ((S∽S₀)∩(O∝O₀))∪((S∝S₀)∩(O∽O₀))。

定义19(比喻SVO语义匹配关系)：在下述条件下，猜测语句中可能存在比喻：

条件1：在整个语句中没有任何名词可以满足前四种SVO匹配。

条件2：语句中存在名词S或O，满足!(S∝S₀)∩(O∝O₀)，猜测将S比喻为S₀。

或条件3：语句中存在名词S或O，满足(S∝S₀)∩!(O∝O₀)，猜测将O比喻为O₀。

对于比喻SVO语义匹配关系，Value_SVO=K_F*(match(S，W_P)+match(O， W_P))

K_F为权值系数，W_P是S和S₀的最近共同祖先。因为属于猜测性质，K_F的值应比较大，以防止不良影响。

定义20(格语义匹配关系)：对于名词W和动词V，满足 $\exists R_{C} (V, C,$ $W_{C}) ⋐ Def (V) \cap (W \propto W_{C}) .$

match(W，V)=K_C*d(W，W_C)，K_C为权值系数。

(3c)名词-形容词的语义匹配关系

对于形容词W_VA和名词W_N，满足

$\exists W ((R_{AS} (W, W_{1}) \cup (R_{AP} (W, W_{1})) ⋐ Def (W_{VA}) \cap (W_{N} \propto W)),$

match(W_VA，W_N)=K_A*d(W_N，W)，K_A为权值系数(一般K_A=1)。

(3d)并列语义匹配关系

并列语义匹配关系仅用于语句中并列结构的判断，以确定连词的辖域。

定义21(语义相似)：由于名词定义采用了单继承的方法，两个名词W_X、W_Y虽然在定义式中没有继承关系，但在语义上W_X却可能是W_Y的一种，相当于描述逻辑中的概念蕴含，用符号W_X∽W_Y表示。可对描述逻辑中的Tableau算法加以改进，以判断概念语义相似关系。

定义22(名词并列语义匹配关系)：对于两个名词W_X，W_Y可用match(W_X， W_Y)=K_T*(d(W_X，W_E)+d(W_Y，W_E))计算出一个数值，作为启发信息，W_E是W_X、W_Y的距离最近的共同祖先节点。当满足W_X∽W_Y时，也可能是并列关系。

定义23(动词并列语义匹配关系)：对于两个动词V_X，V_Y可用match(W_X， W_Y)=K_T*(d(S_X0，S_Y0)+d(O_X0，O_Y0))计算出一个数值，作为启发信息，{S_X0，S_Y0， O_X0，O_Y0}是W_X，W_Y定义中的施动者和受动者。

(3e)其它类词汇间的语义匹配关系

副词的语义匹配关系：关于副词修饰形容词和副词，也有很复杂的情况，本文暂不作讨论，假设副词可以语义匹配于动词、形容词和副词，规定 match(W₁，W₂)=0。量词的语义匹配关系:词汇库应保存量词与名词的关联关系。假如量词W可以修饰名词W_N，则规定match(W，W_N)=0；否则match(W，W_N)=MAX。代词的语义匹配关系：根据代词的指代关系，将代词替换成相应的名词进行处理，比如把“我”按“人”处理。

(3f)语法匹配关系

特别注意：前面的各种语义匹配关系是内在的，与具体语句无关。在具体的语句中，可能某些类型的词汇互相修饰，但词汇本身之间并没有内在的语义关系，只是在本语句内可能有语义修饰关系的一种语法现象(即语法上的修饰关系)，主要包括以下两种情况：

（1）不常见的词类间修饰关系：动词-动词之间；副词-名词之间；形容词- 动词之间等。例如“喜欢游泳”“老实说”等；这些都属于语法匹配关系，词汇本身之间没有内在的语义匹配关系，只是在语句中具有语法上的修饰关系而已。在语句分析过程中其语义匹配值可用match(W_X，W_Y)=MAX/K_G计算，K_G是类型权值(一般情况下K_G=1，或满足K_G<1.5)。

（2）词类活用，例如形容词经常会被活用为副词，这种情况本文不考虑。

步骤4：

(4a)定义语义结构的三个层次及其文法

要根据本文的语义模型进行语句分析，必须具有适合语义模型的语句抽象表示方法。任何语句都是由结构比较简单的语句经过迭代而形成的，短语被看成语句内的一个组成部分。为了满足语义模型的语义分析需要，根据语义结构的复杂程度和特点可以将语句的语义结构划分为三个层次:简单句、特殊简单句、复杂句。

定义24(简单句)：仅有一个动词或形容词作谓语的语句C_S，可用文法G₁来抽象描述。

用格语法的思想设计文法G₁，设计思路:假设V是谓语，S是V的施动者；O 是V的承受者，A_B是前置定语；A_A是后置定语；P_D是状语或补语，相当于格语法中的一组格；P_C是一个的格内容；n是名词；N_P为名词短语。

文法G₁中的规则数目较多(详细的规则数目较多，略)，其关键规则的设计思路如下：

1)C_S→P_DA_BSA_AP_DVP_DA_BOA_AP_D(SVO的出现顺序有10种，附图图2是其中的一种)

2)S→n|SA_AA_BS(多个词汇作施动者，如图2中的S)

3)P_D→P_C|P_DP_C

S、O、A_B、A_A、P_C中的介词、连词、助词、数词、量词等词汇的使用规则可以很容易的写出来。

文法的G1的具体表示方式如下：

定义25(特殊简单句)：具有多个动词或形容词，但在语义上不包含从句的语句，可用文法G₂来抽象描述。

文法G₂的设计思路：在保证不会产生从句的基础上，向文法G₁中添加不多的规则即可生成文法G₂，主要有以下2种情况：

1)多个动词或形容词作谓语的情况

2)动词或形容词作S、O、A_B、A_A、P_C的情况

文法G₂的关键是动词短语V_V前后不能直接跟名词短语N_P，即不能出现N_P+V_V或V_V+N_P。

文法的G2的具体表示方式如下：

定义26(复杂句)：在文法G₂中添加规则N_P→C_S，形成文法G₃。因为规则N_P→C_S说明一个简单句或特殊简单句可以作一个复杂句中任意成分，实现了对简单句递归，因此文法G₃可以描述复杂句。

(4b)获取最佳语法分析方案的思路

（1）词汇歧义消解方法

假设W₁W₂…W_k的词汇语义个数分别为n₁，n₂…n_k，针对每个语义进行全排列，结果为{L₁，L₂…L_M}，则M=n_1*n_2*…_*n_k，假设其中一个的是W_m的第n个词义，则L_i是C_S的一个无词汇歧义的词汇序列。在语法分析过程中穷举每个{L₁，L₂…L_M}的分析结果，选择最佳的L_i就可以消解词汇歧义。

（2）分析思路

根据公理1，获得所有的语法分析方案，针对每个语法分析方案A_i，根据公式1计算出A_i所对应的语义匹配值，并选择出最佳的语法分析方案。

定义27(简单子句)：语句中满足文法G₁或G₂的子串是简单子句。

假设公理4(语义修饰目标公理)：假设实词W的语义修饰目标是W_Gi，则对于语句中的符合语义逻辑的简单子句C_S，满足(W∈C_S)→(W_Gi∈C_S)。对于定语 A_B(假设紧邻S)，满足(W∈A_B)→(W_Gi∈(A_B∪S))，定语的其它情况类似。对于状语或补语(P_D)，满足(W∈P_D)→(W_Gi∈(P_D∪V))。

依据语义语义修饰目标的特点，所有的语法分析方案可分为2层：

1)简单子句级语法分析方案；

2)简单子句内部的语法分析方案。

(4c)获取最佳的语法分析方案

（1）可归结简单子句的判断条件

针对语句C_S，进行文法G₁、G₂、G₃的CYK算法分析，满足表1中条件的的子串s(i，j)是可归结的简单子句。

表1可归结简单子句的判断条件

（2）自底向上的简单子句归结法

可用自底向上的简单子句归结法求取最佳的从句级语法分析方案，见算法 4：

算法1(简单子句归结法)：

5)针对语句C_S，根据表1的判断条件，找出可归结简单子句所对应的子串集合{s₁，s₂…s_m}；

6)针对每个子句s_i，计算出(算法2)简单子句s_i的最佳语义匹配值，将 s_i归结为N_P，设置N_P的归结语义；

7)令C_S等于归结结果，将递归过程中的简单子句s_i的最佳语义匹配值求和，进行步骤1-3的递归；

8)具有最佳全句语义匹配值所对应的简单子句s_i的范围和归结顺序即为最佳的语法分析方案。

计算简单子句的最佳语义匹配值是算法的关键，具体方法见下一步骤“简单子句的最佳语义匹配值”。

在算法中，在简单子句选择时采用了穷举法，可以求出理论上的最佳语法分析方案。但这种方法的计算量较大，不易实现。但当可归子句的数量小于 4时，也可以考虑。当可归子句数量过多时，可仅选择k(k<m)个语义匹配程度较好的简单子句进行递归搜索，以求取次优语法分析方案。

（3）归结语义

在算法1中，将简单子句C_S归结为N_P后，N_P没有语义，无法进行下一步的语义匹配计算，解决的方式如下：

1)规定由归结而来N_P可匹配于任何词汇W，语义匹配值为：

match(N_P，W)=MAX/K_C(一般有K_C>1)

2)假如N_P作新的目标子句的S或O，则可将N_P的语义设置为原C_S中的S或 O。

（4d）获取简单子句的最佳语义匹配值

要计算出简单子句的最佳语义匹配值，根据公理1和公理4，简单子句内部有多种语法分析方案，必须求出所有的语法分析方案，针对每种语法分析方案，其实词的语义修饰目标是确定的，就可根据公式1计算得到该语法分析方案下的语义匹配值，具有最小语义匹配值的语法分析方案就是所需的分析结果。

简单子句内部的语法分析方案可分为3层：1)SVO组合层次；2)A_A、P_D、A_B层次；3)A_A、P_D、A_B内部的语法分析方案。可通过算法2选择出其中最佳的语法分析方案。

算法2(简单子句的最佳语义匹配值)：

8)假如简单子句是特殊简单句，找到所有的将其归结为简单句的方法

9)针对每种归结方法，将特殊简单句归结为简单句

10)针对该简单句，找出所有可能的SVO组合方法

11)针对每种SVO组合方法，将简单句C_S分段，如果S或O为短语，则进行算法3；假设C_S被分为{L₁，L₂..L_n}

12)每个分段L_i内最多可包含A_A、P_D、A_B三部分内容，找出L_i中的所有A_A、P_D、 A_B划分方法

13)针对每种A_A、P_D、A_B划分方法，通过语法和语义匹配分析相结合的手段，确定每个实词的语义修饰目标，使A_A、P_D、A_B的语义匹配值最小

14)求取全句的语义匹配值，选择语义匹配值最小所对应的分析过程作为最佳的语法分析方案

假设是针对简单子句C_S进行文法G₁的CYK算法的运算结果，表示能生成子串s(i，j)的文法符号集。

（1）SVO组合层次的语法分析方案

在简单句中，假设名词W₁和W₂与动词V满足SVO匹配，则{W₁，V，W₂}是一个SVO组合。但S(O类似)可能是一个短语，当句中存在{W₁，V，W₃}和{W₂，V， W₃}SVO匹配，且V，W₃不在W₁和W₂中间，且W₁和W₂中间的子串s(m，n)满足：时，在W₁+s(m，n)+W₃所组成的短语是S，同理可以获得更长的S或O。

算法3(S或O分段)：

3)获得短语S(或O)，根据本步骤所述原理，找出S中满足SVO匹配的所

有名词，假设为{n₁，n₂..n_m}

4)根据{n₁，n₂..n_m}将短语S分为m-1段，根据规则S→n|SA_AA_BS可知每个不为空的分段可能包含A_AA_B

（2）A_A、P_D、A_B层次的划分方法

假设分段L_i的子串为s(m，n)，则满足的p， q是符合语法的A_A、P_D、A_B划分方法，分段结果为:A_A=s(m，p)，P_D=s(p，q)A_B=s(q， n)。

（3）A_A、P_D、A_B内部的最佳语法分析方案

定理2：A_A、P_D、A_B内部最佳语法分析方案是当A_A、P_D、A_B内的每个实词都具有最佳语义修饰目标情况下所对应的语法分析方案。

定义28(简单名词短语)：不包含动词和形容词的名词短语就是简单名词短语。

定理3：简单句的定语(A_A或A_B)的最佳语法分析方案等价于一个简单名词短语的最佳语法分析方案。

证明:由于简单句仅包含一个动词或形容词作谓语V，因此A_A、A_B中不包含动词和形容词。根据公理4，A_A、A_B的语法分析方案等价于简单名词短语N_P的语法分析方案，N_P∈{(A_B+S)，(A_A+S)，(A_B+O)，(A_A+O)}。

简单名词短语N_P的不同语法分析方案仅受{连词/介词/助词/量词}的影响。语法分析的关键是选定{连词/介词/助词/量词}的辖域和它们的归结顺序。

A、辖域的确定:在{连词/介词/助词/量词}中，假设w_B为前置类型的，w_M为前置类型的，则其辖域可归结为两种形式1)..N_Bn..N_B1...w_M..N_A1..N_Am..；2) W_B..N_Bn..N_B1...W_M..N_A1..N_Am...；其中{N_B1，N_B2...N_Bn}是辖域内前半部分的名词， {N_A1，N_A2...N_Am}是辖域内前半部分的名词。

根据汉语的后向语义修饰习惯，可在{N_A1，N_A2...N_Am}中找出符合语法的与 N_B1具有最佳语义匹配值的名词N_Aj作为辖域后界。形式1的辖域前界可用类似的方法确定。

(2)归结顺序的确定：{连词/介词/助词/量词}及其辖域应可按某条文法规则归结，可用穷举法求出它们的最佳归结顺序。一般情况下，简单句语句进行了多次分段后，A_A、A_B中包含的{连词/介词/助词/量词}的数目n一般小于 4，具有计算可行性。

定义29(名词序列)：不存在{连词/介词/助词/量词}的简单名词短语是名词序列。

当{连词/介词/助词/量词}都归结后，简单名词短语就被成为了一个名词序列，另外{连词/介词/助词/量词}辖域内部可能也存在一个或两个名词序列。在名词序列中仅仅名词影响语义修饰关系，根据汉语的后向语义修饰习惯，假设名词序列为L_N=W₁W₂…W_m；则通过语义确定L_N中任意名词修饰目标具体方法(近似方法)如下：

算法4(名词序列的最佳语义修饰目标)：

设置集合C_W为空，对于L_N中的每一个名词W_i，假如match(W_i，W_m)<MAX，将W_i添加进C_W，作如下操作：

1)假设C_W的元素按先后的顺序为W₁-W₂-...-W_n(n>1)，则做如下操作：将 L_N分成n+1段，设置它们的语义修饰目标为W_m，并对每一段进行递归。

2)当C_W中只有一个名词时，进行步骤3-4。

3)设置前向修饰关系：针对任意分段，假如存在W_xW_x+1…W_y-1W_y，满足条件：

①任意W_x+1…W_y之间的名词与W_y后的名词的语义匹配值为MAX；②match(W_y， W_x)<MAX；则设置W_y的语义修饰目标为W_x。则设置W_x+1…W_y-1之间的名词的修饰目标W_y。

4)假如L_N中还有名词W_y没有修饰目标，则设置其修饰目标为W_y+1。

P_D的分析方法类似于A_A、A_B，关键是根据介词进行界限划分，将介词辖域内的内容也转化为一个简单名词短语。

（4）特殊简单句的处理方法

归结所有的非谓语动词/形容词，将语句转化为简单句，选择最佳的归结方案。处理方法如下：

1)对语句进行文法G2的CYK算法，找到所有可能做谓语的动词(形容词) 短语，可能具有多种方案。

2)针对每一种方案，归结其余的动词(或形容词)，选取语义匹配值最小的分析方案。

归结非谓语动词(形容词)时也需要设置归结语义，比如“漂亮的项链”，归结语义是“项链”。

步骤5：

可以根据具有最佳语义匹配值的语法分析结果，将简单句转化为一个知识点，将复杂句的每个简单子句转化为知识点，整个复杂化句转化为一组知识点。

例：语句“造型是昆虫的绿色青铜饰品很受巴西女孩欢迎。”的知识五元组(见表2)：

表2语句知识化实例

将语句转化为以结构化数据形式存放的知识点后，就可方便地对这些知识数据进行各种智能信息处理。

上述实施例仅仅是为清楚地说明本发明创造所作的举例，而并非对本发明创造具体实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造权利要求的保护范围之中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于语义匹配驱动的自然语言知识获取方法 [P] . 中国专利： CN102945230B . 2015.03.25
2. 一种基于语义匹配驱动的自然语言知识获取方法 [P] . 中国专利： CN102945230A . 2013-02-27
3. System and method for network-based teletranslation from one natural language to another [P] . 美国专利： US6338033B1 . 2002-01-08

机译：用于从一种自然语言到另一种自然语言的基于网络的远程翻译的系统和方法
4. Pointer-oriented object acquisition method for tangible treatment of information of the computer system which is based on one natural language and in which a received signal reaction of this computer system of artificial intelligence of a cyborg or an android, a corresponding association of this computer system of artificial intelligence of a cyborg or an android, a corresponding thought of this computer system of artificial intelligence of a cyborg or an android are substantiated [P] . 美国专利： US2009265298A1 . 2009-10-22

机译：一种基于指针的对象获取方法，用于对计算机系统的信息进行有形处理，该方法基于一种自然语言，并且该机器人或机器人的人工智能系统对该计算机系统的接收信号作出反应，该计算机系统具有相应的关联机器人或机器人的人工智能，该机器人或机器人的人工智能计算机系统的相应思想得到证实
5. Novel and innovative means of providing an anonymized and secure mechanism for speech-to-text conversion. This invention provides a versatile and extensible privacy layer that leverages existing cloud-based Automated Speech Recognition (ASR) services and can accommodate emerging speech-to-text technologies, such as Natural Language Processing (NLP), voice bots and other voice-based artificial intelligence interfaces. This invention also allows the latest and best-of-breed speech technologies to be applied to the legal, medical, financial, and other privacy-sensitive fields without sacrificing [P] . 美国专利： US2020005792A1 . 2020-01-02

机译：为语音到文本转换提供匿名和安全机制的新颖创新方法。本发明提供了一种通用且可扩展的隐私层，其利用了现有的基于云的自动语音识别（ASR）服务，并且可以适应新兴的语音到文本技术，例如自然语言处理（NLP），语音机器人和其他基于语音的人工语言。智能接口。本发明还允许在不牺牲法律，医学，金融和其他隐私敏感领域的情况下应用最新和最好的语音技术。