首页> 中国专利> 模拟大脑语言感知过程的自然语言语句分析方法

模拟大脑语言感知过程的自然语言语句分析方法

摘要

本发明涉及一种模拟大脑对自然语言语句感知过程的计算机分析方法,其特征在于该方法包括句类分析法及概念层次网络语言层面知识库。本发明对自然语言的处理是利用句类知识形成语句概念联想脉络的激活,在概念和语言层面进行各种歧义及模糊处理。知识库以句类知识的表达为中心,以概念层次网络符号体系表达语义。该方法简洁高效,并可以大大地减少对存储空间的要求。

著录项

  • 公开/公告号CN1236138A

    专利类型发明专利

  • 公开/公告日1999-11-24

    原文格式PDF

  • 申请/专利权人 中国科学院声学研究所;

    申请/专利号CN98101921.8

  • 申请日1998-05-18

  • 分类号G06F17/20;G10L9/02;

  • 代理机构北京万科园专利事务所;

  • 代理人张亚军;曹诗健

  • 地址 100080 北京市海淀区中关村路17号

  • 入库时间 2023-12-17 13:33:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2011-07-20

    未缴年费专利权终止 IPC(主分类):G06F17/20 授权公告日:20040310 终止日期:20100518 申请日:19980518

    专利权的终止

  • 2004-03-10

    授权

    授权

  • 2000-04-05

    实质审查请求的生效

    实质审查请求的生效

  • 1999-11-24

    公开

    公开

说明书

本发明涉及一种计算机自然语言处理方法,更具体地说,涉及一种模拟人脑对自然语言语句感知过程的计算机分析方法。

自40年代计算机诞生起,就不断有人尝试使用计算机对人类惯常的自然语言进行分析和处理,以下是几种主要方法。

乔姆斯基(N.Chomsky)在本世纪50年代提出了转换生成语法(Transformational Generative Grammar),形成了转换生成语法的句法分析方法。乔姆斯基在转换生成语法中提出语言中存在着深层结构,但他并没有解决深层结构如何表示以及深层结构有多少种、自然语言中的深层结构是有限还是无限的问题。因此尽管乔姆斯基的转换生成语法是基于语句生成十分严格的过程,但对于人类自然形成的极为复杂的语言现象,转换生成语法及其句法分析方法还没有具备足够的能力去处理自然语言问题。此外,由于深层结构并没有在处理过程中发挥作用,过强的生成能力也使转换生成语法的句法分析很不成功。

随着研究的深入,逐步形成了一批便于计算机实现的自然语言处理的语法理论。主要包括以扩充转换(ATN)语法、系统功能语法和各种短语结构语法等为指导的句法分析方法。这些方法在计算机实现的方便性上比转换生成语法大大加强,但它们都放弃了追求对语言深层结构的分析,而自然语言的分析问题,不仅仅是一个语法的问题。因此,这些方法不能很好地解决计算机自然语言分析问题是显而易见的。

短语结构语法的进一步发展,已经认识到需要多方面地利用自然语言中蕴含的知识才能获得较好的分析结果。近年来,以短语结构语法为基础,引入复杂特征集的知识表示方法和合一运算的算法,形成了词汇功能语法(Lexical Functional Grammar,简称LFG)、功能合一语法(FunctionalUnification Grammar,简称FUG)、广义短语结构语法(GeneralizedPhrase Structure Grammar,简称CPSG)和核驱动短语结构语法(Head-Driben Phrase Structure Grammar,简称GPSG)。这些方法有些涉及到语义深层分析,但由于缺乏整体的概念表述体系,同时它们也没有真正发现并使用自然语言的深层语义结构,仍然使用语法结构,将语义处理作为语法分析的补充。因而并不能彻底解决使用语法分析自然语言所遇到的问题。

在语法处理方法占主导地位的同时,也出现了紧密依赖语义的分析处理方法。它们是菲尔摩(Fillmore)提出的格语法(Case Grammar)和杉克(Schank)提出的概念从属理论(Conceptual Dependency)。格语法虽然在探索和追求深层语义结构上作出了一定贡献,但它最终也没有形成一个完整的体系,对于诸如自然语言中有多少个格无法回答。甚至连自然语言中的格是有限的还是无限的,这样一个基本问题,也无法定论。而概念从属理论则在缺乏完整概念表述体系和深层语义结构等基础时,就深入到对自然语言中的常识和专业知识的理解,使得它犹如建立在沙滩上的大厦,无法真正承担自然语言处理的重任。以概念从属理论为基础的处理方法,一开始就陷入了知识的海洋而不能自拔。这导致了概念从属理论的处理方法面对无限的自然语言现象,总是处于一种需要加入知识的阶段,无法进入实用。

目前计算机的应用几乎无所不在,软件产业将成为21世纪的主导产业,这标志着信息时代已经来临。面对信息和知识的主要载体--自然语言,计算机迫切需要具有处理自然语言语义知识的功能。因此首先要建立便于计算机操作的自然语言语句分析方法,使计算机能够较好地掌握自然语言的深层语义结构。

本发明的目的是提供一种完整的、面向各种自然语言的、模拟人的大脑语言感知过程的计算机自然语言语句分析方法。

一种模拟大脑语言感知过程的自然语言语句分析方法,其特征在于:该方法包括句类分析法和概念层次网络语言层面知识库,其中,句类分析法根据对自然语言语句的综合,归纳和演绎分成7个基本句类及57个子类,对每一个基本句类及其子类,以语义块物理表示式为语义单元,给出相应的语句物理表示式,这些表示式有标准、规范、违例和省略4种基本格式;每种基本格式又有相应的、数学上可穷尽列举的不同格式。

概念层次网络语言层面知识库的表述步骤如下:

(1)知识库对词汇所属的句类,以句类代码形式给出;

(2)对于词汇形成句子时,语义块的各种实际排列顺序以格式代码的形式表达;

(3)给出词汇形成句子时语义块的构成知识和构成语义块各部分优先概念的知识;

(4)给出词汇形成语义块时语义块的分离及变换知识;

(5)给出词汇在构成句子时充当的语义角色知识;

(6)给出词汇引发的语境知识;

(7)给出词汇引发的句类转换知识;

(8)给出词汇引发的某些语义块扩展为语句的知识。

句类分析的具体处理步骤如下:

(1)对输入的句子,进行词库匹配,切分出句子中遇到的词,从知识库中取得这些词汇的语义知识;

(2)根据概念类别信息的指示,以语义块区分指示符10类概念和动词v概念为依据,形成语义块雏形,形成E假设;

(3)如果未能形成E假设,转向(9);否则,继续;

(4)对全部E假设进行筛选和排队,主要利用的信息为:句类代码,格式代码和词频及语境知识;

(5)按照入选E假设的排序,依次进行句类检验;主要利用的信息为:语义块核心的概念优选性知识;如果全部检验失败,转向(11);否则继续;

(6)进行语义块构成检验;主要利用的信息为:语义块构成知识和构成语义块各部分优先概念的知识;如果全部检验失败,转向(11);否则继续;

(7)在必要时进行句类转换检验,主要利用的信息为:词汇引发的句类转换知识;如果全部检验失败,转向(11);否则转向(12);

(8)在必要时进行语义块分离检验,主要利用的信息为:语义块分离及变换知识;如果全部失败则转(11),否则转向(10);

(9)进行无E语义块句类检验;如果失败继续;否则转向(12);

(10)重作E假设,成功转向(4),否则,转向(11);

(11)人机交互;

(12)搜集语境素材,处理结束。

本发明是模拟人的大脑语言感知过程的计算机自然语言语句分析方法。人在感知自然语言的过程中,综合运用概念层面、语言层面和常识专业层面的知识;其中概念层面和语言层面的知识是人类进行感知处理的关键。概念层面的知识是与语种无关的,人类共用的处理自然语言的知识,语言层面知识是指那些在感知过程中与语种有关的知识。在概念层面,本发明以整个自然语言为对象,完整地划分了句类,给出了自然语言的句类表示式和格式变换表,建立了自然语言语句的深层语义结构。

句类这个概念在传统语法中是指陈述句、祈使句、疑问句和感叹句,主要是句子的语用分类,而本发明的句类是指句子的语义类别。本发明将语句按语义划分成7个基本句类:作用句、过程句、转移句、效应句、关系句、状态句和判断句。

语义块是句子的语义构成单位,形式上可以是一个词、短语或句子。提出语义块概念是为了便于从语义层面描述句子。根据语义块与句类的依赖性强弱,将语义块分成主语义块和辅语义块。主语义块强依赖于句类,辅语义块弱依赖于句类。辅语义块分成7种:条件、手段、工具、途径、参照、因、果。从共性特征可以将主语义块分成:特征语义块,作用者,对象和内容。语义块的个性特征是它的句类属性。语义块的共性和个性两个侧面应视为语句二维空间的两个正交基底。因此,语义块的一般物理表示式为:

SK=“个性+共性”=“句类信息+语义块类型信息”    (1)上式表明了语义块是句类的函数。语句所属的句类,由它的特征语义块决定。当句子的特征语义块包含两个基本句类的特征时,构成混合句类;当句子中用两个或多个特征语义块表述两个或多个基本句类的特征时,构成复合句类。

为了使计算机能够运用这些知识,必须以符号的形式将这些信息表达出来,并形成知识库。在概念层面需要给出句类的表示式和格式的变换表;在语言层面,需要针对具体语言的词汇,给出以句类为主线的知识。下面具体介绍两类知识库的建设。

四种主语义块基元的符号表示为:特征E、作用者A、对象B和内容C;7种辅语义块为:条件Cn(Condition)、手段Ms(Means)、工具In(Instrument)、途径Wy(Way)、参照Re(Refer)、因Pr(Premise)、果Rt(Result)。基本句类的符号表示为:作用X、过程P、转移T、效应Y、关系R、状态S和判断D。主语义块的精确表示时,将(1)式中的两类信息都用大写字母和数字的串接形式来表达。句类信息项中,字母代表基本句类,数字代表子类;语义块类型信息项中,字母代表语义块类型,数字代表类型的子类。仅含句类信息的语义块命名为特征语义块记为E;同时含有句类信息和语义块类型信息的语义块命名为广义对象语义块,记为JK。

例如,X2、X2B、XAC、X2C分别表示反应句(作用句子类之一)的反应、反应者、反应引发者及其表现、反应者的后续表现等4种语义块,这里,X2是E块,其它都是广义对象语义块。又例如,TB、TC是转移句的对象和内容,而信息转移句(转移句子类之一)的对象和内容分别记为T3B、T3C,关系的双方分别记为RB1、RB2,等等。

语句的一般数学表示式J可写成: > >J>>n>+>1> >=>JK>1>+>E>+>>Σ>>j>=>2>>n>>JKj>->->->>(>2>)>>>s>

JK1称为1号广义对象语义块,其余类推。表示式(2)并未限定JK的个数,但对于基本句类,实际的自然语言只需要考虑JK个数为1,2,3的情况,它们分别相应于两主块句、三主块句和四主块句。

对于四主块句,JK2一定以对象B为主体,JK3一定以内容C为主体,对于三主块句,B或C都可以充当JK的主体。对于两主块句,可以没有E,但这时JK2必须以C为主体,汉语的状态句经常出现这种情况。

将(2)式中的E和JK用语义块物理表示式代替,即构成语句的物理表示式。这些物理表示式是语句深层结构的语义表述。本发明给出了57个基本句类及其子类的句类表示式。混合句类的句类表示式,可以由基本句类表示式推知,而不必单独建库。

四种格式变换类型解释如下:

标准格式的特征是:主块按语言的自然逻辑顺序排列。句类表示式库中语义块的顺序就以此格式表示。

规范格式的特征是:主块的排列顺序违反了语言的自然逻辑排列顺序,因而偏离了标准格式,但在广义对象语义块之间一定要加指示标记。对三主块句,规范格式有4种。对四主块句,规范格式有23种。

违例格式的特征是:在广义对象语义块之间部分或全部省略指示标记。对三主块句,违例格式有4种。对四主块句,违例格式有47种。

省略格式是指句中省略某一个语义块。

语言知识库,就是针对具体语言中的词汇,描述它的语义和句类知识。本发明使用概念层次网络符号体系表述这些知识,因此,该语言知识库又称概念层次网络知识库。具体地讲,就是从以下几个方面提供分析语句的知识,为了便于理解,以汉语为例作了说明:

1.语义知识。用自然语言的概念表述体系给出。自然语言中的概念有概念基元和复合概念两类,概念基元,指其语义可以用附图1给出的语义网络节点的定义直接表达的概念;复合概念,指无法直接用语义网络节点表达,需要经过组合才能表达语义的概念。概念基元的语义表示式为:

F=∑(字母串)(数字串)    (3)

F代表概念基元的符号表示。字母串采用小写字母,数字串采用16进制数字0-f。由五元组{v(概念的动态),g(概念的静态),u(概念的属性),z(概念的值),r(概念的效应)}、具体概念类别{p(人),w(物)}、综合概念类别{e(介于基元、基本和理解概念之间的综合类),x(物性)}和语义网络符号{Φ(基元概念语义网络),j(基本概念语义网络),l(语言逻辑概念语义网络),jl(基本逻辑概念语义网络),jw(基本物质概念语义网络))构成字母串。由于基元概念的量最大,在书写时省略不写出Φ。数字串即层次符号。

复合概念的语义表示为:F=∑F(K)    (4)

F(K)即是(3)式的F,它们之间通过:

作用#                 效应符号$

对象&                 内容符号|

逻辑并、选,;        逻辑组合(,L,)

偏正/                 主谓    ‖

非    !              反       ^

优先组合()            挂靠     +组合符号连接。

2.概念类别。词汇所表达的概念外在的表现,即内容1中的字母串。当词汇表达的是概念基元时,这个符号与语义知识(见1)项的字母串相同;当词汇表达的是复合概念时,此项表示组合后词汇的外在表现,可能与构成组合的各概念基元的类别符号不同。此项描述了词汇的完整外在表现。直接给出概念类别,便于计算机首先使用类别知识进行分析处理。

3.词频及语境。本发明将这项知识以0-b的十六进制数字表达,根据词语的语义使用情况进行评价。各数字的定义为:0极高频;1常用;2专业常用;3非常用;4口语;5方言;6古用;7近代;8罕用;9专业非常用;a极罕用;b专业罕用。

4.句类代码。当词汇有明确句类信息时,以代码的形式填写句类的信息,此项主要针对能够充当E语义块核心部分的动词v概念填写。基本句类对应的句类代码如附图2所示。混合句类(自然语言中的混合句类,绝大多数是两两混合,因此本发明的知识混合句类即指两两混合的混合句类)的代码,本发明作了约定:以E1E2*kmn的形式表达。E1,E2是基本句类的句类代码,分别表示两个混合的基本句类;k表示非E语义块的总个数,m表示从E1基本句类中第一个语义块开始,不包括E语义块,取出的语义块个数,n表示从第二个基本句类E2中取出的语义块的起始序号,当n=m+1时,n可以不写。如:有句类T3J=TA+T3+TB+TC和XJ=A+X+B,T3X*21的句类格式为TA+T3X+B,XT3*21为A+XT3+TB,XT3*213为A+XT3+TC。知识库中的填写情况,参阅附图4的“自由”。对引起复合句类的词汇,以E1*E2的形式,填写句类信息。E1、E2均为基本句类的句类代码。在分析时,可以根据E1和E2的指示,从概念层面句类表示式知识库中取出两个句类的格式知识。

5.格式变换知识。当“句类代码”有效时,以代码的形式给出该词组成句子时经常采用的格式。根据这个指示,可以从概念层面的格式变换知识库中得到具体的格式。如:句类代码中有XJ,在格式变换知识中有112,则表示经常采用的B+A+X的形式构成句子。当有多个格式的时候,用[1][2]……的形式标号,以便在下面各项中对应表示不同格式下的不同情况。如组成句子时经常采用标准格式和规范格式,该项可以不填。

为了表达的需要,一个句类经常转换成另一个句类表达,但语义关联的信息仍然是转换以前的,这一现象本发明称为句类转换。对句类转换,本发明也给出了表述方法。对会发生转换的v概念,在知识库的“句类格式”中填写(E1,E2)J,其中E1为该v概念构成E语义块时经常采用的句类,也可以认为是正常的、原来的句类,E2表示发生转换后,转换采用的句类。参阅附图4的“掠夺”。对引起转换的v概念,填写E1J<=E2J,E1J表示转换到的句类,E2J表示从哪种句类转换来的。如:“爱戴”,它的一项知识为(X20,X10)J,表示它可以由原来的反应句转换成承受句:“受到”这个词有一项知识是X10J<=X20J,表示它可以引导反应句转换成承受句:对于“爱戴”,可以有句子“我们爱戴周总理”,这个句子可用以“受到”引导的转换表示--“周总理受到我们的爱戴”。

6.语义块的构成知识及各构成部分的优先概念,工作单中以@S代表。当“句类代码”有效时,句类格式中的JK语义块如有构成知识,用“=”和“+”填写在这一项中;如构成语义块的各部分有优先概念知识,用“:”表示,也填在这一项中。如:对XJ,它的B语义块由YB和YC构成,写成B=YB+YC;其中如YB经常是“物”,也在此项中写,写成YB:w(w即是前述的概念类别符号,表示“物”)。有些v概念构成的句子,经常要求一个句子成为其某个语义块,如果词汇有这个知识,就在知识库中此项以JK=J和JK:=J分别表示某一语义块JK必须扩展成为句子或可能扩展成为句子。如:“认为”,在此项中就需要填写DC=J,表示DC语义块一定扩展成为句子。

一个语义块或语义块的构成部分可以从内涵上分成对象(B)和内容(C)两个部分,也可以从形式上分成前(Q)、后(H)两部分。对于这种构成属于约定,无需再显式地写出表达式,只需在某个语义块或构成部分后加上上述四个字母(B,C,Q,H)给出其优先概念,就表示这种构成存在,同时也说明某部分的优先概念。

构成句子的语义块会发生分离,即为了语句表达的需要,将深一个语义块分到两个地方表达。本发明的知识库对于这种语言现象也给出了明确的表述方式,分别以“[]”和“[()]”,表示语义块可能分离和语义块一定分离出去的部分。如:“打断”,在此项中就有“B=XB+[YB]”,说明它的B语义块可能分离,例句如“李四被张三打断了腿。”,句中将“李四的腿”这个语义块的一部分“腿”分离了出去如果按不分离的情况,此句应是“李四的腿被打断了”。

7.该词汇构成语义块时的知识,以@K表示。对非v概念,填写该词汇构成语义块时需要的搭配知识。建库时,为了方便地体现语用上的差别,可采用直接以“|:”给出汉字的形式,并用Q和H分别表示属于前搭配还是后搭配。如“签名”,在此项中填{ug,H|:运动},表示“签名”作为ug类概念使用时,经常采用“运动”作为后搭配。对v概念,此项也给出该词构成E语义块时经常连用的动词。对v概念,如果构成E语义块时有分离现象,也在此项表达,表达方法与“语义块的构成知识及各构成部分的优先概念”项一致。

当该词汇可以构成一个语义块的一部分时,用FK表示。FK也破在如第6点所述的自然分解(B,C,Q,H),其约定相同。参阅附图4的“自由”。该词汇优先充当的部分在第8点中说明。

8.词汇经常充当的语义角色,以@CA代表。当词汇经常出现在某一或某些句类,并经常充当某个语义块时,以语义块名称的形式,填写在此项中。如:“聪明”,经常充当状态句的SC语义块,在此项中填写“SC”。v概念充当E语义块,这一信息属于约定,不属于此项的填写内容。但当v概念构成E语义块的一部分时,需明确填出。参阅附图4的“掠夺”。

9.语境知识,以@CT表示。该词汇本身提供的语境知识,即语句间的联想知识。用辅语义块的名称和概念表述符号填写。如“地震”,它的语境知识是造成灾难性后果,在该词的这一项填写:Rt:r322。

与现有技术相比较,本发明具有下述优点:

本发明模拟人脑对自然语言的感知机制建立了自然语言语句的深层语义结构--句类,并以此为中心建设知识库和语句分析处理方法,形成了句类分析技术。该技术将概念的表达与自然语言语句深层语义结构紧密有机地结合起来,完整地描绘了自然语言语句深层语义结构,形成了以句类分析为主线的自然语言处理方法。同时,本发明对自然语言的处理是使用分层次的、并使计算机掌握深层语义结构的方法。

分析处理得到的结果,即是机器翻译中对源语言的分析结果,如果配以目标语言的生成处理,即可构成机器翻译系统。对汉语而言,由于存在一音多字和一字多音的现象,使用上述处理步骤,可以较好地解决“音到字”和“字到音”的转换问题。

本发明穷尽了自然语言语句的深层语义结构,形成完备的语句深层语义结构体系。因此也较好地解决了现有技术由于深层语义结构不完备而引起的问题。

知识库以句类知识的表达为中心,以概念分类符号体系表达语义,比使用复杂特征集,直接用自然语言表达语义的方法,简洁高效。知识库紧密围绕自然语言的深层语义结构,采用编码的方式表达深层语义结构,可以大大减少对存储空间的要求。

本发明的上述和其它的特征以及优点通过以下对如附图所示的、本发明的优选实施例的更加详细的描述将变得十分清楚。

图1为本发明的概念节点表述图。

图2为本发明的句类表示式表述图。

图3为本发明的格式变换表述图。

图4为本发明的知识库填写样单图。

为了完成拼音转换汉字,首先需要建立如本发明前述的汉语词汇知识库(包括单字词)。其次需要按照本发明前述处理方法形成使用知识库对输入拼音流进行处理的软件。为了便于说明,下面重点以拼音“wei ji”下对应的词汇“微机,危机,危及,伟绩”为例进行说明。“了”是指定输入的字,以“1”输入。

实施例1:zi ran zai hai wei ji l nong ye sheng chan.(输入的拼音流)

        自然*   灾害    危机*     农业      生产*

                                       野生

拼音下的汉字是词库匹配的结果,*表示对应有多个词,即有模糊集。对应的多个词为:自然{自燃},危机{微机危及伟绩},生产{盛产)。为了表达的方便,这里给出本句所涉及的词汇的概念类别和用本发明概念表示体系给出的语义,而省略知识库中的其他项。多个语义以“;”分割。

自然rw508:ru307+(g711;gva32);(u51;u65311;u65232)+ju600;jluv13c43

自燃v009+u305

灾害r322

危机r53322

微机pw+jv30

危及v53322;v53322+v341

伟绩rc30al

农业ga21

野生u5508

生产(va21;v660)+v3119

盛产v311;rw311

经过软件处理,计算机可以得到以下结果:

句类XS*22;A:自然灾害;B:农业生产;XS:危及。

最终,计算机可以给出音字转换的结果:自然灾害危及了农业生产。

实施例2:wo guo bang zhu ya zhou guo jia du guo jing rong

         我国    帮助    亚洲      国家度过*      金融

             过磅wei ji危机*

新模糊集有:度过{渡过}。语义:

            我国pj2+g4001-

            过磅jvz518

            帮助v9431

            亚洲fwj2

            国家pj2

            度过v50010

            渡过v229

            金融ga24

经过软件处理,计算机可以得到以下结果:

句类R311X*21;RB1:我国;B:亚洲国家度过金融危机(块扩);RX:帮助。

最终,计算机可以给出音字转换的结果:我国帮助亚洲国家度过金融危机。

实施例3:wo men xiu li l zhe tai wei ji.

      句中遇到的新词汇:

          我们p4001-

          修理v65351a

          秀丽u51+j831

          这台1914005

经过软件处理,计算机可以得到以下结果:

句类X;A:我们;B:这台微机;X:修理。

最终,计算机可以给出音字转换的结果:我们修理了这台微机。

实施例4:deng xiao ping tong zhi kai l l ge wan xiao

新词汇:

      人民 p-+ga101

      民歌(pj01*+gc402)/gwa32

      歌颂(v7115,12,ra32u)

      他的192+p4003-0+pj711

      她的192+p4003-0+pj712

      丰功伟绩rc30a1+jzr41c44

      恭维(v7117u,v9711u)+j862

      拱卫vc3219+jv4212

经过软件处理,计算机可以得到以下结果:

句类X20;X2B:人民;XBC:他的丰功伟绩;X2歌颂。

最终,计算机可以给出音字转换的结果:人民歌颂他(她)的丰功伟绩。(此例中“他”与“她”不能区分。)

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号