首页> 中国专利> 对自然语言内容中的信息含量进行定量估算的系统和方法

对自然语言内容中的信息含量进行定量估算的系统和方法

摘要

本发明公开了一种对自然语言内容中有关某个主题或客体的信息量进行定量估算的方法。该方法包括识别文件中的句子,确定句子中的主语和谓语,和提取与客体名称有关的特定客体数据集。所述特定客体数据集包括属性名称和关联强度值。每一属性名称和关联强度值相关联。该方法也包括识别属性名称中和主语匹配的第一属性名称,将和第一属性名称相关联的第一关联强度值赋予所述主语,识别属性名称中和谓语匹配的第二属性名称,将和第二属性名称相关联的第二关联强度值赋予所述谓语,和将所述第一关联强度值和第二关联强度值相乘得到句子信息量指数。

著录项

  • 公开/公告号CN101814067A

    专利类型发明专利

  • 公开/公告日2010-08-25

    原文格式PDF

  • 申请/专利权人 张光盛;

    申请/专利号CN201010000239.0

  • 发明设计人 张光盛;

    申请日2010-01-05

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构北京君尚知识产权代理事务所(普通合伙);

  • 代理人余长江

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 00:35:33

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-11-26

    授权

    授权

  • 2012-01-11

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20100105

    实质审查的生效

  • 2010-08-25

    公开

    公开

说明书

技术领域

本申请涉及信息管理,尤其涉及自然语言内容中的信息识别和量化,以及这些内容的分类,排序,搜索,和提取的技术。

背景技术

在信息时代,越来越多的个体和组织面临信息超载的问题。精确和有效的信息处理方法,包括收集,存储,组织,搜索和提取信息的方法,是在这个信息时代成功的关键。

大量的信息包含在自然语言内容中,比如文本文件中。为了有效地组织并确定自然语言内容中的信息的相关性,已有多种理论和实践尝试。然而,现有技术,包括各种搜索引擎和文件分类系统,在识别内容中的信息焦点时经常不精确,因此经常不能有效地满足其用户的信息需求。对于根据语言内容的含义和它们含有的信息量而对大量的自然语言内容进行搜索、排序、和分类的精确、有效且自动化的技术仍存在需求。

发明内容

本发明的目的在于克服现有技术中存在的问题,提供一种对自然语言内容中的信息含量进行定量估算的系统和方法。

本申请是发明人于2009年1月7日提出的题为“System and Methods for QuantitativeAssessment of Information in Natural Language Contents”的美国临时专利申请US 61/143,140的继续专利申请,并要求该临时专利申请的优先权;本申请也是发明人于2009年10月4日提出的题为“System and Methods for Quantitative Assessment of Information in NaturalLanguage Contents”的美国正式专利申请US 12/573,134的中文对应申请,在此均以引用的方式将其公开内容并入。

一方面,本发明涉及对自然语言内容中的信息进行定量估算的方法。该方法包括通过计算机处理系统获取客体名称,通过计算机处理系统获取含有自然语言文本的文件,通过计算机处理系统识别文件中的句子,通过计算机处理系统确定句子中的主语和谓语,从计算机存储系统提取和客体名称相关的特定客体数据集,其中特定客体数据集包括多个属性名称和关联强度值,每一属性名称和关联强度值相关联,识别所述多个属性名称中和所述主语匹配的第一属性名称,将和第一属性名称相关联的第一关联强度值赋予所述主语,识别所述多个属性名称中和所述谓语匹配的第二属性名称,将和第二属性名称相关联的第二关联强度值赋予所述谓语,以及通过计算机处理系统将所述第一关联强度值和第二关联强度值相乘以产生句子信息量指数,作为句子中含有的关于客体或客体名称的信息量的定量度量。

另一方面,本发明涉及根据搜索语句而寻找与之相关的自然语言文件的方法。该方法包括通过计算机处理系统获取和客体名称有关的搜索询问语句,通过计算机处理系统获取多个文件,每一文件含有自然语言文本,从计算机存储系统提取和客体名称相关的特定客体数据集,其中特定客体数据集包括多个属性名称和关联强度值,每一属性名称和关联强度值相关联,计算所述多个文件中的每一个的文件信息量指数,其中所述文件信息量指数是文件中含有的关于客体或客体名称的信息量的定量度量,以及通过各个文件信息量指数对所述多个文件进行排序以产生和搜索语句相应的搜索结果。计算文件信息量指数的步骤可包括:通过计算机处理系统识别文件中的句子,通过计算机处理系统确定句子中的主语和谓语,在所述特定客体数据集的多个属性名称中识别和所述主语匹配的第一属性名称,将和第一属性名称相关联的第一关联强度值赋予所述主语,在所述特定客体数据集的多个属性名称中识别和所述谓语匹配的第二属性名称,将和第二属性名称相关联的第二关联强度值赋予所述谓语,将所述第一关联强度值和第二关联强度值相乘以产生句子信息量指数,以及使用所述句子信息量指数计算文件信息量指数。

另一方面,本发明涉及对自然语言文本文件进行分类的方法。该方法可包括:通过计算机处理系统获取用于分类文件的客体名称或类别名称,通过计算机处理系统获取多个文件,每一文件含有自然语言文本,从计算机存储系统提取和客体名称相关的特定客体数据集,其中特定客体数据集包括多个属性名称和关联强度值,每一属性名称和关联强度值相关联,计算所述多个文件中的每一个的文件信息量指数,其中所述文件信息量指数是文件中含有的关于客体或客体名称的信息量的定量度量,使用各个文件信息量指数从所述多个文件中选择和客体名称有关的一个或多个文件,以及将所述一个或多个文件赋予和所述客体名称相关的文件类别。计算文件信息量指数的步骤可包括:通过计算机处理系统识别文件中的句子,通过计算机处理系统确定句子中的主语和谓语,在所述特定客体数据集的多个属性名称中识别和所述主语匹配的第一属性名称,将和第一属性名称相关联的第一关联强度值赋予所述主语,在所述特定客体数据集的多个属性名称中识别和所述谓语匹配的第二属性名称,将和第二属性名称相关联的第二关联强度值赋予所述谓语,将所述第一关联强度值和第二关联强度值相乘以产生句子信息量指数,以及使用所述句子信息量指数计算文件信息量指数。

另一方面,本发明涉及定量估算词组中和客体名称相关的信息的方法。该方法可包括:通过计算机处理系统获取客体名称,通过计算机处理系统获取自然语言的词组,通过计算机处理系统识别词组中的核心词,通过计算机处理系统识别词组中的核心词的修饰词,从计算机存储系统提取和客体名称相关的特定客体数据集,其中特定客体数据集包括多个属性名称和关联强度值,每一属性名称和关联强度值相关联,识别所述多个属性名称中匹配所述核心词的第一属性名称,将和第一属性名称相关联的第一关联强度值赋予所述核心词,识别所述多个属性名称中匹配所述核心词的修饰词的第二属性名称,将和第二属性名称相关联的第二关联强度值赋予修饰词,和通过计算机处理系统将所述第一关联强度值和第二关联强度值相乘以产生词组信息量指数,作为词组中含有的关于客体或客体名称的信息量的定量度量。

另一方面,本发明涉及定量估算文本内容中和客体名称相关的信息的方法。该方法可包括:通过计算机处理系统获取客体名称,从计算机存储系统提取和客体名称相关的特定客体数据集,其中特定客体数据集包括多个属性名称和关联强度值,每一属性名称和关联强度值相关联,通过计算机处理系统获取自然语言的文本内容,识别文本内容中的句子,通过计算机处理系统识别所述句子中的多个组份子字符串,在所述多个属性名称中搜索匹配所述组份子字符串中的至少一个的属性名称,将和属性名称相关联的关联强度值赋予所述一个组份子字符串,通过计算机处理系统对赋予句子中的组份子字符串的关联强度值取平均值以产生句子信息量指数,以及使用所述句子信息量指数计算文本内容的信息量指数,其中所述信息量指数是所述文本内容中含有的关于客体或客体名称的信息量的定量度量。

另一方面,本发明涉及对自然语言内容中的信息进行定量估算的系统。该系统可包括:可获取客体名称和含有自然语言文本的文件的计算机处理系统,和与所述计算机处理系统通讯且设置为存储和所述客体名称相关的特定客体数据集的计算机存储系统,其中所述特定客体数据集包括多个属性名称和关联强度值,每一属性名称和关联强度值相关联。计算机处理系统可识别文件中的句子,确定句子中的主语和谓语,识别所述多个属性名称中和所述主语匹配的第一属性名称,将和第一属性名称相关联的第一关联强度值赋予所述主语,识别所述多个属性名称中和所述谓语匹配的第二属性名称,将和第二属性名称相关联的第二关联强度值赋予所述谓语,以及将所述第一关联强度值和第二关联强度值相乘以产生句子信息量指数,该句子信息量指数用作对句子中含有的关于客体或客体名称的信息量的定量度量。

另一方面,本发明涉及含有计算机可用介质和嵌入所述介质的计算机可读程序代码功能的计算机程序产品,它使计算机获取客体名称和含有自然语言文本的文件,识别文件中的句子,确定句子中的主语和谓语,从计算机存储系统提取和客体名称相关的特定客体数据集,其中特定客体数据集包括多个属性名称和关联强度值,每一属性名称和关联强度值相关联,识别所述多个属性名称中和所述主语匹配的第一属性名称,将和第一属性名称相关联的第一关联强度值赋予所述主语,识别所述多个属性名称中和所述谓语匹配的第二属性名称,将和第二属性名称相关联的第二关联强度值赋予所述谓语,以及将所述第一关联强度值和第二关联强度值相乘以产生句子信息量指数,作为句子中含有的关于客体或客体名称的信息量的定量度量。

所述系统的实施可包括下列一项或多项。所述方法还可包括使用所述句子信息量指数计算文件信息量指数,其中所述文件信息量指数是文件中含有的关于客体或客体名称的信息量的定量度量。计算所述文件信息量指数的步骤可包括:计算文件中多个句子的句子信息量指数,其中所述句子信息量指数对客体或客体名称是特定的,以及用句子信息量指数的函数的方式计算文件信息量指数。计算所述文件信息量指数的步骤可包括将句子信息量指数相加以产生文件信息量指数。所述方法还可包括通过计算机处理系统获取关于客体名称的搜索语句,计算多个文件的文件信息量指数,其中每一个文件信息量指数是文件中含有的关于客体或客体名称的信息量的定量度量,以及通过各个文件信息量指数对所述多个文件进行排序以产生和搜索语句相应的搜索结果。所述方法还可包括通过计算机处理系统获取客体名称以对文件进行分类,计算多个文件的文件信息量指数,其中每一个文件信息量指数是文件中含有的关于客体或客体名称的信息量的定量度量,为所述客体名称确定用于文件分类的阈值,以及通过将各个文件信息量指数和所述阈值相比较从所述多个文件选择和所述客体名称相关的一个或多个文件。所述方法还可包括当和主语或谓语匹配的属性名称未在所述特定客体数据集中的多个属性名称中被识别时将零值赋予句子信息量指数。所述主语或谓语可包括单字,字串,词组,或嵌入从句。识别文件中的句子的步骤可包括通过计算机处理系统识别文件中的复杂句,将复杂句分解成一个或多个简单句,其中每一简单句中的主语和谓语通过计算机处理系统识别,计算所述一个或多个简单句的句子信息量指数,以及使用所述一个或多个简单句的句子信息量指数计算复杂句的句子信息量指数。句子中的主语和谓语可通过计算机处理系统使用句法分析器确定。所述客体名称可包括字,字序列,词组,字符串,搜索语句,搜索语句的子组份,主题,或文件类别的名称。

本申请描述的系统和方法可按照和内容中所携带的意义和信息相一致的方式为搜索,提取,排序,和分类自然语言内容提供精确,定量,和自动化的技术。所公开的系统和方法基于新的理论框架,和常规方法不同。所公开的系统和方法可估算自然语言内容(主要是以存储在计算机可读介质上的文本文件的形式)中的信息量。所公开的系统和方法可为每一文本文件产生特定于该文件的数值,作为对文件中含有的信息量的度量。所公开的系统和方法也可产生关于文件和给定的搜索语句、主题、或概念的相关度的定量度量。

所公开的系统和方法可显著改进信息搜寻和检索的精确性和相关性排序。所公开的系统和方法可显著改进文件分类的精确度。所公开的系统和方法可为自然语言理解,机器翻译,和语音识别中消除语义歧义提供上下文信息。

尽管本发明是参照多个特定的实施方案来描述的,但本领域技术人员理解,在不脱离本发明实质和范围的情况下可对本发明作多种形式和细节上的改变。

附图说明

下列附图说明本发明的实施方案,并入说明书并作为说明书的一部分,并和说明书一起用于说明本发明原理。

图1说明一个客体,客体的属性,以及这些属性和客体相关联的关联强度的一个实例。

图2是根据本发明的示例性系统图形。

图3说明图2中针对指定客体对指定文件中的信息进行定量估算的详细步骤。

图4说明对词组和句子中的信息进行定量估算的另一示例性方法。

图5说明对文本内容中的信息进行定量估算的另一示例性方法。

具体实施方式

人类的知识,或者说人类知识的某些方面,可以用各种不同的方式来表达。内在的知识表达方式,是人类大脑的功能之一,而外部的,或者说人工的表达方式,如“框架结构表达式”和“语义网络”等,则是对这类内在知识的某些方面进行模拟的模型表达。

本发明建立在由发明人所创建的一个新型的用于表达人类知识和语言信息的模型之上。该模型称之为“客体与属性的关联模型”(Object-Properties Association Model,以下简称为OPAM)。该模型认为,人类知识的一部分是由众多关于物体及其属性的概念所构成的。所有物体均可称之为客体。每个客体都有与之相关联的属性,而属性本身也可以是某种客体。所以又可以说,这部分知识也是关于不同客体之间的关系的知识。某些客体被感知为其他客体的属性。某些客体与其他客体以特定的方式相关联,而正是这种特定的关联方式定义了有关这些其他客体的概念。简言之,该模型指出,一个客体,或者说关于某个客体的概念,可以由所有与该客体相关联的属性来独特地加以定义,而每一个这样的属性携带了有关该客体的不同数量的信息。

作为一个例子,参见图1,一个名为“计算机”的客体,由众多的与之关联的属性所表达,这些属性包括“中央处理器”,“主板”,“内存”,“硬盘”,“操作系统”,等等。客体“计算机”和它的每个属性之间关联的显著程度可以用一个数值来刻画,这个数值在此称为“关联强度”。图中给出了“中央处理器”,“主板”,“内存”,“硬盘”,“操作系统”等属性与客体的关联强度的假设值,分别为0.99,0.90,0.95,0.80,0.98,等等。一个属性的关联强度的值越大,就表示该属性与该客体之间的关联越强。客体“计算机”可以由与之相关联的各种属性和它们的关联强度的值来独特地加以定义。另外,一个属性的关联强度的值与特定的客体有关,通常随不同的客体而不同。例如,“颜色”作为一种属性,对于“花朵”这个客体来说,其关联强度也许是0.8,但是对于“计算机”这样一个客体来说,其关联强度也许只是0.2。

常规的知识表达方式,如“框架结构表达式”和“语义网络”等,关注于表达不同客体之间关系的类型,以及从中所派生的关系,例如,不同客体之间的母客体与子客体之间的树形结构关系。与之相比,本发明所提出的OPAM模型,关注于一个特定客体具体有哪些属性与之关联,以及这些属性的关联强度,或者说,关注于这些属性对于该客体的定义能力。OPAM并不关注于属性与客体之间的关系究竟是何种类型的关系。

在OPAM模型中,一个客体可以是一个物理的或有形的客体,也可以是一个抽象的客体,包括任何概念。一个客体可以由语言中的一个符号名称来表达,例如一个字,或多个字组成的一个词或词组,一个字符串,一个搜索语句,一个主题,或者一个文件类别的名称,等等。顺便说明,由于本发明涉及自然语言,并使用语法术语,诸如“句子”,以及句中的“主语”和“谓语”等,本发明中的“客体”一词,在英语中为“object”,与语法术语中的“宾语”一词无关。在本发明中不使用该词义。

一个客体的各种属性对于该客体可以有不同程度的显著性或关联强度。在OPAM中,属性是客体的“定义特征”,而属性的关联强度则表明某些属性可以比其他属性更具有定义能力。例如,“计算机”这一客体与图1中所列举的多种属性相关联,这些属性包括“中央处理器”,“主板”,“内存”,“机箱”,等等。“中央处理器”这一属性的关联强度为0.99,而“机箱”这一属性的关联强度为0.2。与“机箱”相比,“中央处理器”这一属性对于“计算机”这一客体来说是一个具有更强定义能力的特征。

OPAM模型还指出,诸如此类的客体-属性关系包含在我们的日常语言中。在我们使用的日常语言中存在一个与语法结构相对应的信息结构。以一个简单陈述句为例。一个简单陈述句由两部分构成,即主语和谓语。在语言学中,一个共同的理解是,主语告诉我们该句子的主题是什么,而谓语则告诉我们一些有关主语的情况。在下述简单句子中:

1A:“约翰是一个学生。”

1B:“约翰很聪明。”

“约翰”是两个句子的主语,而“是一个学生”和“很聪明”分别是1A和1B的谓语。

但在本发明所提出的OPAM模型中,主语被认为是代表了一个客体或一个客体的名称,谓语被认为是为句子的主语提供了一条可测量的信息。OPAM模型还指出,人类的语言以下述的基本方式传递信息,即:一个客体具有某些属性,或者,一个客体与某些其它客体相关联,而这些其它客体则是该客体的属性。一个简单陈述句中的常规信息结构是:“客体O具有属性P”,或“客体O与属性P相关联”。抑或表达为O+P,与“主语+谓语”的语法结构相对应。

在本发明中,“简单句”与“简单陈述句”可以互换使用。

简单句1A是一个关于两个客体的陈述。这两个客体分别是“约翰”和“学生”。按照常规的理解,说话者告诉了我们一些有关约翰的情况(他是一个学生)。按照数学的或逻辑的理解,“约翰”这一客体被宣称为是“学生”这一客体类中的一个成员。但按照本发明所提出的OPAM模型的理解,“约翰”这一客体则被认为是具有“学生”这一属性,或与“学生”这一属性相关联。说话者提供了一条关于“约翰”这一客体的信息。简单句1B将“约翰”这一客体与另一个属性(他很聪明)联系在一起,进而提供了有关“约翰”这一客体的另一条信息。

简单句中的这一信息结构,同样存在于复杂句中,以及语法上与之有所区别的复合句中。一个复杂句是一个包含有其他(内嵌式)句子或从句的句子。例如,在复杂句“我知道你很聪明”中,其谓语“知道你很聪明”包含了另一个句子“你很聪明”,而该句子有自己的主语(“你”)和谓语(“很聪明”)。由此可见,复杂句以及其中所包含的简单句,都可以被递归式地降解到“主语+谓语”这一基本结构。

在常规语法中,一个复合句是一个包含有两个或两个以上独立的或非嵌入式的句子或从句的句子。例如,“约翰是一个学生,玛丽是一个教师。”在此句子中,两个从句彼此之间互不包含。在本发明中,“复杂句”可以用于表示复杂句,也可以表示复合句。

一个文档或文件可以包含一个或者多个段落。每个段落可以包含一个或者多个简单句或复杂句。

在给出了简单句中的信息结构为“客体O与属性P相关联”之后,还要指出的是,一个语言内容中可能携带的信息含量还取决于那一个属性与该客体相关联。比较下列句子:

2A:“计算机有一个中央处理器。”

2B:“计算机有一个机箱。”

对于一个具有计算机基础知识的人来说,2A和2B也许并不传递有关计算机这一客体的新的信息。但是。如果有人问:“两个句子中哪一个含有更多有关计算机的信息?”时,他很可能选取2A作为答案。这一例子说明,对于同一个客体和同一个接收信息的人来说,客体的不同属性携带着有关这一客体的不同数量的信息。在这个例子中,对于计算机这个客体来说,“中央处理器”比起“机箱”来,是一个具有更强的定义能力的特征。

与2A相比,“计算机里有一个中央处理器和一个硬盘”这个句子含有更多的关于计算机这一客体的信息。如果一个文件包含两个句子,例如,“计算机里有一个中央处理器。还有一个硬盘。”而另一个文件只包含一个句子,例如,“计算机里有一个中央处理器。”那么,与只包含一个句子的文件相比,包含这两个句子的文件含有更多的关于计算机这一客体的信息。

在OPAM模型中,这个特性被称之为语言内容中信息量的递增规则。本发明通过对文章或文件中每个句子的分析,为在文字内容中对关于某个客体的信息含量进行定量的估算提供了一套系统和方法。对于某个客体来说,每个句子可以携带不同量的信息。

又如以上所述,对于一篇文章或一个文件中信息含量的判断,可能带有主观性,或者说,对信息含量的测量值,可以是相对的,取决于判断者的现有知识状态。在OPAM模型中,这个特性称之为语言内容中信息量的相对性规则。本发明的实施并不要求估算系统具有有关某个客体的预设知识。但在本发明的某些实施方式中,可以假定估算系统具有有关某个客体的预设知识,以此作为一个相对参照标准。在本发明的另一些实施方式中,为了对测量语言内容中的信息含量建立一个绝对标准或客观标准,系统中的预设知识可以设为零值。如此,在一个句中的信息结构为“客体O具有属性P”的简单句中,任何东西,只要它可能是客体O的一个属性,或可以出现在P的位置上,都被假设为潜在地携带了一定含量的有关该客体的信息。

参见图2,一个对自然语言内容中的信息含量进行定量估算的系统200包含有一个计算机处理系统210,一个计算机存储系统220,以及一个用户界面230。计算机处理系统210中含有算法应用程序,后者进一步包括功能模块211-215用于对自然语言内容中的信息含量进行定量估算。计算机处理系统210在具体实施中可以是,但不限于,一个中央处理器,一个特定应用型计算机处理器,一个网络服务器,以及一个计算机处理器的群组。计算机处理系统210可以实施在一个具有计算能力的装置中。例如,一台个人电脑,一台便携式电脑,一个诸如智能型手机或个人数码助理等移动式装置,一个计算机网络系统,其中含有服务器和处理器,能为一个远程服务器或客户机提供信息服务,以及一个云式计算系统。如下文更为详细说明的,计算机存储系统220可以存储输入数据221,文件数据222其中包含一个或多个文件或文档,一个可选的句法分析器223,一个数据库224,以及输出数据225。计算机存储系统220可以实施在各种不同类型的存储媒体中,如基于磁性,光学,或机械属性以及各种纳米材料的媒体,可以包括一个硬盘或一个硬盘组,闪存记忆体,光盘,以及磁带等。用户界面230可以由例如一个安装在计算机上的程序所提供,也可以由一个网络浏览器,或一个用于移动装置的应用程序所提供。

计算机处理系统210中的模块211接收输入数据。输入数据可以来自系统外部,或来自计算机存储系统220中的输入数据221,或来自用户界面230。输入的源可以包括一个来自网络浏览器的搜索语句,或用户在一个用户界面(如230)上键入的搜索文本字符串。输入数据包括一个客体名称和一个文件。客体名称可以是一个单字,多个单字组成的词或词组,一个字符串,或字符串中的一个子字符串。客体可以是一个物理的或有形的物体,也可以是一个抽象的物体。客体名称可以从输入字符串中获得。输入字符串可以是一个单字,多个单字的词或词组,一个字符串,或字符串中的一个子字符串。文件可以是任何文件,只要其中含有某个语言中的文字,例如,一个网页,菜单,一本书,一个电子邮件,一条文字短信,一篇文章,一部词典,一本说明书或手册,等等。模块211可以首先接收一个或多个文件的路径,然后根据这个路径获取一个或多个文件。所获取的文件可以存储在计算机存储系统220中的文件数据222中。

计算机存储系统220可以根据需要包含一个句法分析器223。通常,句法分析器是一个基于规则的程序,在大部分情况下以计算机程序的形式体现。句法分析器接收一个字符串,例如一个句子或句子的等价物,输出一个句中各个组成部分之间之语法关系的结构性描述。各种类型的句法分析器可以从商业的或免费的途径获得,也可以按照用户自选的规则自行构建。句法分析器223可以用于将一个简单句划分为一个主语和一个谓语。正如所知,对于一个句子,句法分析器未必总是能够生成与人类语言使用者的理解相一致的结构性描述。在某些场合,句法分析器或许不会生成任何有意义的结构描述。如以下详述,本发明提供了句法分析器223的替代方法用以处理这种特殊情况。

在本发明中,句子中的主语或谓语可以是一个单字,多个单字的词或词组,或一个内嵌的从句。

在计算机存储系统220中的数据库224中存有众多的客体名称和每个客体的属性的名称,以及每个属性对于客体的关联强度。客体名称,属性名称,以及关联强度可以用表格的形式存储,如图1所示,也可以用其它数据结构的形式存储。在本发明中,属性与一个给定的客体之间的关联强度,被视为是该属性对于该客体所携带的潜在的信息含量的度量。而最终实现的信息的含量,如下文详述,可以取决于该属性词所出现的上下文语境。上述的数据库可以被称之为“知识库”,因为它存储了关于客体和属性之间关联情况的知识。数据库224可用自动方法或半自动的方法构建,也可以用手工输入的方式,或手工和自动并用的方法构建。正如前文所述,一个属性的关联强度取决于特定的客体。有鉴于此,属性的关联强度亦可称之为“取决于客体的关联强度”。

图3展示了图2中模块212-214所执行的具体步骤。在图3中,句法分析器223由模块212(图2)执行,用以分析所指定的文件,生成一个段落和句子的列表(步骤310)。所指定的文件中的复杂句,如果有的话,被转换成简单句,如前所述(步骤302)。对每一个简单句,模块212在其中确定一个主语和一个谓语,然后返回两个经过标记的文字串:主语文字串和谓语文字串(步骤303)。另一方面,模块212从数据库224中获取与该特定的客体名称所关联的特定客体的数据集(步骤304),特定客体的数据集(步骤305)含有众多的属性名称以及相应的对于该特定客体的关联强度值。随后,根据在步骤303中所获得的主语文字串和谓语文字串对特定客体的数据集中的属性名称进行搜索,以确定在此特定客体的数据集中是否有一个属性名称与句中的主语或谓语相匹配(步骤305)。如果找到了与主语或谓语相匹配的属性(步骤307),该主语或谓语词的关联强度值就从特定客体的数据集中提取出来(步骤308)。然后,图2中的模块213将句子中的主语和谓语词的关联强度值相乘,得出该句子的信息量指数(步骤309)。图2中的模块214将在步骤309中所获得的句子的信息量指数累积加到文件的信息量指数(步骤310)。

如前文所述,主语和谓语词的关联强度值是它们所携带的潜在信息含量。步骤309中将主语和谓语词的关联强度值相乘这一数学运算,是在有一个主语和谓语的上下文语境中实现这些潜在信息的方法之一。步骤310中将句子的信息量指数累积相加以生成文件的信息量指数这一数学运算,则是整合前文所述的语言内容中信息含量的递增规则的方法之一。

如果在特定客体的数据集中找不到与主语或谓语相匹配的属性(步骤307),该未匹配的文字串就被进一步分析以确定它是否是一个多字文字串(步骤311)。如果该未匹配的文字串是一个多字文字串,就针对其中每一个组份或子文字串在特定客体的数据集中进行搜索(步骤312)。如果一个子文字串找到了匹配的属性词,该子文字串的关联强度值就从特定客体的数据集中提取出来(步骤312)。如果一个子文字串找不到匹配的属性词,该子文字串的关联强度值就被设置为零(步骤312)。该多字文字串的关联强度值可以通过对其中所有的子文字串的关联强度值取平均值而推算得到(步骤313),也可以通过用句法分析器对其内部结构作进一步分析而得到(步骤420到470)。由此而间接生成的多字文字串的关联强度值可用于计算句子的信息量指数。如果主语或谓语不是一个多字文字串(步骤311),其关联强度值被设为零(步骤314)。这将生成一个零值的句子信息量指数(步骤309)。

步骤306-309和311-314可以从文件中的下一个句子开始重复执行,直到文件中所有句子都处理完毕。如前文所述,语言内容中信息含量遵从累积或递增的规则。最终得到的文件信息量指数是文件中所有句子的信息量指数的总和。模块214将其输出到模块215(图2)(步骤315)。

在某些实施方法中,计算句子的信息量指数可以采用不同的公式,而不是将主语和谓语的关联强度值简单相乘。例如,在将主语和谓语的关联强度值相乘的时候,可以对主语和谓语分别使用不同的系数值,以反映句中主语和谓语在位置上的权重差别。同样,文件信息量指数也未必一定要用文件中句子信息量指数线性相加的方法来生成。文件信息量指数可以用非线性的方式从句子的信息量指数或段落的信息量指数中得出,而段落的信息量指数也可以用非线性的方式从文件中句子的信息量指数中得出。

如前文所述,复杂句是含有其它句子或从句的句子,而每个从句最终都可以降解和表示为“主语+谓语”的简单句形式。由此,简单句中的O+P信息结构同样适用于复杂句中的低层从句上,从而上述用于简单句的方法可以递归式地运用到复杂句中的组份从句上。复杂句的信息量指数可以通过对其组份从句的信息量指数进行累积相加的方法,或上述其它非线性方法得到。

语言中的词组,可以是简单词组,例如一个单词,也可以是由多个单词组成的复杂词组。在语言学中,一个复杂词组通常由一个核心词和一个或多个修饰词所构成。例如,“数码相机”是一个复杂词组,其中“相机”是核心词,“数码”是核心词的修饰词。在本发明提出的OPAM模型中,核心词被看作是一个客体的名称(或者一组相似客体组成的类的名称),而修饰词则被看作是该客体或客体类的属性的名称。于是,复杂词组中的信息结构同样可以表示为“客体+属性”或O+P这一结构。例如,复杂词组“数码相机”是一个相机客体类的一个子类的名称,其中所有成员都具有“数码”这一属性。该词组具有“一个具有属性P的客体(类)O”的信息结构。核心词和修饰词本身也可以是多字词组。例如,在复杂词组“纽约州的西北部”中,核心词和修饰词都是多字词组。在给定了将复杂词组的信息结构也可以表示为O+P这个方法之后,上述用于计算简单句的信息量指数的方法也可以递归式地应用于复杂词组中,从而生成复杂词组的信息量指数。这只要通过在特定客体的数据集中找出核心词和修饰词对该客体的关联强度,然后将两者相乘,或根据需要采用不同的系数对复杂词组作为非完整句子的信息量进行调整。

一个简单句,如果主语和谓语都是复杂词组,那么句子的信息结构可以是下列情况:“具有属性P的客体O具有带有属性PPP的属性PP”,其中主语的信息结构是“具有属性P的客体O”,而其谓语的信息结构是“具有带有属性PPP的属性PP”。

在某些实施方法中,参见图4,简单句中的复杂词组可以用图4中展示的步骤来对其进行分析,以作为图3中步骤311-313的替代方法。在确定了一个客体名称后,提取特定客体的数据集(步骤405)。特定客体的数据集,如前所述,是专门与此客体有关联的。在此数据集中搜索与复杂词组(如“数码相机”)匹配的属性名称(步骤410)。如果找到匹配,该复杂词组可以被看作是一个在步骤305-315中演示过的简单属性名称。如果找不到匹配,该复杂词组被分解成一个核心词(如“相机”)和一个修饰词(如“数码”)(步骤420)。随后,在此数据集中搜索与复杂词组的核心词相匹配的属性名称(步骤430)。如果找到匹配,就从数据集中提取核心词的关联强度的值(步骤440)。同时,在此数据集中搜索与复杂词组的修饰词相匹配的属性名称(步骤450)。如果找到匹配,就从数据集中提取修饰词的关联强度的值(步骤460)。将核心词和修饰词的关联强度的值相乘,以生产该词组的信息量指数(步骤470)。此指数可以作为该词组中所包含的关于特定客体的信息含量的一个度量,也可以作为该词组的派生关联强度,用以计算句子的信息量指数,然后再计算文件的信息量指数。

如果复杂词组中的核心词或修饰词在特定客体的数据集中找不到匹配,而核心词或修饰词又是一个多字词组,句法分析器可以继续对多字词组中的组成成分进行分析,进而递归式地运用前述方法。然而,本发明中的系统和方法也提供了下述的替代方法。

通常,随着句子结构的复杂度的增加,句法分析器的精确度随之降低,而计算量随之增高。在某些场合,句法分析器对于一个复杂词组或复杂句或许不会生成正确的结构描述。为了处理这些情况,本发明提供了其它方法,作为对图3中步骤302和303,以及图4中步骤420到470的基于句法分析器对复杂句和复杂词组作递归分析方法的替代方法。在复杂词组在数据库中找不到精确匹配的情况下(图3中步骤311到314所示),这一替代方法从复杂主语词组或谓语词组的组份词的关联强度的平均值来导出复杂词组的关联强度。换句话说,该方法不使用句法分析器来标记两个词组的内部结构,而是在数据集中搜索与主语词组或谓语词组中的组份词的匹配,从而不区分词组中的核心词和修饰词。如果在数据集中找到了与组份词的匹配,那么它们与特定客体的关联强度的平均值就被用作主语词组或谓语词组的派生关联强度值。

例如,针对一个搜索语句中的客体名称“计算机”,句法分析器返回一个句子中的主语为“带有4GB内存的计算机”,以及句中的谓语为“装了一个UNIX操作系统”。在特定客体“计算机”的数据集中既找不到主语也找不到谓语的匹配。此时,相对于使用句法分析器进行递归分析的方法来确定复杂词组中的核心词和修饰词,上述替代方法将主语复杂词组“带有4GB内存的计算机”中的每一个单字或单字的组合在特定客体“计算机”的数据集中寻找匹配属性。然后对每个单字或单字的不同长度的组合所匹配的关联强度取平均值,从而生成该主语词组的派生关联强度。

在某些实施方法中,本发明提出的系统和方法不使用句法分析器。在这种情况下,无需确定句中的主语和谓语。参见图5,在确定了客体名称以后,提取该特定客体的数据集(步骤510)。句子的边界根据自然语言中文本文件所使用的标点符号来确定(步骤520)。一个句子被看作是一个字符串。该字符串被分解为组份子字符串(步骤530)。一个组份子字符串可以包括一个单字,一个词组,或单字序列的不同长度的组合。对于句中的每个组份子字符串,在特定客体的数据集中搜索与子字符串相匹配的属性名称(步骤540)。如果一个子字符串找到了匹配的属性词,该子字符串的关联强度值就从特定客体的数据集中提取出来(步骤550)。所匹配的属性词的关联强度值就被赋予该子字符串(步骤560)。对句中的所有子字符串执行步骤530-560(步骤570)。然后,对句子中的所有子字符串的关联强度值取平均值,得出该句子的信息量指数(步骤580)。可以根据不同的情况,例如子字符串在句中的相对位置,使用不同的系数作为子字符串的权重,用以生成一个加权平均。对段落中的每一个句子,将句子的信息量指数累积相加以生成该段落的信息量指数(步骤590)。文件中段落的信息量指数累积相加,得出该文件的信息量指数(步骤595)。在某些场合,整个文件的信息量指数可以用文件中句子信息量指数直接相加的方法来生成。

在某些不使用句法分析器的实施方法中,本发明中的系统和方法不需要根据标点符号来确定句子。整个文件或段落被看作是一个平坦(无结构)的字符串。这一字符串被分解为组份子字符串,例如一个单字或一个词组,包括单字序列的不同长度的组合。对于文件或段落中的每个组份子字符串,在特定客体的数据集中搜索与子字符串相匹配的属性名称。提取相应的关联强度值。除了可以将文件或段落中所有组份子字符串的关联强度值的简单平均值作为它们的信息量指数之外,可以根据不同的情况,例如子字符串在文件或段落中出现的频率,和/或子字符串在文件中的相对位置,使用不同的系数作为子字符串的权重,用以生成一个加权平均,作为文件或段落的信息量指数。如果用户愿意,可以用段落作为信息度量的文字单元,每个段落的信息量指数可以累积相加以生成整个文件的信息量指数。在某些场合,一个文件可以只包含一个段落,一个段落也可以只包含一个句子,或只包含一个或多个字符串。

这些方法能够节约成本,尤其是在信息量的度量可以容忍较低精确度的场合,例如,在将文件分类到非常不同的类别时,这些方法就很合适。同时,也适用于句法分析器完全失效或根本不采用句法分析器的场合。

本发明公开的系统和方法可以应用到许多不同的领域,例如搜索引擎的文章相关性排序,对未结构化的分散或未知的文件进行自动分类,以及为自然语言处理中消除语义歧义,为机器翻译和语音识别等过程提供上下文语境信息。

再次参见图2,模块214将一个或多个文件的信息量指数发送到计算机处理系统210中的模块215。模块215可以实施一个或多个下述操作案例。输出的数据可以存放在输出数据225中,或存放到外部设施中。

搜索引擎的文章相关性排序

某些常规的排序算法主要依靠关键词,链接,或访问量,但不直接涉及也不采用文件内容中的信息结构。本发明中所展示的系统和方法能够比这些常规方法生成更好的相关性排序结果。当一个用户输入一个搜索语句时,按照本发明中所展示的系统和方法来看,用户是在搜索语句中标明一个或多个客体的名称,用以搜寻关于这些客体的信息。本发明中所展示的系统和方法可以对整个文件集合中的每篇文章或文件中所包含的信息量进行度量,进而将这些文章或文件按其所含有关被搜寻的客体的信息量来加以排序。从而能以更为准确和有效的方式将相关信息提供给用户。文件集中的具体文件可以包括互联网上的网页,一个公司或组织机构内部存储的文件,以及存储在个人电脑上的各种文件。

在模块215中,如果一个搜索语句与一个单一的客体名称相匹配,则可以运用上述过程将文件集中的文件针对这一客体进行信息含量的定量分析。由此获得的有关该客体的文件信息量指数可以被看作是文件与搜寻语句之相关性的定量度量。而这些文件可以按其文件信息量指数在输出的搜索结果中排序。这样,用户(例如一个搜寻者)可以首先获得那些与其搜索语句更为相关的文章。这在文件数量很大的情况下尤其有效。

如果一个搜索语句包含多个客体名称,对于同样的文件集,可以先针对每个客体名称进行分析,以确定每个文件中对每个客体所含的信息量。然后,根据每个文件中对每个客体的信息量指数生成一个综合指标,以此作为该文件与搜索语句之相关性的总分。然后这些文件可以按照它们的综合分数在输出结果中排序。

文件分类

本发明中所展示的系统和方法能够以智能化的方式对文件进行分类。在模块214和模块215获得文件信息量指数后,那些信息量指数大于一个预设的阈值的文件可以被看作是属于一个由客体名称所定义的文件类别,并存储在输出数据中。例如,如果客体类别的名称是“计算机”或“财经”,所有关于“计算机”的文件信息量指数大于一个预设阈值的文件都可以被归入“计算机”这一类别。所有关于“财经”的文件信息量指数大于一个预设阈值的文件都可以被归入“财经”这一类别。预设阈值对于不同的类别(例如,不同的客体)来说,可以是相同的,也可以是不同的。

运用本发明中所展示的系统和方法,一个文件可以被归入一个或多个类别,取决于由模块214和模块215所获得的对应不同类别的不同客体的文件信息量。用于对文件进行分类的客体名称,可以是一个文件类别的名称,或者是与一个文件类别有关的名称。根据用户的分类需求,以及预设的阈值,同一个文件可以属于多个类别,也可以只属于一个类别。

一个具有良好定义的分类系统可以包括互不相交的类别,例如一个用于计算机操作系统的分类系统可以由“视窗(Windows)”,“苹果(Macintosh)”,和“UNIX”等互不相交的类别所构成。如果一个文件仅仅是关于视窗系统的,那么该文件对于苹果或UNIX这些客体名称就很可能只有接近于零的信息量指数,从而将被唯一地归入视窗这一类别。然而,假如一个文件的主题或主要内容是关于视窗和UNIX之间的差别,那么该文件就很有可能对于视窗和UNIX这两个客体都具有大于阈值的信息量指数,从而可能被同时归入视窗和UNIX这两个类别。这样,相关的信息可以很容易地分别从有关的类别中找到。

为自然语言处理,机器翻译和语音识别等过程中消除语义歧义提供上下文语境信息

本发明中所展示的系统和方法能够运用到计算机自然语言理解的过程中以消除语义歧义。自然语言中的词语通常可以有多个意义。例如,英语中“bank”这个词,可以代表作为金融机构的银行,也可以代表河边的堤岸。如果没有上下文语境信息,这类词语是有歧义的。如果一个语言理解程序仅仅从词典中查找词义,通常总会有多于一个的潜在语义可供选择。这使机器经常必须决定哪个词义对于上下文语境来说是合适的词义。在某些常规的技术中,其方法或者是根据该词在英语中使用的统计概率来决定其最可能的词义,但这个方法往往不可靠;或者是根据可得到的语境信息,但这样的信息靠机器本身往往是很难获得的。

本发明中所展示的系统和方法能够有效地根据上下文来确定这类词语的最为可能的语义。上下文可以是一个词组,一个句子,一个或者多个段落,或者整个文件。对于一个句子,一个或者多个段落,或者整个文件,都可以计算其对于每个语义的信息量指数。其中信息量总分为最高的词义可以被看作是在该上下文中最为贴切的词义。

例如,假定词典关于“bank”这个词有两个词义。

(1)一个处理货币交易的金融机构。

(2)一个沿着河边突起的堤岸。

假如所要分析的句子是:

(3)“该bank资金充足。”

本发明中所展示的系统和方法可以为句子(3)计算其关于“金融机构”和“河”这两个客体的句子信息量指数。在这个语境中,关于“金融机构”的句子信息量指数将比关于“河”的句子信息量指数要高许多,因为像“货币”这样的词对于“金融机构”这个客体来说具有比对于“河”这个客体要高出许多的关联强度。

上述消除语义歧义的功能可以运用到许多领域中。其中一个领域是机器翻译。如上所述,自然语言中的一个字或词可以有多于一个的语义。要让机器能够正确地翻译一个文字内容,某种上下文语境经常是必须的,用以决定多个词义中的哪一个才是最合适的语义。本发明中所展示的系统和方法能够用如上所述的方法为不同的上下文计算信息量指数,并根据最高的信息量指数来选取最合适的词义。上述消除语义歧义的方法也可以运用于计算机自然语言理解和语音识别领域,用以正确地确定一个多义词的最合适的语义,从而为这些领域中的一个极为关键的问题提供了一个有效的解决方案。

应当指出,上述方法的应用范围并不限于所列举的特定例子。在不偏离本发明的精神实质的前提下,系统的配置和实施过程可以有所改变。对自然语言内容中信息量的定量估算方法可以运用到比上述列举的领域更多的领域,包括非自然语言或人工语言,例如计算机编程语言,或者任何一个符号系统。在自然语言的情况下,存在着各种各样的句子结构和段落结构。尽管上述描述中未将这类结构全部列举,本发明中描述的“客体+属性”这一信息结构以及相应的信息定量化方法可以运用于任何类型的句子或段落结构。上述技术可以分开运用,合适的情况下也可以合并使用。

另外,关联强度可以用连续数值的形式也可以用离散数值的形式来表达。关联强度的值可以在0到1的区间内,也可以在任何数值的区间内。也应当指出,信息量指数可以在和所举例子不同的层次上加以定义。除了文件,段落,句子,词组可以有信息量指数之外,对任何词字序列,或其它文字组合,都可以进行信息量指数的定义和计算。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号