首页> 中国专利> 一种将规范文本自动转为可计算逻辑规则的方法及系统

一种将规范文本自动转为可计算逻辑规则的方法及系统

摘要

本发明涉及一种将规范文本自动转为可计算逻辑规则的方法及系统,其特征在于,包括以下内容:1)对规范文本进行语句分割,并对分割得到的若干语句进行预处理,筛选出可转换的规范语句;2)采用深度神经网络模型,通过BIO标注格式为可转换的规范语句中的单词或短语加上语义标签,得到带有标签的语句;3)采用上下文无关文法,基于对P‑R范式及其递归用法的识别,对带有标签的语句进行解析,将带有标签的语句转换为规则检查树;4)将规则检查树转换为特定格式的语言,本发明可以广泛应用于建筑业与信息技术交叉领域中。

著录项

  • 公开/公告号CN112764762A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202110178180.2

  • 发明设计人 林佳瑞;周育丞;郑哲;陆新征;

    申请日2021-02-09

  • 分类号G06F8/41(20180101);G06F16/35(20190101);G06F40/117(20200101);G06F40/253(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11245 北京纪凯知识产权代理有限公司;

  • 代理人王胥慧

  • 地址 100084 北京市海淀区100084信箱82分箱清华大学专利办公室

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明是关于一种将规范文本自动转为可计算逻辑规则的方法及系统,属于建筑业与信息技术交叉领域。

背景技术

建筑环境的整个生命周期受各种法规、规范和标准的约束,手工进行合规性审查的流程既耗时,成本高昂又易于出错。作为手工检查的替代方案,自动合规性审查(Automated Compliance Checking,ACC)能极大地促进建筑、工程和施工行业的设计过程。当前,随着设计复杂性的不断增加,ACC在设计过程中变得至关重要,且已被广泛研究,但是,目前在实际项目中很难观察到ACC的应用。大多数现有的ACC系统均是特定领域专用的或基于硬编码机制的方法,这类方法,例如新加坡的项目电子计划与文档提交系统(CORENET)以及广泛使用的模型质量分析检查软件(Solibri Model Checker,SMC)程序,维护代价均十分高昂且难以修改,也因此通常被称为黑盒方法

在规则审查过程中,最重要且最复杂的阶段是规则解译,即将文本形式的规则转化为计算机可处理的格式,因此,许多研究提出自动化或半自动化的方法进行文本规则转换以支持ACC。在半自动化方法方面,现有技术公开了通过使用四个标记运算符(Requirement,applies,select,exception)的方法对文本标记进行文本软编码,以帮助领域专家制定适用的规则而无需程序员的帮助;研究人员提出适用于工业基础类(IFC)这一数据标准的ACC框架,该框架利用语言集成查询(LINQ)编程,通过IFC的可扩展标记语言(Extensible Markup Language,XML)格式即IfcXML提取、访问和链接建筑信息模型(Building Information Modeling,BIM)和法规信息。在自动化方法方面,研究人员提出一种自动规则转换方法,其流程包括信息提取:识别相关句子中的单词和短语并用预定义的信息标签对其进行标记,以及信息转换:基于正则表达式的映射规则和冲突消解规则将提取的信息实例转换为逻辑子句,通过将信息提取和转换集成到一个统一的系统中,实现全自动规则检查;研究人员还提出一种基于本体的信息提取方法,以支持全自动的建筑能源符合性检查,其中,模式匹配方法通过本体、预处理等领域特定方式得到增强,这些方式将该方法集中在建筑能耗领域上并提高了准确性;研究人员还提出一种框架,该框架通过集成自然语言处理(Natural language processing,NLP)和空间推理来自动化设备合规性审查,其中,基于模式匹配的算法用于将文本描述的空间配置转换为计算机可处理的规则;研究人员还提出一种基于语义框架的信息提取方法,重点关注领域和词汇语义以支持ACC,该方法的特点是使用领域语义框架进行规则映射。

然而,这些研究中所提出的方法仍然存在局限性,因为其无法同时实现理想程度的自动化和可扩展性。半自动方法易于理解,适用范围广,但仍需要大量的人工进行编写查询语言、伪代码或标记规范文档等。因此,其自动化程度较为低下。对于自动化方法,其大量依赖基于正则表达式的匹配模式,这也是一种对映射规则进行硬编码的方式。实际上,正则表达式的表达能力较低(例如无法表达递归),很容易导致其使用数量的增加(例如需要使用大量的正则表达式才能表示一个简单的规则),且变得难以维护。因此,当前的自动化方法具有以下缺陷:1)构建和维护成本高,只能靠手工逐个编写正则表达式来建立,且每一正则表达式的覆盖范围十分有限。2)可扩展性低,该方法准确性的提高往往伴随着适用领域特殊性的加深,因此,该方法在可扩展性方面存在较大局限性,即很难通过正则表达式建立起适用于普遍领域的规则转换方法。3)可维护性低,正则表达式缺乏递归的特性很容易导致其用法数量的增加,并使其很快变得难以维护。

发明内容

针对上述问题,本发明的目的是提供一种构建和维护成本低、可扩展性高且可维护性高的将规范文本自动转为可计算逻辑规则的方法及系统。

为实现上述目的,本发明采取以下技术方案:一种将规范文本自动转为可计算逻辑规则的方法,包括以下内容:

1)对规范文本进行语句分割,并对分割得到的若干语句进行预处理,筛选出可转换的规范语句;

2)采用深度神经网络模型,通过BIO标注格式为可转换的规范语句中的单词或短语加上语义标签,得到带有标签的语句;

3)采用上下文无关文法,基于对P-R范式及其递归用法的识别,对带有标签的语句进行解析,将带有标签的语句转换为规则检查树;

4)将规则检查树转换为特定格式的语言。

进一步地,所述步骤2)的具体过程为:

2.1)将可转换的规范语句中的所有字符均通过词嵌入转化为向量;

2.2)采用DNN模型,将转化后的向量编码为具有上下文信息的向量表示方式;

2.3)将具有上下文信息的向量表示进行分类,并转换为BIO标注格式,得到带有标签的语句。

进一步地,所述步骤2.3)中的标签包括:

标签obj、sobj和prop,用于表示建筑信息模型中需检查的元素,其中,标签obj为规则检查树中唯一具有多个子节点的元素,否则,标签obj为倒数第二层的元素;标签sobj为规则检查树中比标签obj更高级别的元素;标签prop为规则检查树中比标签obj更低级别的元素;

标签Rprop,为与标签prop连接的要求条件,比较结果为真则通过规则检查;

标签aRprop,为与标签prop连接的前提条件,比较结果为真则执行规则检查;

标签Robj,为标签Rprop的父元素或引用元素;

标签cmp,用于表示选中的标签prop和Rprop/aRprop之间的关系,且包含其义务类型;

标签aRobj,为标签aRprop的父元素或引用元素。

进一步地,所述步骤3)的具体过程为:

3.1)提取带有标签的语句中具有sobj标签和obj标签的元素添加至规则检查树中,并对带有标签的语句中其余元素的顺序进行标准化处理;

3.2)将P-R范式定义为基本语法单元,采用CFG规则,基于对P-R范式及其递归用法的识别,通过自下而上的方式解析标准化后的语句,得到解析语法树;

3.3)将解析语法树作为输入生成规则检查树。

进一步地,所述步骤3.1)的具体过程为:

3.1.1)提取带有标签的语句中具有sobj标签的元素,并根据具有sobj标签的元素在语句中出现的先后顺序,确定具有sobj标签的元素的层次结构;

3.1.2)提取带有标签的语句中具有obj标签的元素;

3.1.3)将提取的具有sobj标签和obj标签的元素添加至规则检查树中;

3.1.4)将带有标签的语句中其余元素的顺序进行标准化处理。

进一步地,所述步骤3.2)的具体过程为:

3.2.1)采用RPOP、CMP、RPROP、ROBJ四个大写词语分别表示语句中具有prop标签、cmp标签、Rprop标签或aRprop标签、Robj标签或aRobj标签的元素,得到采用大写词语表示的语句;

3.2.2)将P-R范式定义为基本语法单元,采用CFG规则,基于对P-R范式及其递归用法的识别,通过自下而上的方式解析采用大写词语表示的语句,得到解析语法树。

进一步地,所述步骤3.3)的具体过程为:

3.3.1)还原解析语法树中具有RPROP标签的元素中的“a”前缀,以区分语句中的前提和要求;

3.3.2)对解析语法树进行后处理;

3.3.3)递归访问解析语法树的所有子树并同时创建规则检查树,将解析语法树转换为规则检查树。

一种将规范文本自动转为可计算逻辑规则的系统,包括:

预处理模块,用于对规范文本进行语句分割,并对分割得到的若干语句进行预处理,筛选出可转换的规范语句;

语义标注模块,用于采用深度神经网络模型,通过BIO标注格式为可转换的规范语句中的单词或短语加上语义标签,得到带有标签的语句;

解析模块,用于采用上下文无关文法,基于对P-R范式及其递归用法的识别,对带有标签的语句进行解析,将带有标签的语句转换为规则检查树;

转换模块,用于将规则检查树转换为特定格式的语言。

一种处理器,包括计算机程序指令,其中,所述计算机程序指令被处理器执行时用于实现上述将规范文本自动转为可计算逻辑规则的方法对应的步骤。

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时用于实现上述将规范文本自动转为可计算逻辑规则的方法对应的步骤。

本发明由于采取以上技术方案,其具有以下优点:

1、本发明能够将文本形式的规则自动转化为计算机可自动计算、推理的逻辑代码,建立具有高可扩展性的自动规则转换方法和框架,具有普遍适用性,可以用于智能审图、智能设计、法规智能等场景中,让不同专业的文本形式的规范均被自动化的转换为计算机可读的规则。

2、本发明在高自动化和扩展性的基础上,使得大部分规范文本均能够被正确的转换,具有高准确率。

3、本发明采用深度神经网络模型进行语义标注,能够识别规则语句中的语义信息和上下文信息,即使是复杂的长句子也能够适用,语义识别能力强。

4、本发明采用上下文无关文法对语义标注后的语句进行解析,能够正确地解析数据集中99.6%的简单句,超越了现有方法的性能。更重要的是,对于现有方法不适用的复杂句,本发明可以达到90.2%的解析准确率。

5、本发明通过具有良好结构的语义标签、规则检查树以及具有高表达能力的上下文无关文法保证方法较低的复杂性,并极大提高易理解性、可维护性和可扩展性,可以广泛应用于建筑业与信息技术交叉领域中。

附图说明

图1是将带有要求条件(Req)的树结构分为更简单的两个树结构的示意图,其中,图1(a)为划分前的树结构示意图,图1(b)为划分后的树结构示意图;

图2是规则检查树的结构示意图;

图3是本发明方法的流程图;

图4是本发明一实施例提供的语义标注与解析示意图;

图5是本发明一实施例提供的BIO标注格式示意图;

图6是本发明一实施例提供的解析过程示意图。

具体实施方式

以下结合附图来对本发明进行详细的描绘。然而应当理解,附图的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。

本发明实施例提供的将规范文本自动转为可计算逻辑规则的方法,能够将文本形式的规则自动转化为计算机可自动计算、推理的语言,具有普遍适用性,大部分规范文本均能够被正确的转换,可以广泛应用于智能审图、智能设计、法规智能等场景中。

为了便于理解本发明实施例的内容,下面对本发明实施例中出现的缩略语和关键术语进行解释。

BIM模型:建筑信息模型,可以用具有许多属性的对象进行描述,这种层次结构可以用树结构表示。因此,规则检查可以看作首先定位BIM模型树结构中的元素,然后检查相应元素是否满足要求的过程,如图1(a)所示。更进一步,这种树结构可以被简化为多个树结构进行表示,其中,每棵树最多能有一个节点具有多个子节点,如图1(b)所示,这种简化将降低复杂性,且可以通过例如语句分割的预处理进行实现。

RCTree:规则检查树,一种表示对象层次结构的树结构,其中,只有一个树节点可以具有多个子节点,且每一叶节点均与一个要求条件相对应,如图2所示。在规则检查树中,所有要求之间的默认关系为“与”(即如果满足所有前提条件,则检查所有要求是否被满足)。“或”关系通过以下方式间接表示:1)元素合并,将两个元素合并为一个并集元素;2)句子拆分,将句子拆分为多个句子,并采用多个RCTree表示。这种方式能在维持该方法较高表达能力的同时,降低其复杂度。

CFG(Context-free grammar):上下文无关文法,CFG相比正则表达式等模式匹配方法具有更高的表达能力(例如可以表示递归)。同时,CFG也是编程语言编译器的组成方法。

语义标注:是为语句中的单词或短语分配语义标签的过程,其中标记的单词或短语称为语义元素。传统的语义标注方法包括词性标注(Part-of-speech)、地名词典(Gazetteer)查找、隐马尔可夫模型(HMM)和条件随机场(CRF)等。但是,这些方法最大缺点是缺乏语义识别能力。

BIO(Begin-inside-outside)格式:一种对句子中的字或词进行序列标注的方式,用于从给定语句中抽取连续字或词构成的有意义单元块,对于一个给定语句,将其每一字或词标注为B(Beginning,单元块起始)、I(Inside,单元块内部)、O(Outside,不在任何单元块中)中的一个。

Softmax:归一化指数函数,是逻辑函数的一种推广,其能将一个K维实向量z“压缩”到另一K维实向量σ(z)中,使得每一元素的范围均在(0,1)之间,且所有元素的和为1。

if-then语句:条件语句,根据判断给定条件是否满足(表达式值是否为真),执行不同的操作。在“then”中的语句仅当“if”条件为真时才会被执行。

horn逻辑子句:霍恩逻辑子句(Horn Clause),指带有最多一个肯定文字的子句,其中,子句为文字的析取。

实施例1

如图3所示,本实施例提供一种将规范文本自动转为可计算逻辑规则的方法,包括以下步骤:

1)对规范文本(例如工程标准、法规、规范条款)进行语句分割,例如按照句号、分号等将规范文本分割为若干语句,并对分割得到的若干语句进行文本分类等预处理,筛选出可转换的规范语句,例如,语句需含有表示比较关系、存在关系等的关键词。

2)采用深度神经网络(DNN)模型,通过BIO标注格式对可转换的规范语句进行语义标注,即为可转换的规范语句中的单词或短语加上语义标签,以表示语义信息,得到带有标签的语句,其中,标签能够表示与BIM及规则相关的概念,语义标注结果能够通过计算语句中每一标签的F1分数进行验证。

为增强语义识别的能力,本发明采用深度神经网络模型(例如RNN网络模型或Transformer网络模型)进行语义标注,标注方式采用BIO格式,具体标注过程为:

2.1)将可转换的规范语句中的所有字符均通过词嵌入转化为向量。

2.2)采用DNN模型,将转化后的向量编码为具有上下文信息的向量表示方式。

2.3)将具有上下文信息的向量表示通过softmax进行分类,并转换为BIO标注格式,以进行输出,得到带有标签的语句。

本发明定义了8个语义标签以表示语句中字词的角色即RCTree中元素的角色,如下表1所示,在表1的定义中,标签obj、sobj和prop用于表示BIM模型中需检查的元素。标签Rprop用于表示直接应用于prop的要求,在大多数情况下,单个标签Rprop足以表示要求,例如一个数字(例如:“A应大于10”中的“10”),但是在某些情况下,标签Rprop可能是对元素的引用,此时Robj即是被引用的元素(例如:“A应大于B的10倍”中的“10倍”)。标签aRprop类似于标签Rprop,但是前缀a表示前提(即适用性),即仅当标签prop和标签aRprop之间的比较结果为真时,才会执行规则检查。标签aRobj也类似于标签Robj,但是由标签aRprop引用。标签cmp用于表示选中的prop和Rprop/aRprop之间的关系,且包含其义务类型(例如应、宜、不得):

表1:定义的8个语义标签

3)采用上下文无关文法(CFG),基于对P-R范式及其递归用法的识别,对语义标注后的语句即带有标签的语句进行解析,将语义标注后的语句转换为可表示元素层次与关系的RCTree,其中,该RCTree是与语言无关的且能够生成出可计算的检查规则代码的树结构,解析结果能够通过计算语义标注后的语句解析为RCTree的准确性进行验证,具体解析过程为:

3.1)提取带有标签的语句中具有sobj标签和obj标签的元素添加至RCTree中,并对带有标签的语句中其余元素的顺序进行标准化处理:

3.1.1)提取带有标签的语句中具有sobj标签的元素,并根据具有sobj标签的元素在语句中出现的先后顺序,确定具有sobj标签的元素的层次结构(因为具有sobj标签的元素在RCTree中只有一个子节点)。

3.1.2)提取带有标签的语句中具有obj标签的元素,其中,如果存在多个具有obj标签的元素,则将其并集视为一个具有obj标签的元素。

3.1.3)将提取的具有sobj标签和obj标签的元素添加至RCTree中。

3.1.4)采用简单的规则,例如基于正则表达式的模式匹配规则,将带有标签的语句中其余元素的顺序进行标准化处理。

3.2)将P-R(Prop-Req)范式定义为基本语法单元,采用CFG规则,基于对P-R范式及其递归用法的识别,通过自下而上的方式解析标准化后的语句,得到解析语法树:

3.2.1)采用RPOP、CMP、RPROP、ROBJ四个大写词语分别表示语句中具有prop标签、cmp标签、Rprop标签或aRprop标签、Robj标签或aRobj标签的元素,得到采用大写词语表示的语句,其中,具有sobj标签和obj标签的元素已被提取除去,且不考虑元素标签中的前缀“a”(即不区分前提和要求,这将会在后续步骤中进一步区分),因此上述四个词即可表示此时语句中所有可能的元素。

3.2.2)将P-R范式定义为基本语法单元,采用CFG规则,基于对P-R范式及其递归用法的识别,通过自下而上的方式解析采用大写词语表示的语句,得到解析语法树,其中,P-R范式表示一对具有要求(或前提)的规则检查元素,P表示PROP,R表示req规则,req规则包括CMP、ROBJ和RPROP:

首先,定义pr规则识别递归使用的完全P-R范式,其被递归定义为“PROP req”或“PROP pr req”,例如:“PROP PROP req req”为一个pr规则表达式,可以被解析为pr。其次,定义prs规则识别递归使用的非完全P-R范式,其被定义为“pr”、“PROP+pr”、“pr req”或“req”,其中,“PROP+”表示一个或多个PROP,例如:“PROP PROP PROP req”和“PROP reqreq”均为prs规则表达式,均可以被解析为prs。又例如:图6(b)中,“[保护层/prop][厚度/prop][不应大于/cmp][10mm/Rprop]”可以被表示为“PROP PROP CMP RPROP”,可被归约为“PROP PROP req”,进一步被归约解析为prs。最后,将表示解析语法树的tree规则定义为“prs+”,即一个或多个prs,该tree规则将所有识别出的范式组合形成单个解析语法树,如图6(c)所示。

3.3)将解析语法树作为输入生成RCTree:

3.3.1)还原解析语法树中具有RPROP标签的元素中的“a”前缀,以区分语句中的前提和要求。

3.3.2)对解析语法树进行删除重复项、调整解析语法树中元素层级关系等后处理。

3.3.3)递归访问解析语法树的所有子树并同时创建RCTree,将解析语法树转换为RCTree。

4)将RCTree的树结构表示形式转换为特定格式的语言,例如常见的if-then语句、horn逻辑子句或编程语言等,以便于规则执行,其中,if-then语句、horn逻辑子句或编程语言等均为基础和广泛通用的格式,具体转换过程在此不多做赘述。

规则要求可以形式化为if-then格式的语句或horn逻辑子句。因此,具有8个语义标签的RCTree可以完整地表示规则要求内容。因为BIM模型中的元素可以由RCTre e中的sobj标签、obj标签和prop标签表示,且规则可以通过aRprop标签和aRobj标签表示前提条件(即if),以及通过Rprop标签和Robj标签表示要求条件(即then)。

如图4所示,下面通过具体实施例详细说明本发明的将规范文本自动转为可计算逻辑规则的方法:

首先,对规范文本进行语句分割,本实施例选取“采用B1、B2级保温材料的屋面保温,应采用不燃材料作保护层,保护层的厚度不应小于10mm”为例,并对分割得到的若干语句进行预处理,筛选出可转换的规范语句。然后,采用深度神经网络(DNN)模型,通过BIO标注格式,基于本发明定义的8个语义标签,对可转换的规范语句进行语义标注,如图5所示。其次,如图6所示,对语义标注后的语句进行解析,提取带有标签的语句中具有sobj标签和obj标签的元素添加至RCTree中,并对带有标签的语句中其余元素的顺序进行标准化处理。再次,采用上下文无关文法,通过自下而上的方式解析标准化后的语句,生成解析语法树,并由此生成对应的RCTree。最后,将语言无关的RCTree的树结构表示形式转换为特定格式的可计算逻辑语言。

实施例2

本实施例提供一种将规范文本自动转为可计算逻辑规则的系统,包括:

预处理模块,用于对规范文本进行语句分割,并对分割得到的若干语句进行预处理,筛选出可转换的规范语句。

语义标注模块,用于采用深度神经网络模型,通过BIO标注格式为可转换的规范语句中的单词或短语加上语义标签,得到带有标签的语句。

解析模块,用于采用上下文无关文法,基于对P-R范式及其递归用法的识别,对带有标签的语句进行解析,将带有标签的语句转换为规则检查树。

转换模块,用于将规则检查树转换为特定格式的语言。

实施例3

本实施例提供一种与本实施例1所提供的将规范文本自动转为可计算逻辑规则的方法对应的处理设备,处理设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行实施例1的方法。

所述处理设备包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,以完成相互间的通信。存储器中存储有可在处理器上运行的计算机程序,处理器运行计算机程序时执行本实施例1所提供的将规范文本自动转为可计算逻辑规则的方法。

在一些实现中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。

在另一些实现中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。

实施例4

本实施例1的将规范文本自动转为可计算逻辑规则的方法可被具体实现为一种计算机程序产品,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本实施例1所述的声音识别方法的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号