首页> 中国专利> 一种改进的篇章级三元组信息抽取方法

一种改进的篇章级三元组信息抽取方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了一种改进的篇章级三元组信息抽取方法，包括：第一步，文本数据预处理；第二步，对文本数据进行篇章级语义分析，包括层次语义分析、实体对齐、依赖动词提取；第三步，采用多轮迭代的方式进行启发式学习，构建事件语义模型；第四步，基于端到端样本的三元组抽取，抽取出基于篇章理解的三元组；第五步，对利用步骤三和步骤四抽取出的三元组知识的一些应用，如智能检索、智能问答、知识挖掘、决策支持等。该方法实现基于小样本建立三元组信息抽取模型，具备篇章级三元组抽取能力，本方法易于推广，具有可拓展性，是大规模文本信息数据抽取、建立知识体系、构建垂直领域知识图谱的重要基础环节。

著录项

公开/公告号CN113312922A

专利类型发明专利
公开/公告日2021-08-27

原文格式PDF
申请/专利权人中国电子科技集团公司第二十八研究所;
展开▼

申请/专利号CN202110399643.8
发明设计人李少锋;王妍妍;王玉坤;高菁;陈文颖;张春晖;
展开▼

申请日2021-04-14
分类号G06F40/30(20200101);G06F16/36(20190101);G06F40/151(20200101);G06F40/205(20200101);G06F40/295(20200101);G06N20/00(20190101);
代理机构32237 江苏圣典律师事务所;
代理人于瀚文;胡建华
地址 210000 江苏省南京市白下区苜蓿园东街1号
入库时间 2023-06-19 12:22:51

说明书

技术领域

本发明涉及一种改进的篇章级三元组信息抽取方法。

背景技术

自然语言处理的研究从词汇、词典的演技起步，近年来一直把句子作为最核心的研究对象，对篇章的语义分析多事语言学家从理论上进行探索；而篇章级别缺乏形式标记，使得篇章级的语言计算一直没有特别明显的进展。但是，很多语义问题必须在篇章层面上才能够得到根本性的解决，比如共指消解、篇章结构和语义关系识别、事件融合与关系识别等；同时，这些篇章级语义问题的解决对于词汇级和句子级的分析同样具有反哺性的指导意义。另一方面。近年来，中文词汇、句子级自然语言处理技术的发展，特别是词义消歧、句法分析和语义角色标注等研究工作取得的阶段性成果，也为篇章语义分析的研究创造了技术条件。

通常中文句式通常较长，一个句子中经常包括多个实体信息，由此构成的实体对的数量也较多，且实体类型的数量分布不均匀。相对于简单句子的关系探索和关系抽取，长句的句式叫复杂，使得关系探测和关系抽取的任务更加困难；长句中经常包括多个实体信息，而且跨长距离的实体对所在的句子中通常存在多个动词。因此，如何选择能够有效表征实体对之间有无语义关系以及具体关系类型的动词成为关系探索和关系抽取的关键；目前抽取的最大挑战在于训练数据不足，关系实例在各个类别上的分布极不平衡。目前实现实体关系抽取的手段主要有基于模板、基于依存句法分析、基于深度学习等手段。然而，基于模板的实体关系抽取主要存在的问题是准确率、召回率都比较低。基于依存句法的实体关系抽取则面临语义损失的问题。基于深度学习的实体关系抽取在一些领域取得了较好的实验结果，且相互之间没有显著的性能差异，但代价却是需要对预先定义好的关系类别标注大量的训练和测试样例，样例都是相对简单的短句，而且每种关系的样例分布也比较均匀。然而人工精准地标注句子级别的数据代价十分高昂，需要耗费大量的时间和人力。在实际场景中，面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子，依靠人工标注训练数据几乎是不可能完成的任务。同时，在实际情况下，实体间关系和实体对的出现频率往往服从长尾分布，存在大量的样例较少的关系或实体对。神经网络模型的效果需要依赖大规模标注数据来保证，存在“举十反一”的问题。如何提高深度模型的学习能力，实现“举一反三”，是关系抽取需要解决的问题。此外，现有模型主要从单个句子中抽取实体间关系，要求句子必须同时包含两个实体。实际上，大量的实体间关系往往表现在一篇文档的多个句子中，甚至在多个文档中。如何在更复杂的语境下进行关系抽取，也是关系抽取面临的问题。现有任务设定一般假设有预先定义好的封闭关系集合，将任务转换为关系分类问题。这样的话，文本中蕴含的实体间的新型关系无法被有效获取。上述手段在对相对简单的短句，而且每种关系的样例分布也比较均匀的测试集上，达到了一定的效果，但是在实际应用中，特别是在针对篇章级文本的三元组信息抽取中，还存在诸多问题，例如数据规模、学习能力、复杂语境、开放关系等问题。如果能够建立既具有理论深度，又具有现实可行性的篇章语义分析的理论和方法体系，对于自然语言处理学术和应用的发展都将具有重要意义。

处于信息时代，如何从海量文本数据、相关报告中挖掘建立全面准确的知识体系、构建垂直领域知识图谱、以及后续的智能搜索智能问答知识挖掘决策支持等后续应用成为技术难题，篇章级三元组信息抽取方法是一种有效手段，为使从篇章中抽取出的知识信息能够在工业界进行大规模的应用，需要有一套能够基于少量标注样本准抽取高质量的实体关联关系的方法。

发明内容

发明目的：为从海量文本数据、相关报告年报中挖掘建立全面准确的知识体系和知识图谱提供一种篇章级三元组信息抽取的方法，利用自然语言处理技术和机器学习算法，实现基于有限样本情况下的高质量实体关联关系抽取，构建垂直领域知识图谱，有力支撑领域知识体系建立，辅助实现信息关系挖掘与研判。

为了解决上述技术问题，本发明提出了一种改进的篇章级三元组信息抽取方法，包括如下步骤：

步骤1、对文本数据预处理；

步骤2、对文本数据进行篇章级语义分析；

步骤3、采用多轮迭代的方式进行启发式学习，构建事件语义模型；

步骤4、基于端到端样本的三元组抽取。

步骤1包括如下步骤：

步骤1-1、文本数据格式转换，采用现有的自然语言处理技术，将获取到的文本数据格式转化为可直接进行自然语言处理的，如从pdf、doc中提取文本；

步骤1-2、利用自然语言处理技术对格式转换后的文本数据进行预处理清洗；

步骤1-3、文本数据章节结构处理：将一篇长文档以段落、句号拆分为文本块；

步骤1-4、文本数据句块分拆，将文本块进一步分拆为标点符号间隔的物理句块。

步骤1-2包括：对格式转换后的文本数据依次执行如下处理：全角与半角的转化、大写数字转化为小写数字、大写字母转化为小写字母、去除表情符号、去除文本中所有的字符并只保留中文、中文文本分词、繁体简体中文转化、中文文本停用词过滤。

步骤1-4包括：

步骤1-4-1、对于文本块中的括号，如果括号中的内容与其左侧相邻成分是语义关系紧密(在同一个语义片段的语义成分关系紧密，不同语义片段的语义成分关系不紧密。比如：片段1中的主体和客体关系紧密，片段1中的主体和片段2中的客体关系不紧密)，则将括号中的内容与左侧括号相邻的文本成分合并为一个语义成分，否则将括号不处理；

步骤1-4-2、对于句块中的引号，如果引号体属于一个命名实体的一部分(命名实体指文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。可以建立一个命名实体库)，则将引号体与所述命名实体合并，否则不予处理；

步骤1-4-3、对于句块中的其他符号，如果所述符号是命名实体的一部分，则将句块中的其他符号(如外国人名中的间隔号·，一些著作书籍等会添加书名号《》)与相关上下文合并为一个语义实体，否则将句块中的其他符号作为划分物理句块的标志。

步骤2包括如下步骤：

步骤2-1、利用已知的语言学的语法句法知识，对篇章中的连续文本进行语义分析，为每个连续的文本块分别生成由解析树构成的列表；

步骤2-2、结合文本数据的信息结构、担任特定角色的术语的类别、文本数据的类别，将复杂的语义分解为层次语义结构；

步骤2-3、进行实体对齐；

步骤2-4、实体对最近句法依赖动词提取。

步骤2-2中，所述层次语义结构中每个层次包含N个关于事实或概念的语义块，N取值为自然数；按照后序遍历的顺序，优先对嵌套层的语义块执行查询操作(嵌套层是前述语义块中具有嵌套语义的语义块，经过步骤2-2，将复杂语义分解为层次语义结构，可能会嵌套多个语义)，确定嵌套层外延，对嵌套层处理结束后，对其余事实或概念的语义块执行查询操作，确定每个语义块的外延。

步骤2-3包括：

根据实体名称判断事先建立的实体库中是否有同名实体，如果没有，则生成新实体对，添加到实体库中，否则获取到所有同名的实体对，计算目标实体对与获取到各个实体对之间的相似度，根据类别标签、属性标签、非结构化文本关键词分别相似度，对计算得到的结果综合打分候选排序，如果得分小于阈值(这里无法对阈值大小进行量化，需要根据具体情况适时进行调整)，则将目标实体添加到实体库中，否则选择得分最高的结果最为目标实体的对齐结果。实体对齐是判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象。如果多个实体表征同一个对象，则在这些实体之间构建对齐关系，同时对实体包含的信息进行融合和聚集。目标实体就是从文本中抽取出来的实体，这里的目的是判断文本中的实体与实体库中的实体是否有共指关系。

步骤2-4包括：

步骤2-4-1、设定两个不同的实体分别为e

步骤2-4-2、采用如下方法提取与第2个实体e

步骤2-4-3、采用如下方法获取与第1个实体e

步骤2-4-4、通过判断动词V

步骤3包括如下步骤：

步骤3-1、对文本数据进行层次语义分析，根据层次语义结构生成映射知识、识别知识和关联知识；

步骤3-2、根据训练语料产生的解析树和参数映射生成抽取知识，具体包括：步骤3-2-1、为每一个有参数映射的语义层次单独构建映射规则；映射规则是指从特定语义层次到目标结构片段的规则；

步骤3-2-2、如果在同一个解析树中存在处于不同层次的参数映射，则根据嵌套点构建包含所述层次的识别规则(优先利用目标结构构造识别规则，当无法利用目标结构时，改为利用语义结构)；嵌套点指的是文本的一句话包含有多个语义短语；这里的识别规则是指对于同一个目标结构存在于不同的解析树，有成分缺省、成分指代的解析树可以对照完整的解析树来进行成分的补全；

步骤3-2-3、如果在不同的解析树中存在关于同一个目标结构的参数映射，则根据关联点构建跨句块的识别规则；关联点是指在不同的句块之间，由于缺省、指代关系形成的连接点，即指代中的先行语和照应语，缺省中的先行语和缺省语；

步骤3-2-4、如果端样本中出现了两个以上句块，且所述句块都包含有参数映射，而端样本中又没有提供关于所述句块的关联标注信息，则应主动提示用户补充相应的关联标注；

步骤3-2-5、如果一个层次的被修饰语修饰、限制的中心成分被抽取，而所述层次中其他成分没有发生抽取，则对该层次不予处理。

步骤4包括如下步骤：

步骤4-1、根据输入文本的层次语义结构得到原生一阶逻辑式；

步骤4-2、利用一阶逻辑式(一阶逻辑式是由文本语义分析而来，可以是规则，也可以是事实)进行关联推理，利用上下文之间的缺省、指代、合一关系实现一阶逻辑式的变量合一，得到经过缺省恢复、指代消解、实体合一后的合一化一阶逻辑式；

步骤4-3、利用合一化一阶逻辑式进行映射推理，每个独立的一阶逻辑式都可能产生原生目标结构片段；

步骤4-4、利用合一化一阶逻辑式或原生目标结构片段进行识别推理，得到耦合目标结构片段；

步骤4-5、如果位置相邻或重叠的两个耦合目标结构片段的谓词相同，但文本短语中谓词对应的主体客体完全不同，或相同的参数的值也相同，则将位置相邻或重叠的两个耦合目标结构片段直接合并为一个更大的目标结构作为最终输出；否则执行步骤 4-6；

步骤4-6、将位置相邻或重叠的两个耦合目标结构片段视为同一个谓词的不同的目标结构实例，都作为最终输出；

步骤4-7、重复步骤4-5、步骤4-6，直到不再产生新的、更大的耦合目标片段，就得到了所有的目标结构实例，所述目标结构实例就是最终输出。

本发明还包括步骤5、对利用步骤3和步骤4抽取出的三元组知识的一些应用，如智能检索、智能问答、知识挖掘、决策支持等。

本发明与现有技术相比，显著优点是：

(1)本方法采用基于语义模式的层次语义分析技术，并利用层次语义分析技术实现针对端到端样本的启发式学习，可以达到举一反三的学习效果，在篇章级理解的基础上实现三元组信息抽取，确保三元组信息抽取结果完整、可用；

(2)通过启发式学习实现小样本训练。因为事件语义模型中所用到的知识都是基于语义模式的，而语义模式在自然语言表达中是高度复用的，一个端样本就可以贡献高度可复用的抽取知识，因此不需要巨量的样本就可以完成训练，从而有效解决有效样本缺乏的问题。

(3)本方法基于篇章级语义分析，具有可拓展性，不仅可以进行二元关系抽取(三元组抽取)，也可以进行多元关系抽取；

(4)本方法具有较高的准确率和召回率，是形成垂直领域高质量的知识图谱、实现领域知识的智能化分析的有效手段。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/ 或其他方面的优点将会变得更加清楚。

图1是本发明的流程框图。

图2是本发明的文本数据预处理流程图。

图3是本发明的实体对齐流程图。

图4是本发明的层次语义结构示例图。

具体实施方式

针对目前三元组抽取存在抽取信息不准不全、训练样本规模大、成本高等三元组信息抽取领域等共性问题，本方法采用基于语义模式的层次语义分析技术，建立事件语义模型，对文本中蕴含的实体关系、信息结构进行有力捕获，采用启发式学习减少所需的样本数量，实现篇章级三元组信息抽取，能够有效解决或改善数据规模、学习能力、复杂语境、开放关系等问题，能够形成高质量的垂直领域知识图谱。本发明提出了一种改进的篇章级三元组信息抽取方法，如图1所示，包括：

步骤1、文本数据预处理；

步骤1-1、文本数据格式转换，从pdf、docx等格式的文档中提取出有效文本内容；

步骤1-2、利用自然语言处理技术对格式转换后的文本数据进行预处理清洗。转换后的文本数据可能包含广告、无实际意义的特殊字符等无用的信息，采用自然语言处理技术进行文本数据预处理，预处理包含：全角与半角的转化、大写数字转化为小写数字、大写字母转化为小写字母、去除表情符号、去除文本中所有的字符(只保留中文)、中文文本分词、繁体简体中文转化、中文文本停用词过滤等，预处理流程图见图2；

步骤1-3、文本数据章节结构处理，将一篇较长的文档拆分为若干个文本块(知识点)；

步骤1-4、文本数据句块分拆，将文本块进一步分拆为标点符号间隔的物理句块，具体包括：

步骤1-4-1、对于句块中的括号，如果括号体中的内容与其左侧相邻成分是紧耦合关系，则将两者合并为一个语义成分，否则将括号体另作处理；

步骤1-4-2、对于句块中的引号，如果引号体属于某个命名实体的一部分，则将引号体与该命名实体合并，否则不予处理；

步骤1-4-3、对于句块中的其他符号，如果该符号是命名实体的一部分，则将该标点符号与相关上下文合并为一个语义实体，否则将该标点符号作为划分物理句块的标志；

步骤2、对文本数据进行篇章级语义分析；

步骤2-1、利用已知的语言知识，对篇章中的连续文本进行语义分析，为每个连续的文本块分别生成由解析树构成的列表；

步骤2-2、结合文本数据的信息结构、担任特定角色的术语的类别、文本数据的类别，将复杂的语义分解为层次语义结构，如下步骤2-3、步骤2-4，层次语义结构示例如图4所示(添加下述内容：图中的文本“爱迪生发明了将黑夜照亮的白炽灯”，实际上是由两个基本表达“爱迪生发明了白炽灯”和“白炽灯将黑夜照亮”嵌套而成。具体来说，基本表达1“fact|爱迪生，发明了，将黑夜照亮的白炽灯”构成第一层语义，其中“爱迪生”是施事，“白炽灯”是受事。而“将黑夜照亮的白炽灯”则构成关于“白炽灯”的嵌套子层，也可以说“将黑夜照亮的白炽灯”是一个以“白炽灯” 为中心词的短语。故“白炽灯”则作为嵌套点将两层语义耦合起来。)；

步骤2-3、得到如前所述的层次语义结构，每个层次包含若干个关于事实或概念的语义块；

步骤2-4、按照后序遍历的顺序，优先对嵌套层的语义块执行查询等操作，确定其外延，以此类推；

步骤2-5、如图3所示，进行实体对齐，首先根据实体名称判断实体库中是否有同名实体，若无则生成新实体对，添加到实体库中，否则获取到所有同名的实体对，计算目标实体对与获取到各个实体对之间的相似度，根据类别标签、属性标签、非结构化文本关键词分别相似度，对计算得到的结果综合打分候选排序，若得分小于阈值，则将目标实体添加到实体库中，否则选择得分最高的结果最为目标实体的对齐结果；

步骤2-6、实体对最近句法依赖动词提取，具体步骤如步骤2-7、步骤2-8、步骤 2-9、步骤2-10；

步骤2-7、分别提取与实体e

步骤2-8、提取与第2个实体e

′

步骤2-9、获取与第1个实体e

步骤2-10、通过判断动词V

算法2-1、提取实体的依存关联节点

算法2-2、提取与第2个实体发生依存关系距离最近的动词

算法2-3、提取与第1个实体发生主谓关系或前置宾语关系距离最近的动词

步骤3、采用多轮迭代的方式进行启发式学习，构建事件语义模型；

步骤3-1、对文本数据进行层次语义分析，根据层次语义结构生成映射知识、识别知识和关联知识；

步骤3-2、根据端样本产生的解析树和参数映射生成抽取知识，具体包括：

步骤3-2-1、为每一个有参数映射的语义层次单独构建映射规则；

步骤3-2-2、如果在同一个解析树中存在处于不同层次的参数映射，则需根据嵌套点构建包含这些层次的识别规则；

步骤3-2-3、如果在不同的解析树中存在关于同一个目标结构的参数映射，则将尝试根据关联点构建跨句块的识别规则；

步骤3-2-4、如果端样本中出现了多个句块(即相应地存在多个解析树)，且这些句块都包含有参数映射，而端样本中又没有提供关于这些句块的关联标注信息，则应主动提示用户补充相应的关联标注；

步骤3-2-5、如果某个层次的中心词被抽取，而这个层次中其他成分没有发生抽取，则该层次可被忽略；

步骤4、基于端样本的三元组抽取；

步骤4-1、根据输入文本的层次语义结构得到原生一阶逻辑式；

步骤4-2、利用一阶逻辑式进行关联推理，利用上下文之间的缺省、指代、合一关系实现一阶逻辑式的变量合一。得到经过缺省恢复、指代消解、实体合一后的合一化一阶逻辑式；

步骤4-3、利用合一化一阶逻辑式进行映射推理，每个独立的一阶逻辑式都可能产生若干个原生目标结构片段；

步骤4-4、利用合一化一阶逻辑式或目标结构片段进行识别推理，得到若干个耦合目标结构片段；

步骤4-5、如果位置相邻或重叠的两个耦合目标结构片段的谓词相同，但参数完全不同，或相同的参数的值也相同，则可将两者直接合并为一个更大的目标结构作为最终输出。否则执行步骤4-6；

步骤4-6、将两者视为同一个谓词的不同的目标结构实例，都作为最终输出；

步骤4-7、重复步骤4-5、步骤4-6，直到不再产生新的、更大的耦合目标片段，就得到了所有的目标结构实例，这些目标结构实例就是最终输出。

步骤5、对利用步骤三和步骤四抽取出的三元组知识的一些应用：如智能搜索，百度搜索现任美国总统，显示的结果主要是某总统A，还有关于某总统B的，说明检索技术还需进一步完善；智能问答，可以看做是语义搜索的延伸，应用如聊天机器人，不仅提供情景对话，也能够提供各行各业的知识，它依赖的知识图谱是开放领域的知识图谱，提供的知识非常宽泛，能够为用户提供日常知识，也能进行聊天式的对话；个性化推荐系统通过收集用户的兴趣偏好、属性，产品的分类、属性、内容等，分析用户之间的社会关系，用户和产品的关联关系，利用个性化算法，推断出用户的喜好和需求，从而为用户推荐感兴趣的产品或者内容；辅助决策，就是利用知识图谱的知识，对知识进行分析处理，通过一定规则的逻辑推理，得出对于某种结论，为用户决断提供支持。

本发明提供了一种改进的篇章级三元组信息抽取方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种改进的篇章级三元组信息抽取方法 [P] . 中国专利： CN113312922A . 2021-08-27
2. 一种基于篇章信息的中文水果品种信息抽取方法及装置 [P] . 中国专利： CN106649264B . 2019.07.05
3. Improvements in the Method of and Means for Automatically Mixing or Combining Acetylene Gas with Oxygen, and Acetylene Gas Mixed with other Gas or Gases with Oxygen, and for Drawing or Forcing such Gas or Mixed Gases for the Production of a Flame or Flames of such Combined Gases. [P] . 英国专利： GB190303791A . 1904-02-04

机译：乙炔气与氧气自动混合或合并，乙炔气与其他气体或氧气混合的方法以及用于抽取或强迫这种气体或混合气体以产生一种或多种这种火焰的方法和手段的改进气体。
4. A method for learning the occurrence of an LDW alarm with reference to ADAS, V2X required to satisfy Levels 4 and 5 of an autonomous vehicle, or information on driving conditions used for driver's safety, and apparatus [P] . 日本专利： JP2020126611A . 2020-08-20

机译：一种用于参考满足自动驾驶汽车的4级和5级所需的ADAS，V2X或关于用于驾驶员安全的驾驶条件的信息来学习LDW警报发生的方法和装置
5. An Improved Method for Withdrawing Liquids from Barrels or Tanks [P] . 英国专利： GB190123683A . 1902-11-13

机译：一种从桶或罐中抽取液体的改进方法