首页> 中国专利> 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法

一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法

摘要

本发明公开了一种结合信息量和BERT‑BiLSTM‑CRF的NLP知识图谱构建方法,通过分析知网期刊论文数据的结构并结合自然语言处理的研究任务提出自然语言处理领域知识图谱的模式层结构;之后通过提出一种新词发现的算法获得论文数据中的关键术语实体类,提出一种特征融合多分类的算法获得论文细粒度的NLP研究任务实体类。进而完成知识抽取模块对三元组的获取,最终构建完成自然语言处理知识图谱。本发明的新词识别算法弥补了传统技术上仅仅使用信息量来获取新词的缺陷,极大地提高了新词发现的效果。使用XGBoost模型对论文细粒度研究任务的分类相比于其他机器学习模型准确率较高,此外经过特征融合,分类模型的准确率相比于未经特征融合模型的分类准确率提升了约五个百分点。

著录项

  • 公开/公告号CN114817454A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 北京邮电大学;

    申请/专利号CN202210150583.0

  • 申请日2022-02-18

  • 分类号G06F16/33(2019.01);G06F16/35(2019.01);G06F16/36(2019.01);G06N20/00(2019.01);

  • 代理机构北京市商泰律师事务所 11255;

  • 代理人邹芳德

  • 地址 100876 北京市海淀区西土城路10号

  • 入库时间 2023-06-19 16:11:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022101505830 申请日:20220218

    实质审查的生效

说明书

技术领域

本申请涉及计算机技术领域,尤其涉及一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法。

背景技术

近几十年以来,自然语言处理处于快速发展阶段,与自然语言处理相关的学术研究论文数据量剧增,不管是学术界还是工业生产上,针自然语言处理领域相关论文的查阅需求愈发强烈,但自然语言处理领域多样的研究内容以及繁杂的概念关系给人们阅读论文带来了不小的挑战。

在对垂直领域知识图谱进行构建时,最重要的两个子任务是知识图谱模式层的构建以及知识抽取。知识图谱在逻辑上可以分为模式层和数据层两个层次。其中数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。模式层构建在数据层之上,定义了知识图谱的概念和概念间的联系等。通过模式层的定义可以规范整个知识图谱的数据结构化的表达;知识图谱的基本组成单位是“实体-关系-实体”三元组,知识抽取的主要目的就是为了获取三元组从而构成网状的知识图谱。

现有技术一的技术方案

与本发明技术方案相关的现有技术其中之一,是知识图谱的构建。对于知识图谱的构建技术,目前只有两种方法:人工构建和自动构建。人工构建是利用人力资源去构建知识图谱。与人工构建相比,自动构建的应用较为广泛,在目前已知的各类领域中,进行知识图谱构建方式几乎都是利用自动构建技术。究其原因,是自动构建技术就有它本身的优势:利用一些算法去进行识别实体以及实体关系,能够将构建技术有一个通用的发展,还能够将自动构建技术应用到各个领域之中。其实主要技术就包括了:实体识别以及关系抽取,在进行两部分之后,去利用一些知识融合及加工,从而形成大量的三元组,然后去构成一个巨大的网状的知识图谱。自动构建知识图谱的流程图如图1所示:

现有技术一的缺点

知识图谱人工构建采用人工方式,往往存在着构建时间过长,人工成本过高的问题,除此之外,利用人工构建技术如果想要去建立较大的知识图谱,需要的人力比较多,从而有较高的人工费用,构建巨大的知识图谱很难实现。所以,只有早期的研究中使用人工构建的办法,在自动构建技术出现后,人工构建技术就被研究人工摒弃。

而通过自动构建知识图谱的方式,往往存在着本体层定义比较复杂,特别是针对特定领域知识图谱,没有可复用的本体层。通过半自动化以及自动化本体构建方法,较纯手工的本体构建方法相比,这些方法节省了效率,但没有达到本体方法学的标准。此外通过自动构建知识图谱的方式存在着算法准确率有所缺失的问题。本发明方案通过调研,首次定义了自然语言处理领域的本体层。同时通过将信息量和深度学习算法相结合,并使用BERT提出一种新词发现算法,并提出一种基于XGBoost的特征融合文本多分类的算法提高了算法的准确率。

与本发明技术方案相关的现有技术二

现有技术二的技术方案

与本发明技术方案相关的现有技术其中之二,是知识图谱模式层的定义。知识图谱在逻辑上可以分为模式层和数据层两个层次。其中数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。模式层构建在数据层之上,定义了知识图谱的概念和概念间的联系等。主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构强,并且冗余程度较小。垂直领域知识图谱通常需要专家来定义本体,完成对模式层的定义,以便搭建的领域知识图谱能够囊括该领域的所有重要知识。模式层的构建方法主要分为三种:手工构建、半自动构建和自动构建。目前比较成熟的构建方法有IDEF-5、TOVE法、骨架法、KACTUS法、七步法和循环获取法。

现有技术二的缺点

采用半自动化以及自动化本体构建方法相较于手工的本体构建方法,这些方法节省了效率,但是没有达到本体方法学的标准。由于没有可复用的自然语言处理本体,论文将通过七步法并结合自然语言处理领域的特点首次构建自然语言处理模式层。

与本发明技术方案相关的现有技术三

1.5.1现有技术三的技术方案

与本发明技术方案相关的现有技术三,通过使用新词发现算法找出摘要中的关键术语,关键术语是定义的自然语言处理模式层中非常重要的一类实体。知识图谱知识抽取一般要通过命名实体识别和关系抽取的方法,通过命名实体识别的方法获取其中的实体,通过关系抽取的方式获取实体之间的关系,但是目前存在的命名实体识别算法识别的是人名、地名、机构名,并且大多数是识别通用领域的实体,对于特定领域专业术语的识别准确率较低,本发明中希望使用新词发现算法找到对应的专业术语。

目前比较常见的算法是结合信息量和深度学习的领域新词发现算法【黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(07):1903-1907+1914.】。该算法提出一种对分词结果计算信息量且将深度学习模型BiLSTM-CRF用于新词发现的方法,计算出的信息量用以表示词语内部粘合度和分离度,并加入人工规则进行过滤。BiLSTM-CRF模型精度高,对词向量的依赖小,考虑到上下文信息。信息量和深度学习模型两部分的结合解决了大量人工序列标注问题。提高了低频新词的识别率。

现有技术三的缺点

该发明技术方案提出的新词发现模型在传统信息量统计方法的技术上,结合了深度学习BiLSTM-CRF序列标注算法,根据文本的上下文信息,识别出低频的新词,大大提高了新词识别的效率和准确度。但是由于模型BiLSTM对单词的特征抽取能力不够强,导致新词识别的准确率还有待提升。

与本发明技术方案相关的现有技术四

现有技术四的技术方案

与本发明技术方案相关的现有技术四,是通过文本多分类找出每篇期刊论文细粒度的研究任务分类。关于自然语言处理的研究任务,目前并没有细粒度的研究任务定义,只是简单分为四大类:序列标注任务、分类任务、句子关系判断和生成式任务。但针对自然语言处理这一特定领域,读者往往期望获取更加细粒度的研究任务,通过更细粒度的研究任务类别快速筛选论文。

当前学者所做的文本分类成果较多。有基于短文本评论数据进行的情感极性分类:其中王献伟【王献伟.文本情感分析在商品评论中的应用研究——以京东智能冰箱评论为例[D].浙江工商大学,2018.】以京东智能冰箱的评论数据对文本情感进行正负极性分类;还有学者基于文本主题进行分类:其中霍婷婷【霍婷婷.基于fastText的新闻文本分类研究及在农业新闻中的应用[D].吉林大学,2019.】基于FastText模型的三种改进算法对新闻文本进行分类,主要分为农业和非农业新闻;景永霞【景永霞,王治和,苟和平.基于矩阵奇异值分解的文本分类算法研究[J].西北师范大学学报,2018,54(3):51-56.】等人基于矩阵SVD的方法对10个类别的文本数据进行了多分类,相较于以往基于信息增益的KNN算法分类性能有所提高;也有学者没有按主题而是按文档的整体情感对文档进行了分类【PangB.,L.Lee,S.Vaithyanathan.Thumbs up?Sentiment Classification using MachineLearning Techniques[J].EMNLP'02:Proceedings of the ACL-02conference onEmpirical Methods in Natural Language Processing,2002,10:79-86.】。本文就含有48个类别的知网期刊论文数据基于XGBoost进行单标签下的文本多分类,分析分类模型的性能优劣。

现有技术四的缺点

目前常见的机器学习算法比如逻辑回归、朴素贝叶斯、随机森林、linearSVC等算法对于数据中的缺失值处理不够完善,并且目前仅仅使用论文数据中的摘要特征进行文本多分类,没有充分使用获取的数据信息,最终分类效果较差。本发明选用了五种机器学习算法和LSTM深度学习算法进行文本多分类实验,并对比TF-IDF、Word2vec和Doc2Vec三种不同特征提取算法,通过理论和实验结果证明使用TF-IDF进行特征提取,通过融合多种特征并基于XGBoost算法进行文本多分类效果最好。

发明内容

基于以上研究缺点,本发明针对背景技术中提及的两个子任务为落脚点,通过分析知网期刊论文数据的结构并结合自然语言处理的研究任务提出自然语言处理领域知识图谱的模式层结构;之后通过提出一种新词发现的算法获得论文数据中的关键术语实体类,提出一种特征融合多分类的算法获得论文细粒度的NLP研究任务实体类。进而完成知识抽取模块对三元组的获取,最终构建完成自然语言处理知识图谱。

为实现本发明的发明目的,本发明提供的技术方案是:一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,包括以下步骤:

步骤1),定义NLP知识图谱模式层;

定义模式层描述图谱中的实体、关系和属性;

步骤2),数据集构建:

NPL论文数据获取,通过爬虫的方法获取自然语言处理领域的数据并进行数据标注;

步骤3),新词发现:

通过使用新词发现算法找出摘要中的关键术语;

新词算法包括以下步骤:通过统计信息量获取候选新词,通过BiLSTM-CRF模型识别出低频新词,通过在BILSTM前面加入BERT的使用,获取输入文本对应的向量,通过使用向量表示上下文信息获取更多的低频新词,通过模型测试与评估后,完成新词发现;

步骤4),文本多分类;

定义细粒度NLP的研究任务,通过基于特征融合的文本多分类模型得出细粒度NLP的研究任务。

步骤5),知识图谱构建;

将三元组数据通过Neo4j图数据库进行存储和可视化展示,最终完成了NLP知识图谱的构建。

所述的步骤1)中,模式层定义通过以下步骤完成,

步骤1.1),确定本体构建的领域和范围为自然语言处理领域;

步骤1.2),分析本领域内是否有可以复用的本体;

步骤1.3),整理确定领域本体中的重要术语;

步骤1.4),确定本体中类的结构层次;

步骤1.5),确定类的属性信息;

步骤1.6),确定类属性的约束条件;

步骤1.7),对本体进行实例化。

所述的步骤1)中,实体及属性定义,通过构建自然语言处理知识图谱,最终设计图谱中的实体包括:论文、研究任务、关键术语,并在这些实体的基础上定义属性和关系。

所述的步骤2)中,爬取论文的内容包括标题、作者、发表单位、发表时间、发表刊物、关键词、摘要,利用爬取的数据进行知识抽取,以获得三元组形式的知识数据。

所述的步骤4)中,所述的基于特征融合的文本多分类模型包括特征融合模块和文本分类模块,所述的特征融合模块为:经过预处理后的数据通过使用TF-IDF词向量算法,将文本转化成向量进行表示,然后通过将标题、关键词、作者、发表时间、发表机构、、发表单位的特征融合后转化成向量作为文本分类模块的输入;所述的文本分类模块使用XGBoost算法进行分类处理。

所述的步骤5)中,使用neo4j图数据库作为自然语言处理知识图谱存储与可视化展示的工具。

通过neo4j交互式界面供用户对图谱进行探索或通过Cypher查询语言对图谱数据库进行检索。

本发明的有益效果是:

(1)自动构建知识图谱的方式模式层定义比较复杂,特别是针对自然语言处理这一特定领域,没有可复用的本体层。本发明通过定义知识图谱模式层,并结合行业数据库标准和人工定义,采用自顶向下的方法定义了图谱内的实体、关系和概念,从而完成了自然语言处理知识图谱模式层的定义。

(2)通过使用新词发现算法找出摘要中的关键术语,关键术语是定义的自然语言处理模式层中非常重要的一类实体。目前存在的新词识别算法对于单词上下文信息的特征抽取能力不够强。现有新词发现技术通过结合信息量和深度学习BiLSTM-CRF算法来识别领域术语,弥补了传统技术上仅仅使用信息量来获取新词的缺陷,通过使用深度学习算法可以更加准确的识别低频新词,但是仅仅使用BiLSTM-CRF算法对于中文词语上下文信息的特征抽取能力不够强,导致新词识别的效果有待提升。本发明中通过加入BERT模型,使用BERT获取的向量具有更强大的提取文本上下文信息的能力,极大地提高了新词发现的效果。

(3)通过使用文本多分类算法找出每篇期刊论文细粒度的NLP研究任务分类。目前常见的文本分类机器学习算法对于数据中的缺失值处理不够完善,并且目前仅仅使用论文数据中的摘要特征进行文本多分类,没有充分使用获取的数据信息,特征提取不够完善最终分类效果较差。本发明中对比了五种机器学习算法和一种深度学习算法,并且对比了三种特征提取算法,经过实验对比发现使用XGBoost模型对论文细粒度研究任务的分类相比于其他机器学习模型准确率较高,此外经过特征融合,分类模型的准确率相比于未经特征融合模型的分类准确率提升了约五个百分点。实验证明了本发明提出的特征融合的文本分类算法对于期刊论文的多分类任务有较高的准确率。

本文中缩略语和关键术语定义:

知识图谱

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组或者“实体-属性-属性值”的形式,实体间通过关系相互联结,构成网状的知识结构。知识图谱分为两类,通用知识图谱因其知识覆盖范围广、涵盖领域多的特性,是目前最常见的也是使用最多的知识图谱类型。领域知识图谱主要针对特定领域,强调知识的深度。

知识图谱通过网状的结构关系,以结构化三元组的形式存储知识,可以更加贴切的展示、存储和管理复杂的知识体系,满足本发明的需求。

新词发现

新词发现是也可称为未登录词识别,严格来说,新词是指随时代发展而新出现或旧词新用的词,如:给力、山寨等;而未登录词是在词典中未存在的词,但实际使用中,两者并没有严格的区分。本发明希望能根据论文摘要找出其中的关键术语,由于是无监督数据,通过命名实体识别的方式对于识别领域术语效果不是很好,而命名实体识别本质是是属于新词发现的一种。目前新词发现的方式主要分为四大类:基于规则、基于统计、基于规则和统计相结合的方法以及基于深度学习的方法。目前比较常见的是基于规则和统计相结合的方法。

文本多分类

文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类任务一般分为两大类,输入文本对应一个输出类别的分类称为单标签分类;若输入一个文本,输出类别大于或等于二,则称为多标签分类。其中,单标签分类又分为二元文本分类和多类别文本分类:二元文本分类就是数据集仅有两个类别,多类别文本分类的数据集有超过两个的类别。本发明通过特征融合的方式为含有48中类别的论文数据基于XGBoost进行单标签下的文本多分类,分析分类模型的性能优劣,为每篇期刊论文确定一个细粒度的自然语言处理研究任务类别。

附图说明

图1为现有技术一的知识图谱构建流程图;

图2为现有技术三的新词发现算法流程;

图3为本发明的技术方案整体流程结构图;

图4为本发明的自然语言处理领域知识图谱模式层框架图;

图5为本发明中的爬虫工作流程图;

图6为本发明中的新词发现算法流程图;

图7为本发明中的基于特征融合的文本多分类模型图;

图8为本发明中的研究任务整体节点示意图;

图9为本发明中的主题模型相关节点图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述。

本发明技术方案的实施过程包括以下五个步骤:定义NLP模式层、获取NLP论文数据、新词发现、文本多分类、完成知识图谱的构建。整体结构图如图3所示:

步骤1),定义NLP知识图谱模式层

模式层描述图谱中的实体、关系和属性,是知识图谱的框架。在领域知识图谱中,通常需要深入理解领域知识,结合领域数据模式进行模式层的定义。本发明通过七步法定义了NLP知识图谱的模式层。

(1)首先确定本体构建的领域和范围为自然语言处理领域,本实施例的数据来源为知网的自然语言处理领域的2011-2020年这十年之间发表的期刊论文;

(2)之后分析本领域内是否有可以复用的本体:目前没有可复用的本体;

(3)整理确定领域本体中的重要术语;

(4)确定本体中类的结构层次;

(5)确定类的属性信息;

(6)确定类属性的约束条件;

(7)对本体进行实例化;

其中,关于实体及属性定义,

本发明首次构建自然语言处理知识图谱,最终设计图谱中的实体包括:论文、研究任务、关键术语等,并在这些实体的基础上定义属性和关系。最后构建得到的NLP知识图谱的模式层框架图如图4所示:

具体的,各个主要实体的基本属性定义如下:

(1)论文。论文数据主要来源于知网2011-2020这十年间的期刊论文,论文类实体的属性包括:论文标题、作者、发表单位、发表时间、发表刊物、关键词、摘要。如表1所示:

表1论文实体属性及约束

(2)研究任务。研究任务的主要数据是来源于百度以及知网论文的统计数据,自然语言处理的研究任务属性包括:任务名称。如表2所示:

表2研究任务属性及约束

(3)关键术语。关键术语的主要数据来自于知网期刊论文的摘要,关键术语的属性包括:术语名称,如表3所示:

表3关键术语属性及约束

其次,关于关系定义:

根据本体及属性间在真实世界间的关系,本发明定义了它们在图谱中的关系和关系的属性。如表4所示:

表4图谱中的部分关系类型

步骤2),数据集构建

知识图谱模式层定义完毕后就要寻找合适的数据实例,不同于通用知识图谱往往构建于知识百科、开放链接数据,领域知识图谱因用于行业内使用,知识的专业知识覆盖度广,知识更加深入,开放百科数据无法满足数据需求。因此对于行业知识图谱的构建,行业的内部标准数据库、开放知识库、垂直网站是主要的数据来源。

本实施例中的数据主要是来自于知网2011-2020时间间自然语言处理领域的期刊论文,通过爬虫的方法获取了相关数据。具体的爬虫系统如图5所示:

经过以上爬虫流程的处理,最终获取了18345篇期刊论文,爬取论文的内容包括标题、作者、发表单位、发表时间、发表刊物、关键词、摘要。此外通过调研,共定义了48中自然语言处理的研究任务。在后续的处理中将会利用这些数据采用不同形式进行知识抽取,以获得三元组形式的知识数据。

步骤3),新词发现

该阶段的目的是通过使用新词发现算法找出摘要中的关键术语,关键术语是定义的自然语言处理模式层中非常重要的一类实体。

黄文明[黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(07):1903-1907+1914.]等人提出的结合信息量和深度学习的领域新词发现算法中,通过BiLSTM-CRF模型识别出了更多的低频新词。但是这种方式获取上下文信息的能力不够强,本发明中通过在BILSTM前面加入BERT的使用,获取输入文本对应的向量,从而提高了向量表示上新闻信息的能力,从而提高了新词识别的准确率。本发明提出的新的新词识别算法流程图如图6所示:

一方面通过统计信息量获取候选新词,另一方面通过使用深度学习模型,通过使用向量表示上下文信息获取更多的低频新词,此外把文本输入到BERT模型中来提高向量的上下文信息表示能力,从而极大地提升了新词识别的准确率。

步骤4),文本多分类;

该阶段的目的是通过定义细粒度NLP的研究任务,共计48种类别,基于XGBoost算法,通过特征融合的方式优化文本多分类算法,实现论文期刊研究任务多分类的目标。细粒度的研究任务也是定义的自然语言处理模式层中非常重要的一类实体。

该模块的整体实验模型图如图7所示。通过数据预处理、特征提取算法将文本转化成向量的形式输入到XGBoost算法中,输出结果就是针对每篇期刊论文的细粒度研究任务分类。整体模型图如图7所示:

整个模型由两部分组成:特征融合和和文本分类。特征融合模块通过使用TF-IDF词向量算法,将文本转化成向量进行表示,之后通过将标题、关键词、作者、发表时间、发表机构、、发表单位等特征融合转化成向量作为分类模型的输入。文本分类模块通过对比五种机器学习算法和深度学习算法LSTM,实验结果表明使用XGBoost算法效果较好,原因可能是因为XGBoost分类器能够对缺失的特征值进行自动学习处理,为避免陷入局部最优进行反向剪枝,可将成百上千个分类精准率低的模型组合成一个分类精准率较高的模型进行分类处理。实验结果表明,本专利提出的模型图具有较高的准确率。

步骤5),知识图谱构建

通过以上几个步骤,完成自然语言处理模式层的定义,并使用新词发现算法完成了关键术语实体类的抽取,通过特征融合文本多分类算法完成了细粒度研究任务类的抽取。该模块的主要作用是将三元组数据通过Neo4j图数据库进行存储和可视化展示,最终完成了NLP知识图谱的构建。使用neo4j图数据库作为自然语言处理知识图谱存储与可视化展示的工具,通过neo4j交互式界面可以供用户轻松地对图谱进行探索,亦可以通过Cypher查询语言对数据库进行检索。如图8是通过Cypher语言查询所有的研究任务类别,图9是查询的和“主题模型“研究任务相关的论文数据情况。

通过上述实施例的具体说明,可知本发明针对现有技术一知识图谱的构建本发明首次构建出自然语言处理领域知识图谱;该知识图谱的构建一方面可以为科研和工业生产上提供一种快速了解自然语言处理有效手段,另一方面可以为NLP的应用比如推荐系统、问答系统等提供基础知识库。

针对现有技术二模式层的定义本发明首次定义了自然语言处理领域的模式层:通过七步法,对实体及属性定义、实体关系进行定义,首次定义了自然语言处理知识图谱的模式层。

针对现有技术三新词发现算法本发明对新词发现算法进行改进,提出一种结合信息量和BERT-BiLSTM-CRF算法的新词识别模型,用于抽取关键术语实体类。

针对现有技术四文本多分类算法本发明对文本多分类算法进行改进,提出一种基于XGBoost的特征融合多分类算法,实现了48种细粒度研究任务的分类,通过该算法抽取研究任务实体类。

所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号