首页> 中国专利> 命名实体识别方法、装置、设备及计算机可读存储介质

命名实体识别方法、装置、设备及计算机可读存储介质

摘要

本申请实施例提供了一种命名实体识别方法、装置、设备及计算机可读存储介质,包括:获取待识别文本;对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。该方法通过对贵金属材料文本进行识别处理,得到贵金属材料文本中各个字对应的标注标签,根据各个字对应的标注标签,确定贵金属材料的命名实体,从而提升了人工智能领域中针对贵金属材料的命名实体识别的准确度。

著录项

说明书

技术领域

本申请涉及计算机技术领域,具体而言,本申请涉及一种命名实体识别方法、装置、设备及计算机可读存储介质。

背景技术

命名实体识别是人工智能的一个重要应用方向。命名实体是人名、机构名、地名以及其他所有以名称为标识的实体。随着信息技术的高速发展,在贵金属材料领域,科技信息成果呈现出大数据环境,例如锡、铟等贵金属材料领域不断产生高端论文、实用性专利等科技文献,即贵金属材料文本,从而有需求从大量贵金属材料文本中识别出贵金属材料的命名实体。但是,现有技术主要解决人名、机构名、地名的命名实体的识别问题,没有涉及贵金属材料的命名实体的识别;同时,贵金属材料文本中一般还存在实体互相嵌套、实体语义多样化等干扰,从而将导致贵金属材料的命名实体识别的准确率低。

发明内容

本申请针对现有的方式的缺点,提出一种命名实体识别方法、装置、设备及计算机可读存储介质,用以解决如何提高贵金属材料的命名实体识别的准确度的问题。

第一方面,本申请提供了一种命名实体识别方法,包括:

获取待识别文本;

对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;

根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。

在一个实施例中,对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签,包括:

将待识别文本输入至预设的神经网络包括的自然语言处理预训练语言表征模型,对待识别文本进行文本特征提取,得到表征文本特征的多个字向量;

将多个字向量输入至神经网络包括的双向长短期记忆网络模型,基于多个字向量进行上下文特征提取,得到表征上下文特征的多个隐向量;

将多个隐向量输入至所述神经网络包括的条件随机场模型,基于多个隐向量对待识别文本进行预测处理,得到待识别文本中各个字对应的标注标签;标注标签的类型包括第一标签和第二标签,类型为第一标签的标注标签包括字的实体位置和贵金属材料的命名实体的类型,第二标签用于表征非贵金属材料的命名实体的类型。

在一个实施例中,贵金属材料的命名实体的类型包括贵金属的名称、贵金属的性能、贵金属的参数值、贵金属的特征、针对贵金属的操作条件、针对贵金属的操作、操作中所使用方法的名称、操作中所使用装置的名称中的至少一项。

在一个实施例中,根据各个字对应的标注标签,确定至少一个命名实体,包括:

针对一个字,当一个字对应的标注标签是第一标签,且一个字对应的标注标签包括的实体位置是首位,则确定一个字为首位字;

在待识别文本中,从首位字开始向后进行遍历;

当遍历到的字对应的标注标签是第一标签、遍历到的字对应的标注标签包括的实体位置是非首位、且遍历到的字对应的标注标签包括的贵金属材料的命名实体的类型与首位字相同,则将遍历到的字确定为非首位字;

将首位字及非首位字共同确定为命名实体。

在一个实施例中,基于预设的贵金属材料的命名实体集合,构建训练样本集合;

基于训练样本集合,对待训练的神经网络进行训练,得到预设的神经网络;

对待训练的神经网络进行训练,得到预设的神经网络,包括:

初始化待训练的神经网络,并初始化包括神经网络参数的损失函数;

在待训练的神经网络每次迭代训练过程中执行以下处理:

以训练样本集合包括的训练文本为待训练的神经网络的输入样本,并以训练文本中各个字对应的预测标签为待训练的神经网络的输出结果,将输入样本和输出结果代入所述损失函数,以确定损失函数取得最小值时对应的神经网络参数;根据所确定的神经网络参数更新待训练的神经网络。

在一个实施例中,在基于预设的贵金属材料的命名实体集合,构建训练样本集合之前,还包括:

基于预设的数据词典和贵金属材料的命名实体的类型,通过分词方式或正则表达式,将数据词典中的词与贵金属材料的命名实体的类型进行匹配;

当词归属于贵金属材料的命名实体的类型,则将词确定为贵金属材料的命名实体集合中的贵金属材料的命名实体。

第二方面,本申请提供了一种命名实体识别装置,包括:

第一处理模块,用于获取待识别文本;

第二处理模块,用于对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;

第三处理模块,用于根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。

第三方面,本申请提供了一种电子设备,包括:处理器、存储器和总线;

总线,用于连接处理器和存储器;

存储器,用于存储操作指令;

处理器,用于通过调用操作指令,执行本申请第一方面的命名实体识别方法。

第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被用于执行本申请第一方面的命名实体识别方法。

本申请实施例提供的技术方案,至少具有如下有益效果:

获取待识别文本;对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。如此,通过对贵金属材料文本进行识别处理,得到贵金属材料文本中各个字对应的标注标签,根据各个字对应的标注标签,确定贵金属材料的命名实体,从而提升了人工智能领域中针对贵金属材料的命名实体识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的系统架构的示意图;

图2为本申请实施例提供的一种命名实体识别方法的流程示意图;

图3为本申请实施例提供的命名实体识别的示意图;

图4为本申请实施例提供的另一种命名实体识别方法的流程示意图;

图5为本申请实施例提供的一种针对命名实体识别装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面详细描述本申请的实施例,该实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请实施例是针对人工智能领域中的命名实体识别提供的一种命名实体识别方法,该命名实体识别方法涉及人工智能领域,以及云技术的多种领域,例如云技术中的云计算、云服务等。

人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。通过云计算,可以在很短的时间内完成对数以万计的数据的处理,从而达到强大的网络服务。

云服务是基于互联网的相关服务的增加、使用和交互模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云服务可以是AIaaS(AIas a Service,人工智能即服务),这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。

为了更好的理解及说明本申请实施例的方案,下面对本申请实施例中所涉及到的一些技术用语进行简单说明。

神经网络:是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。

损失函数:损失函数是用来评估模型的预测值与真实值之间的差异程度。另外损失函数也是神经网络中优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真实值,模型的准确性也就越好。

准确率:精确率是针对预测结果而言的,精确率表示的是预测为正的样本中有多少是真正的正样本。

召回率:召回率是针对原来的样本而言的,召回率表示的是样本中的正例有多少被预测正确了。

BERT:BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言处理预训练语言表征模型,BERT强调了不再采用传统的单向语言模型或者将两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的MLM(Masked LanguageModel,掩码语言模型),以致能生成深度的双向语言表征。BERT可以初始化输入文本中的字向量,记为序列X=(x

BI-LSTM:BI-LSTM(Bi-directional Long-Short Term Memory,双向长短时记忆网络)是由前向LSTM与后向LSTM组合而成,前向LSTM与后向LSTM在自然语言处理任务中都常被用来建模上下文信息。通过BI-LSTM可以更好的捕捉双向的语义依赖。BI-LSTM为双向LSTM层,第一层获取的n维字向量作为双向长短时记忆神经网各个时间步的输入,得到双向LSTM层的前向隐状态序列

CRF:CRF(条件随机场,Conditional Random Field)是一种基于遵循马尔可夫性的概率图模型。CRF结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。CRF是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。CRF用来分割和标记序列数据,根据输入的观察序列来预测对应的状态序列,同时考虑输入的当前状态特征和各个标签类别转移特征,被广泛应用于命名实体识别NER的问题中。CRF应用到命名实体识别的问题中主要是根据BiLSTM模型的预测输出序列,求出使得目标函数最优化的序列。

命名实体识别(NER,Named Entity Recognition):指识别文本中的命名实体,可通过训练相应模型来实现命名实体识别。

BIO标注体系:对文本中的元素进行标注的一种方式,将元素标注为“B-X”、“I-X”或者“O”,其中,“B-X”中的“B”表示该元素的实体位置为首位,“I-X”中的“I”表示该元素的实体位置为非首位,“B-X”和“I-X”中的“X”表示该元素的实体类型为X类型,“O”表示该元素不属于任何类型,元素可为文本中的字。

众包式标注:一般指非职业的标注者愿意以较低的报酬在一些平台上,帮助科研工作者或者公司来标注数据,由于参与人数较多,众包式标注一般标注周期短,数量大而且成本较低。

本申请实施例提供的方案涉及人工智能技术,下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本申请实施例所提供的方案可以适用于人工智能领域中任意需要命名实体识别的应用场景。通过该方案确定通过对贵金属材料文本进行识别处理,得到贵金属材料文本中各个字对应的标注标签,根据各个字对应的标注标签,确定贵金属材料的命名实体,从而提升了人工智能领域中针对贵金属材料的命名实体识别的准确度。为了更好的理解本申请实施例提供的方案,下面结合具体的一个应用场景对该方案进行说明。

在一个实施例中,图1中示出了本申请实施例所适用的一种命名实体识别系统的结构示意图,可以理解的是,本申请实施例所提供的命名实体识别方法可以适用于但不限于应用于如图1所示的应用场景中。

本示例中,如图1所示,该示例中的命名实体识别系统可以包括但不限于服务器101、网络102、安装了客户端程序的用户终端103。用户终端103可以通过网络102与服务器101通信。服务器101包括的数据库1011和处理引擎1012。用户终端103中包括人机交互屏幕1031(应用程序的用户界面),处理器1032及存储器1033;其中,人机交互屏幕1031用于用户通过该人机交互屏幕浏览待识别文本,处理器1032用于处理该用户的相关操作,存储器1033用于存储该待识别文本。

如图1所示,本申请中的命名实体识别方法的具体实现过程可以包括步骤S1-S5:

步骤S1,对于任一用户,可以通过用户终端103的人机交互屏幕1031浏览待识别文本,待识别文本包括贵金属材料文本,用户终端103将待识别文本发送给服务器101。

步骤S2,服务器101中的处理引擎1012获取待识别文本;其中,服务器101中的数据库1011可以用于存储待识别文本。

步骤S3,服务器101中的处理引擎1012对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;其中,服务器101中的数据库1011还可以用于存储待识别文本中各个字对应的标注标签。

步骤S4,服务器101中的处理引擎1012根据各个字对应的标注标签,确定至少一个命名实体,至少一个命名实体包括贵金属材料的命名实体;其中,服务器101中的数据库1011还可以用于存储至少一个命名实体。

步骤S5,服务器101将至少一个命名实体发送给用户终端103。

可理解,上述仅为一种示例,本实施例在此不作限定。

其中,服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。上述网络102可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、Wi-Fi及其他实现无线通信的网络。用户终端103可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(MobileInternet Devices,移动互联网设备)、PDA(个人数字助理)、台式计算机、车载终端(例如车载导航终端)、智能音箱、智能手表等,用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,但并不局限于此。具体也可基于实际应用场景需求确定,在此不作限定。

参见图2,图2示出了本申请实施例提供的一种命名实体识别方法的流程示意图,其中,该方法可以由任一电子设备执行,如可以是服务器,作为一可选实施方式,该方法可以由服务器执行,为了描述方便,在下文的一些可选实施例的描述中,将以服务器作为该方法执行主体为例进行说明。如图2所示,本申请实施例提供的命名实体识别方法包括如下步骤:

S101,获取待识别文本。

在一个实施例中,可以从线上业务流、数据库或其他数据来源获取待识别文本,待识别文本可以是公众号发布文章,可以是科技文本库中的学位论文、期刊论文、专利实施例等。待识别文本可以为贵金属材料文本。

S102,对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签。

在一个实施例中,待识别文本中各个字对应的标注标签采用BIO标注体系。BIO标注体系是对文本中的字进行标注的一种方式,将字标注为“B-X”、“I-X”或者“O”,其中,“B-X”中的“B”表示该字的实体位置为首位,“I-X”中的“I”表示该字的实体位置为非首位,“B-X”和“I-X”中的“X”表示该字的实体类型为X类型,“O”表示该元素不属于任何类型。X类型可以为贵金属材料的命名实体的类型。

在一个实施例中,贵金属材料的命名实体的类型包括贵金属的名称、贵金属的性能、贵金属的参数值、贵金属的特征、针对贵金属的操作条件、针对贵金属的操作、操作中所使用方法的名称、操作中所使用装置的名称中的至少一项。

举例说明,贵金属材料中诸如合金、助焊剂等材料繁多,使用不同的物质组合及配比,在不同的实验条件下将会得到不同的性能,性能参数使用不同的单位表述。贵金属材料的命名实体的类型包括:材料(贵金属的名称)、条件(针对贵金属的操作条件)、性能(贵金属的性能)、值(贵金属的参数值)、特征(贵金属的特征)、操作(针对贵金属的操作条件)、方法(操作中所使用方法的名称)、装置(操作中所使用装置)等。其中,材料:句子中出现的材料;条件:侧重于操作条件的说明,例如温度、压强、含量、酸值等;性能:侧重于主体或者目标材料的属性,例如密度、熔点、沸点、粘度等;值:包括范围、数值,例如“10小时”、“1-5Mpa(兆帕)”;操作:例如搅拌、加热、超声波震荡、通电烧结、预烧、研磨、抛光、加入、混合、热压、复烧等;方法:操作使用的方法,例如“使用凝结法沉淀”中方法为“凝结法”;装置:操作使用的装置,例如“在反应釜中加热”中装置为“反应釜”。

在一个实施例中,对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签,包括步骤A1-A3:

步骤A1,将待识别文本输入至预设的神经网络包括的自然语言处理预训练语言表征模型,对待识别文本进行文本特征提取,得到表征文本特征的多个字向量。

在一个实施例中,如图3所示,自然语言处理预训练语言表征模型为BERT模型,待识别文本为贵金属材料文本,例如,贵金属材料文本包括:纯度为1%的氯化钠注入。将贵金属材料文本输入至BERT模型,对贵金属材料文本进行文本特征提取,得到表征文本特征的多个字向量。

步骤A2,将多个字向量输入至神经网络包括的双向长短期记忆网络模型,基于多个字向量进行上下文特征提取,得到表征上下文特征的多个隐向量。

在一个实施例中,如图3所示,将多个字向量输入至神经网络包括的双向长短期记忆网络BiLSTM模型,基于多个字向量进行上下文特征提取,得到表征上下文特征的多个隐向量,多个隐向量例如,h

步骤A3,将多个隐向量输入至所述神经网络包括的条件随机场模型,基于多个隐向量对待识别文本进行预测处理,得到待识别文本中各个字对应的标注标签;标注标签的类型包括第一标签和第二标签,类型为第一标签的标注标签包括字的实体位置和贵金属材料的命名实体的类型,第二标签用于表征非贵金属材料的命名实体的类型。

在一个实施例中,如图3所示,将多个隐向量h

举例说明,“纯度为1%的氯化钠注入”中的“纯”对应的标注标签为B-性能,“度”对应的标注标签为I-性能,“为”对应的标注标签为O,“1”对应的标注标签为B-值,“%”对应的标注标签为I-值,“的”对应的标注标签为O,“氯”对应的标注标签为B-材料,“化”对应的标注标签为I-材料,“钠”对应的标注标签为I-材料,“注”对应的标注标签为B-操作,“入”对应的标注标签为I-操作。

S103,根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。

在一个实施例中,如图3所示,“纯度为1%的氯化钠注入”中的纯度、1%、氯化钠、注入都为贵金属材料的命名实体。

在一个实施例中,根据各个字对应的标注标签,确定至少一个命名实体,包括步骤B1-B4:

步骤B1,针对一个字,当一个字对应的标注标签是第一标签,且一个字对应的标注标签包括的实体位置是首位,则确定一个字为首位字。

举例说明,如图3所示,“纯度为1%的氯化钠注入”中的“纯”对应的标注标签为B-性能,B-性能为第一标签,纯为首位字。

步骤B2,在待识别文本中,从首位字开始向后进行遍历。

举例说明,如图3所示,“纯度为1%的氯化钠注入”中的“纯”为首位字,从该首位字开始向后进行遍历。

步骤B3,当遍历到的字对应的标注标签是第一标签、遍历到的字对应的标注标签包括的实体位置是非首位、且遍历到的字对应的标注标签包括的贵金属材料的命名实体的类型与首位字相同,则将遍历到的字确定为非首位字。

举例说明,如图3所示,“纯度为1%的氯化钠注入”中的“度”对应的标注标签为I-性能,I-性能为第一标签,度为非首位字。

步骤B4,将首位字及非首位字共同确定为命名实体。

举例说明,如图3所示,“纯度为1%的氯化钠注入”中的纯度为贵金属材料的命名实体。

在一个实施例中,基于预设的贵金属材料的命名实体集合,构建训练样本集合;基于训练样本集合,对待训练的神经网络进行训练,得到预设的神经网络。

在一个实施例中,基于预设的贵金属材料的命名实体集合,将贵金属材料文本进行标注,得到训练样本;例如,贵金属材料文本为:“在无水、无氧、并有氮气的保护条件下,按照质量份计,将1份二甲苯、0.8份金属钠投入分散釜中,封闭锅口,开夹套蒸汽加热至90-130℃(摄氏度),以300-2500转/分的搅拌分散金属钠2-40分钟,使钠分散成120pm(皮米)以下的微粒,加入0.02份氯代正丁烷进行第一次引发”。将贵金属材料文本进行标注,得到的训练样本为:“在<条件>无水、<条件>无氧、并<条件>有氮气的保护条件下,按照质量份计,将<值>1份<材料>二甲苯、<值>0.8份金属<材料>钠投入<装置>分散釜中,封闭锅口,开夹套蒸汽<操作>加热至<值>90-130℃,以<值>300-2500转/分的<操作>搅拌分散金属<材料>钠<值>2-40分钟,使<材料>钠分散成<值>120pm以下的微粒,加入<值>0.02份<材料>氯代正丁烷进行第一次引发”。

在一个实施例中,对待训练的神经网络进行训练,得到预设的神经网络,包括步骤C1-C2:

步骤C1,初始化待训练的神经网络,并初始化包括神经网络参数的损失函数。

步骤C2,在待训练的神经网络每次迭代训练过程中执行以下处理:

以训练样本集合包括的训练文本为待训练的神经网络的输入样本,并以训练文本中各个字对应的预测标签为待训练的神经网络的输出结果,将输入样本和输出结果代入所述损失函数,以确定损失函数取得最小值时对应的神经网络参数;根据所确定的神经网络参数更新待训练的神经网络。

在一个实施例中,在基于预设的贵金属材料的命名实体集合,构建训练样本集合之前,还包括:

基于预设的数据词典和贵金属材料的命名实体的类型,通过分词方式或正则表达式,将数据词典中的词与贵金属材料的命名实体的类型进行匹配;

当词归属于贵金属材料的命名实体的类型,则将词确定为贵金属材料的命名实体集合中的贵金属材料的命名实体。

在一个实施例中,分词方式包括基于最大分词法检索数据字典有关材料、性能、装置的词,将命中的词识别为命名实体中的材料、性能、装置。例如,在数据词典中出现“锡”、“四丁基锡”、“四氯化锡”、“二氧化硫”、“正丁烷”、“氯代正丁烷”等词,在句子“四丁基锡所需,原料组分,按照质量份计分别为:活泼金属钠0.8份、氯代正丁烷1份、四氯化锡1份、二甲苯1份”中,依据数据词典中的词将会识别出“四丁基锡”、“氯代正丁烷”、“四氯化锡”等词。

在一个实施例中,以正则表达式匹配是否出现“数字+单位”、“数字+数字+单位”等模式的词,将命中的记录识别为值。例如,定义包含单位的词表有“重量份”、“万”、“%”、“份”、“小时”、“分钟”、“周/分钟”、“转/分钟”等,定义的数字格式为阿拉伯数字或者中文数字字符,则可以识别如“0.8份”、“一分钟”等表示值的贵金属材料的命名实体。

在一个实施例中,以正则表达式匹配是否出现“元素周期表字母++数字+”等模式的词,将命中的记录识别为材料。例如,元素周期表中表示硅的元素为“Si”,元素氧为“O”,则实体二氧化硅可能表示为“SiO2”或者“SiO2”。从句子“制备核壳结构的Si02同上面制备类似,只是保留Si027板”中,识别出贵金属材料的命名实体“Si02”、“Si027”。

本申请实施例中,通过对贵金属材料文本进行识别处理,得到贵金属材料文本中各个字对应的标注标签,根据各个字对应的标注标签,确定贵金属材料的命名实体,从而提升了人工智能领域中针对贵金属材料的命名实体识别的准确度和召回率。

为了更好的理解本申请实施例所提供的方法,下面结合具体应用场景的示例对本申请实施例的方案进行进一步说明。

本申请实施例所提供的命名实体识别方法应用于人工智能领域,例如,人工智能领域中的贵金属材料的命名实体识别。

参见图4,图4示出了本申请实施例提供的另一种命名实体识别方法的流程示意图,其中,该方法可以由任一电子设备执行,如可以是服务器,作为一可选实施方式,该方法可以由服务器执行,为了描述方便,在下文的一些可选实施例的描述中,将以服务器作为该方法执行主体为例进行说明。如图4所示,本申请实施例提供的命名实体识别方法包括如下步骤:

S201,定义贵金属材料的命名实体的类型。

在一个实施例中,贵金属材料的命名实体的类型包括贵金属的名称、贵金属的性能、贵金属的参数值、贵金属的特征、针对贵金属的操作条件、针对贵金属的操作、操作中所使用方法的名称、操作中所使用装置的名称等。

S202,构建贵金属材料领域的数据词典和文本库。

在一个实施例中,构建贵金属材料领域的数据词典和科技文本库。其中,数据词典一般由贵金属材料领域中的常见材料、常用性能、装置为主;科技文本库一般由贵金属材料领域内的学位论文、期刊论文、专利实施例构成。

S203,基于贵金属材料领域的数据词典和文本库,对数据词典和文本库中的贵金属材料文本进行预标注,构建训练样本集合。

在一个实施例中,基于数据词典、文本库和贵金属材料的命名实体的类型,通过分词方式或正则表达式,将数据词典中的词与贵金属材料的命名实体的类型进行匹配,当词归属于贵金属材料的命名实体的类型,则将词确定为贵金属材料的命名实体集合中的贵金属材料的命名实体,基于贵金属材料的命名实体集合,构建训练样本集合。

S204,对训练样本集合中的训练样本进行众包式标注,得到校正后的训练样本集合。

在一个实施例中,搭建标注平台,利用众包式标注的方式对预标注的贵金属材料文本进行人工校正。预标注难免会出现错误或者遗漏,通过众包式标注可以显著提升标注的准确度。

S205,基于校正后的训练样本集合,对神经网络进行训练,得到训练后的神经网络。

在一个实施例中,神经网络包括BERT模型、BiLSTM模型和CRF模型。

S206,将待识别的贵金属材料文本输入至训练后的神经网络,进行识别处理,得到待识别的贵金属材料文本中各个字对应的标注标签。

S207,根据各个字对应的标注标签,确定多个贵金属材料的命名实体。

在一个实施例中,如图3所示,“纯度为1%的氯化钠注入”中的纯度、1%、氯化钠、注入都为贵金属材料的命名实体。

本申请实施例中,通过预先定义贵金属材料的命名实体的类型,构建训练样本集合,基于校正后的训练样本集合,对神经网络进行训练,将待识别的贵金属材料文本输入至训练后的神经网络,对贵金属材料文本进行识别处理,得到贵金属材料文本中各个字对应的标注标签,根据各个字对应的标注标签,确定贵金属材料的命名实体,从而提升了人工智能领域中针对贵金属材料的命名实体识别的准确度。

基于相同的发明构思,本申请实施例还提供了一种命名实体识别装置,该装置的结构示意图如图5所示,命名实体识别装置40,包括第一处理模块401、第二处理模块402和第三处理模块403。

第一处理模块401,用于获取待识别文本;

第二处理模块402,用于对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;

第三处理模块403,用于根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。

在一个实施例中,第二处理模块402,具体用于:

将待识别文本输入至预设的神经网络包括的自然语言处理预训练语言表征模型,对待识别文本进行文本特征提取,得到表征文本特征的多个字向量;

将多个字向量输入至神经网络包括的双向长短期记忆网络模型,基于多个字向量进行上下文特征提取,得到表征上下文特征的多个隐向量;

将多个隐向量输入至所述神经网络包括的条件随机场模型,基于多个隐向量对待识别文本进行预测处理,得到待识别文本中各个字对应的标注标签;标注标签的类型包括第一标签和第二标签,类型为第一标签的标注标签包括字的实体位置和贵金属材料的命名实体的类型,第二标签用于表征非贵金属材料的命名实体的类型。

在一个实施例中,贵金属材料的命名实体的类型包括贵金属的名称、贵金属的性能、贵金属的参数值、贵金属的特征、针对贵金属的操作条件、针对贵金属的操作、操作中所使用方法的名称、操作中所使用装置的名称中的至少一项。

在一个实施例中,第三处理模块403,具体用于:

针对一个字,当一个字对应的标注标签是第一标签,且一个字对应的标注标签包括的实体位置是首位,则确定一个字为首位字;

在待识别文本中,从首位字开始向后进行遍历;

当遍历到的字对应的标注标签是第一标签、遍历到的字对应的标注标签包括的实体位置是非首位、且遍历到的字对应的标注标签包括的贵金属材料的命名实体的类型与首位字相同,则将遍历到的字确定为非首位字;

将首位字及非首位字共同确定为命名实体。

在一个实施例中,第一处理模块401,还用于:

基于预设的贵金属材料的命名实体集合,构建训练样本集合;

基于训练样本集合,对待训练的神经网络进行训练,得到预设的神经网络;

对待训练的神经网络进行训练,得到预设的神经网络,包括:

初始化待训练的神经网络,并初始化包括神经网络参数的损失函数;

在待训练的神经网络每次迭代训练过程中执行以下处理:

以训练样本集合包括的训练文本为待训练的神经网络的输入样本,并以训练文本中各个字对应的预测标签为待训练的神经网络的输出结果,将输入样本和输出结果代入所述损失函数,以确定损失函数取得最小值时对应的神经网络参数;根据所确定的神经网络参数更新待训练的神经网络。

在一个实施例中,第一处理模块401,还用于:

基于预设的数据词典和贵金属材料的命名实体的类型,通过分词方式或正则表达式,将数据词典中的词与贵金属材料的命名实体的类型进行匹配;

当词归属于贵金属材料的命名实体的类型,则将词确定为贵金属材料的命名实体集合中的贵金属材料的命名实体。

应用本申请实施例,至少具有如下有益效果:

获取待识别文本;对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。如此,通过对贵金属材料文本进行识别处理,得到贵金属材料文本中各个字对应的标注标签,根据各个字对应的标注标签,确定贵金属材料的命名实体,从而提升了人工智能领域中针对贵金属材料的命名实体识别的准确度。

基于相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备的结构示意图如图6所示,该电子设备9000包括至少一个处理器9001、存储器9002和总线9003,至少一个处理器9001均与存储器9002电连接;存储器9002被配置用于存储有至少一个计算机可执行指令,处理器9001被配置用于执行该至少一个计算机可执行指令,从而执行如本申请中任意一个实施例或任意一种可选实施方式提供的任意一种命名实体识别方法的步骤。

进一步,处理器9001可以是FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其它具有逻辑处理能力的器件,如MCU(Microcontroller Unit,微控制单元)、CPU(Central Process Unit,中央处理器)。

应用本申请实施例,至少具有如下有益效果:

获取待识别文本;对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。如此,通过对贵金属材料文本进行识别处理,得到贵金属材料文本中各个字对应的标注标签,根据各个字对应的标注标签,确定贵金属材料的命名实体,从而提升了人工智能领域中针对贵金属材料的命名实体识别的准确度。

基于相同的发明构思,本申请实施例还提供了另一种计算机可读存储介质,存储有计算机程序,该计算机程序用于被处理器执行时实现本申请中任意一个实施例或任意一种可选实施方式提供的任意一种命名实体识别方法的步骤。

本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(RandomAccess Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。

应用本申请实施例,至少具有如下有益效果:

获取待识别文本;对待识别文本进行识别处理,得到待识别文本中各个字对应的标注标签;根据各个字对应的标注标签,确定至少一个命名实体;待识别文本包括贵金属材料文本,至少一个命名实体包括贵金属材料的命名实体。如此,通过对贵金属材料文本进行识别处理,得到贵金属材料文本中各个字对应的标注标签,根据各个字对应的标注标签,确定贵金属材料的命名实体,从而提升了人工智能领域中针对贵金属材料的命名实体识别的准确度。

本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机设备上运行时,使得计算机设备执行上述各个方法实施例所提供的命名实体识别方法。

本技术领域技术人员可以理解,可以用计算机程序来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序产品提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号