首页> 中国专利> 实体识别模型生成方法及装置、实体提取方法及装置

实体识别模型生成方法及装置、实体提取方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本公开的实施例提供了实体识别模型生成方法及装置、实体提取方法及装置、计算机可读存储介质、电子设备和计算机程序。该方法包括：获取第一样本语句集；基于第一样本语句集中的样本语句和对应的实体标注信息，训练初始目标类型实体识别模型，得到目标类型实体识别模型；获取第二样本语句集；基于第二样本语句集中的正样本语句和对应的正样本标注信息，以及负样本语句和对应的负样本标注信息，训练初始实体分类模型，得到实体分类模型。本公开技术方案可以实现对目标类型实体的自动提取，并且可以准确而全面地得到文本中的目标类型实体及目标类型实体的类别。

著录项

公开/公告号CN113010638A

专利类型发明专利
公开/公告日2021-06-22

原文格式PDF
申请/专利权人北京金堤征信服务有限公司;
展开▼

申请/专利号CN202110208364.9
发明设计人李凯;周晗;
展开▼

申请日2021-02-25
分类号G06F16/33(20190101);G06F40/295(20200101);G06N3/02(20060101);G06N3/08(20060101);
代理机构11657 北京思源智汇知识产权代理有限公司;
代理人毛丽琴
地址 100086 北京市海淀区知春路65号院1号楼B座19层1902号
入库时间 2023-06-19 11:32:36

说明书

技术领域

本公开涉及计算机技术领域，特别涉及实体识别模型生成方法及装置、实体提取方法及装置、电子设备、计算机可读存储介质和计算机程序。

背景技术

命名实体识别(Named Entity Recognition，NER)是指从文本中识别出特定对象事务名称或者符号的过程。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理任务中必不可少的组成部分。

目前在很多领域，需要从已有的文本中提取特定类型的实体，为用户提供各种服务。例如，解析招投标网站的公示信息，可以为企业和用户提供有价值的信息。招投标领域信息复杂，目前广泛采用的抽取方法是通过构建相应的正则表达式模版实现信息抽取。还有些自动化抽取技术如基于网页结构特征的网页信息抽取技术、基于包装器归纳方式的网页信息抽取技术等。

发明内容

本公开的目的在于提供一种实体识别模型生成方法及装置、实体提取方法及装置、电子设备、计算机可读存储介质和计算机程序，进而至少在一定程度上解决上述背景技术中描述的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供实体识别模型生成方法，包括：获取第一样本语句集，其中，第一样本语句集中的样本语句包括目标类型实体，且具有对应的表征目标类型实体的实体标注信息；基于第一样本语句集中的样本语句和对应的实体标注信息，训练初始目标类型实体识别模型，得到目标类型实体识别模型；获取第二样本语句集，其中，第二样本语句集包括正样本语句和负样本语句，正样本语句包括预设类别的目标类型实体，且具有对应的正样本标注信息，负样本语句包括非预设类别的目标类型实体，且具有对应的负样本标注信息；基于第二样本语句集中的正样本语句和对应的正样本标注信息，以及负样本语句和对应的负样本标注信息，训练初始实体分类模型，得到实体分类模型。

在本公开的示例性实施例中，获取第一样本语句集，包括：从预设样本文本中提取第一样本语句集，并从第一样本语句集包括的样本语句中确定目标类型实体；基于目标类型实体在样本语句中的位置，生成样本语句子集包括的样本语句对应的实体标注信息。

在本公开的示例性实施例中，获取第二样本语句集，包括：从预设样本文本中提取初始样本语句集；从初始样本语句集中确定包括预设类别的目标类型实体的样本语句，以及确定包括非预设类别的目标类型实体的样本语句；将预设类别的目标类型实体所在的样本语句和预设类别的目标类型实体组成的语句对确定为正样本语句，并生成表征预设类别的目标类型实体的正样本标注信息；将非预设类别的目标类型实体所在的样本语句和非预设类别的目标类型实体组成的语句对确定为负样本语句，并生成表征非预设类别的目标类型实体的负样本标注信息。

在本公开的示例性实施例中，确定包括非预设类别的目标类型实体的样本语句，包括：利用目标类型实体识别模型，从初始样本语句集中的样本语句中确定目标类型实体；将确定出的各个目标类型实体与预设类别的目标类型实体进行比对，得到非预设类型的目标类型实体；将非预设类型的目标类型实体所在的样本语句确定为包括非预设类别的目标类型实体的样本语句。

在本公开的示例性实施例中，从第一样本语句集包括的样本语句中确定目标类型实体，包括：利用如下至少一种方式从第一样本语句集包括的样本语句中确定目标类型实体：方式一，基于预设的正则表达式，从第一样本语句集包括的样本语句中确定目标类型实体；方式二，基于预设的由目标类型实体构建的前缀字典树，从第一样本语句集包括的样本语句中查找目标类型实体。

在本公开的示例性实施例中，在从预设样本文本中提取第一样本语句集之前，方法还包括：对预设初始文本进行预处理，得到符合预设格式的预设样本文本。

根据本公开的第二方面，提供了实体提取方法，包括：获取待识别文本；将待识别文本输入预先训练的目标类型实体识别模型，得到目标类型实体，其中，目标类型实体识别模型预先基于第一方面的方法训练得到；基于目标类型实体，从待识别文本中确定待分类语句；将待分类语句输入预先训练的实体分类模型，得到表征目标类型实体的类别的实体类别信息，其中，实体分类模型预先基于第一方面的方法训练得到。

在本公开的示例性实施例中，获取待识别文本，包括：获取原始文本；对原始文本进行预处理，得到符合预设格式的待识别文本。

在本公开的示例性实施例中，基于目标类型实体，从待识别文本中确定待分类语句，包括：将目标类型实体所在的语句和目标类型实体组成语句对，并将语句对确定为待分类语句。

根据本公开的第三方面，提供实体识别模型生成装置，包括：第一获取模块，用于获取第一样本语句集，其中，第一样本语句集中的样本语句包括目标类型实体，且具有对应的表征目标类型实体的实体标注信息；第一训练模块，用于基于第一样本语句集中的样本语句和对应的实体标注信息，训练初始目标类型实体识别模型，得到目标类型实体识别模型；第二获取模块，用于获取第二样本语句集，其中，第二样本语句集包括正样本语句和负样本语句，正样本语句包括预设类别的目标类型实体，且具有对应的正样本标注信息，负样本语句包括非预设类别的目标类型实体，且具有对应的负样本标注信息；第二训练模块，用于基于第二样本语句集中的正样本语句和对应的正样本标注信息，以及负样本语句和对应的负样本标注信息，训练初始实体分类模型，得到实体分类模型。

在本公开的示例性实施例中，第一获取模块包括：第一提取单元，用于从预设样本文本中提取第一样本语句集，并从第一样本语句集包括的样本语句中确定目标类型实体；生成单元，用于基于目标类型实体在样本语句中的位置，生成样本语句子集包括的样本语句对应的实体标注信息。

在本公开的示例性实施例中，第二获取模块包括：第二提取单元，用于从预设样本文本中提取初始样本语句集；第一确定单元，用于从初始样本语句集中确定包括预设类别的目标类型实体的样本语句，以及确定包括非预设类别的目标类型实体的样本语句；第二确定单元，用于将预设类别的目标类型实体所在的样本语句和预设类别的目标类型实体组成的语句对确定为正样本语句，并生成表征预设类别的目标类型实体的正样本标注信息；第三确定单元，用于将非预设类别的目标类型实体所在的样本语句和非预设类别的目标类型实体组成的语句对确定为负样本语句，并生成表征非预设类别的目标类型实体的负样本标注信息。

在本公开的示例性实施例中，第一确定单元包括：第一确定子单元，用于利用目标类型实体识别模型，从初始样本语句集中的样本语句中确定目标类型实体；比对子单元，用于将确定出的各个目标类型实体与预设类别的目标类型实体进行比对，得到非预设类型的目标类型实体；第二确定子单元，用于将非预设类型的目标类型实体所在的样本语句确定为包括非预设类别的目标类型实体的样本语句。

在本公开的示例性实施例中，第一提取单元进一步用于：利用如下至少一种方式从第一样本语句集包括的样本语句中确定目标类型实体：方式一，基于预设的正则表达式，从第一样本语句集包括的样本语句中确定目标类型实体；方式二，基于预设的由目标类型实体构建的前缀字典树，从第一样本语句集包括的样本语句中查找目标类型实体。

在本公开的示例性实施例中，该装置还包括：预处理模块，用于对预设初始文本进行预处理，得到符合预设格式的预设样本文本。

根据本公开的第四方面，提供了实体提取装置，包括：获取模块，用于获取待识别文本；训练模块，用于将待识别文本输入预先训练的目标类型实体识别模型，得到目标类型实体，其中，目标类型实体识别模型预先基于第一方面的方法训练得到；确定模块，用于基于目标类型实体，从待识别文本中确定待分类语句；输入模块，用于将待分类语句输入预先训练的实体分类模型，得到表征目标类型实体的类别的实体类别信息，其中，实体分类模型预先基于第一方面的方法训练得到。

根据本公开的第五方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述的方法。

根据本公开的第六方面，提供一种计算机存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述的方法。

根据本公开的第七方面，提供一种计算机程序，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现上述方法中各步骤的指令。

由上述技术方案可知，本公开示例性实施例中的实体识别模型生成方法及装置、实体提取方法及装置、电子设备、计算机可读存储介质和计算机程序至少具备以下优点和积极效果：

本公开实施例中的实体识别模型生成方法及装置、实体提取方法及装置、电子设备、计算机可读存储介质和计算机程序，通过获取第一样本语句集和第二样本语句集，利用机器学习的方法，基于第一样本语句集训练目标类型实体识别模型，基于第二样本语句集训练实体分类模型，从而可以得到高提取准确性和分类准确性的模型，在提取文本中的目标类型实体时，使用目标类型实体识别模型和实体分类模型，可以实现对目标类型实体的自动提取，并且可以准确而全面地得到文本中的目标类型实体及目标类型实体的类别。相对于现有的基于正则表达式的实体提取技术，本公开实施例提供的方案维护成本低，灵活性好。相对于现有的自动化实体抽取技术，本公开实施例提供的方案的提取粒度较细，精确性更高。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开所适用的系统图；

图2是本公开一示例性实施例提供的实体识别模型生成方法的流程示意图；

图3是本公开另一示例性实施例提供的实体识别模型生成方法的流程示意图；

图4是本公开另一示例性实施例提供的实体识别模型生成方法的流程示意图；

图5是本公开另一示例性实施例提供的实体识别模型生成方法的流程示意图；

图6是本公开另一示例性实施例提供的实体提取方法的流程示意图；

图7是本公开一示例性实施例提供的实体识别模型生成装置的结构示意图；

图8是本公开另一示例性实施例提供的实体识别模型生成装置的结构示意图；

图9是本公开一示例性实施例提供的实体提取装置的结构示意图；

图10是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。

在本公开中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

示例性系统

图1示出了可以应用本公开实施例的实体识别模型生成方法及装置、实体提取方法及装置的系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类别，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如文本处理应用、搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。

终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105发送各种类别的文本。后台文本服务器可以利用获取的样本文本进行模型训练，也可以利用训练好的模型从接收到的文本中提取目标类型实体。

示例性方法

参见图2，为本公开一示例性实施例提供的实体识别模型生成方法的流程图，本实施例可应用在电子设备(如图1所示的终端设备101、102、103或服务器105)上，该方法包括以下步骤：

S210，获取第一样本语句集。

S220，基于第一样本语句集中的样本语句和对应的实体标注信息，训练初始目标类型实体识别模型，得到目标类型实体识别模型。

S230，获取第二样本语句集。

S240，基于第二样本语句集中的正样本语句和对应的正样本标注信息，以及负样本语句和对应的负样本标注信息，训练初始实体分类模型，得到实体分类模型。

本公开实施方式提供的实体识别模型生成方法，通过获取第一样本语句集和第二样本语句集，利用机器学习的方法，基于第一样本语句集训练目标类型实体识别模型，基于第二样本语句集训练实体分类模型，从而可以得到高提取准确性和分类准确性的模型，有助于使用训练好的目标类型实体识别模型和实体分类模型，从文本中准确地提取目标类型实体并对目标类型实体进行准确地分类。

在S210中，电子设备可以从本地或从远程获取第一样本语句集。其中，第一样本语句集中的样本语句包括目标类型实体，且具有对应的表征目标类型实体的实体标注信息。

第一样本语句集的来源可以包括多种，例如可以包括从预设的文本中提取的语句，也可以包括从诸如MSRA数据集等数据库中提取的语句。

目标类型实体可以是各种类型的实体，例如，目标类型实体可以为组织机构实体(例如企业名称、事业单位名称等)。实体标注信息用于指示样本语句中的目标类型实体。

通常，实体标注信息可以为利用现有的BIO标注法进行标注的信息。作为示例，某条样本语句为“本次招标工作的客户为北京XX科技有限公司，招标代理商为北京YY科技有限公司”，其对应的实体标注信息为“O O O O O O O O O O B-ORG I-ORG I-ORG I-ORG I-ORG I-ORG I-ORG I-ORG I-ORG I-ORG O O O O O O O B-ORG I-ORG-ORG I-ORG I-ORGI-ORG I-ORG I-ORG I-ORG I-ORG”。其中O代表对应的字符为非目标类型实体(这里为组织机构实体)字符，B-ORG代表对应的字符为组织机构实体的第一个字符，I-ORG代表对应的字符为组织机构实体的非第一个字符。

在本实施例中，实体标注信息可以由电子设备自动生成，也可以由人工设置。

在S220中，电子设备可以基于第一样本语句集中的样本语句和对应的实体标注信息，训练初始目标类型实体识别模型，得到目标类型实体识别模型。

具体地，初始目标类型实体识别模型可以基于现有的各种结构的神经网络模型构建。例如，可以利用ERNIE(Enhanced Language Representation with InformativeEntities)模型、BERT(Bidirectional Encoder Representations from Transformers)模型，结合条件随机场(CRF，Conditional Random Field)构建的模型。再例如，可以基于RoBERTa、XLNET等构建初始目标类型实体识别模型。

电子设备可以利用机器学习方法，将获取到的第一样本语句集中的样本语句作为输入，将与输入的样本语句对应的实体标注信息作为期望输出，对初始目标类型实体识别模型进行训练，针对每次训练输入的样本语句，可以得到实际输出。其中，实际输出是初始目标类型实体识别模型实际输出的数据，用于表征实体标注信息。然后，电子设备可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始目标类型实体识别模型的参数，将每次调整参数后得到的模型作为下次训练的初始目标类型实体识别模型，并在满足预设的训练结束条件的情况下，结束训练，从而训练得到目标类型实体识别模型。

需要说明的是，这里预设的训练结束条件可以包括但不限于以下至少一项：训练时间超过预设时长；训练次数超过预设次数；利用预设的损失函数(例如交叉熵损失函数)计算所得的损失值收敛。

在S230中，电子设备可以从本地或从远程获取第二样本语句集。其中，第二样本语句集包括正样本语句和负样本语句，正样本语句包括预设类别的目标类型实体，且具有对应的正样本标注信息，负样本语句包括非预设类别的目标类型实体，且具有对应的负样本标注信息。

预设类别可以包括至少一个类别。例如，当目标类型实体为组织机构实体时，预设类别可以包括客户、供应商两种，相应的，非预设类别即非客户及非供应商。

正样本标注信息用于指示正样本语句包括预设类别的目标类型实体，负样本标注信息用于指示负样本语句包括非预设类别的目标类型实体。作为示例，预设类别包括客户、供应商两种时，数字0表示目标类型实体的类别为客户，数字1表示目标类型实体的类别为供应商，数字2表示目标类型实体的类别为非客户及非供应商。

可选的，正样本语句包括的预设类别的目标类型实体和负样本语句包括的预设类别的目标类型实体可以由表示目标类型实体在样本语句中的位置的标记标示出，从而使电子设备可以从样本语句中确定预设类别的目标类型实体或非预设类别的目标类型实体的位置。

可选的，正样本语句和负样本语句可以由语句对组成，正样本语句由一条语句和预设类别的目标类型实体组成，负样本语句由一条语句和非预设类别的目标类型实体组成。例如，正样本语句包括以下语句对：“本次招标工作的客户为北京XX科技有限公司”-“北京XX科技有限公司”。

在S240中，电子设备可以基于第二样本语句集中的正样本语句和对应的正样本标注信息，以及负样本语句和对应的负样本标注信息，训练初始实体分类模型，得到实体分类模型。

具体地，初始实体分类模型可以基于现有的各种结构的神经网络模型构建。例如，利用ERNIE构建用于对目标类型实体进行分类的分类模型作为初始实体分类模型。再例如，初始实体分类模型可以包括word2vec等用于确定语句的特征向量的模型，还可以包括诸如SVM、XGBoost、集成学习模型(如stacking，boosting)等对特征向量进行分类的分类器。

需要说明的是，实体分类模型可以是二分类模型，也可以是多分类模型。多分类模型可以直接确定输入的语句中的目标类型实体的类别。二分类模型的数量可以为至少一个，例如当上述预设类别的数量为多个时，可以训练每个预设类别对应的二分类模型，每个二分类模型用于确定输入的语句中的目标类型实体是否为对应的预设类别。

电子设备可以利用机器学习方法，将获取到的第二样本语句集中的正样本语句作为输入，将与输入的正样本语句对应的正样本标注信息作为期望输出，以及将负样本语句作为输入，将与输入的负样本语句对应的负样本标注信息作为期望输出，对初始实体分类模型进行训练。针对每次训练输入的样本语句，可以得到实际输出。其中，实际输出是初始实体分类模型实际输出的数据，用于表征正样本标注信息或负样本标注信息。然后，电子设备可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始实体分类模型的参数，将每次调整参数后得到的模型作为下次训练的初始实体分类模型，并在满足预设的训练结束条件的情况下，结束训练，从而训练得到实体分类模型。

在一些可选的实现方式中，如图3所示，步骤S210包括如下子步骤：

S2101，从预设样本文本中提取第一样本语句集，并从第一样本语句集包括的样本语句中确定目标类型实体。

其中，预设样本文本的数量可以为至少一个。预设样本文本可以是各种类型的文本，例如，预设样本文本可以包括从招投标网站上获取的多个招投标文书。再例如，预设样本文本还可以包括从预设数据集(例如MSRA数据集)中获取的文本。通常，电子设备可以从预设样本文本中随机提取多个语句组成第一样本语句集。

本步骤中，确定样本语句中的目标类型实体的方法可以包括各种。

在一些可选的实现方式中，电子设备可以利用如下至少一种方式从第一样本语句集包括的样本语句中确定目标类型实体：

方式一，基于预设的正则表达式，从第一样本语句集包括的样本语句中确定目标类型实体。

作为示例，对于类别为客户的组织机构实体，正则表达式可以为：(？＝(采购|用户|招标)(人|单位|部门)？[为:：\s]+([\w()()]+[区园地会位厂厅司团处学局]\b))，基于该正则表达式，可以从第一样本语句集包括的各个样本语句中确定出类别为客户的组织机构实体。类似的，使用多个正则表达式，可以从第一样本语句集包括的各个样本语句中确定出各个类别的组织机构实体。

方式二，基于预设的由目标类型实体构建的前缀字典树，从第一样本语句集包括的样本语句中查找目标类型实体。

其中，前缀字典树可以是预先利用存储有目标类型实体的数据库构建的，电子设备可以从第一样本语句集包括的各个样本语句中，查找前缀字典树包括的目标类型实体。

需要说明的是，可以利用方式一或方式二确定目标类型实体，还可以利用方式一和方式二同时确定目标类型实体，取两种方式提取出的目标类型实体的并集。

本实现方式提供的两种提取实体的方式，可以实现有电子设备自动从第一样本语句集包括的样本语句中提取目标类型实体，且两种方式相结合可以使提取出的目标类型实体更全面。

S2102，基于目标类型实体在样本语句中的位置，生成样本语句子集包括的样本语句对应的实体标注信息。

其中，实体标注信息可以指示目标类型实体在样本语句中的位置，具体可以参考上述步骤S210中的示例。

上述图3对应实施例通过由电子设备自动完成从预设样本文本中提取第一样本语句集，以及从样本语句中确定目标类型实体并生成实体标注信息，相比手动标注方法，可以提高对样本语句进行标注的效率。

在一些可选的实现方式中，如图4所示，上述S230包括如下子步骤，以得到第二样本语句集包括的正样本语句和负样本语句：

S2301，从预设样本文本中提取初始样本语句集。

其中，预设样本文本可以与上述S2101中描述的预设样本文本相同，也可以不同。本步骤的预设样本文本的数量可以为至少一个。预设样本文本可以是各种类型的文本，例如，预设样本文本可以包括从招投标网站上获取的多个招投标文书。通常，电子设备可以从预设样本文本中随机提取多个语句组成初始样本语句集。

S2302，从初始样本语句集中确定包括预设类别的目标类型实体的样本语句，以及确定包括非预设类别的目标类型实体的样本语句。

作为示例，电子设备可以基于预设的预设类别对应的正则表达式，从初始样本语句集包括的样本语句中确定预设类别的目标类型实体，还可以基于预设的非预设类别对应的正则表达式，从初始样本语句集包括的样本语句中确定非预设类别的目标类型实体。

S2303，将预设类别的目标类型实体所在的样本语句和预设类别的目标类型实体组成的语句对确定为正样本语句，并生成表征预设类别的目标类型实体的正样本标注信息。

作为示例，预设类别包括客户、供应商两种时，数字0表示目标类型实体的类别为客户，数字1表示目标类型实体的类别为供应商，数字2表示目标类型实体的类别为非客户及非供应商。某个正样本语句包括的语句对为：“本次招标工作的客户为北京XX科技有限公司，招标代理商为北京YY科技有限公司”-“北京XX科技有限公司”。该正样本语句对应的正样本标注信息为数字0。

S2304，将非预设类别的目标类型实体所在的样本语句和非预设类别的目标类型实体组成的语句对确定为负样本语句，并生成表征非预设类别的目标类型实体的负样本标注信息。

作为示例，某个负样本语句包括的语句对为：“本次招标工作的客户为北京XX科技有限公司，招标代理商为北京YY科技有限公司”-“北京YY科技有限公司”。该负样本语句对应的负样本标注信息为数字2。

上述图4对应实施例通过由电子设备自动完成从预设样本文本中提取初始样本语句集，以及从各个样本语句中确定正样本语句和负样本语句，并生成正样本标注信息和负样本标注信息，相比手动标注方法，可以提高对样本语句进行标注的效率。

在一些可选的实现方式中，如图5所示，S2302中，可以包括如下子步骤以从初始样本语句集中确定包括非预设类别的目标类型实体的样本语句：

S23021，利用目标类型实体识别模型，从初始样本语句集中的样本语句中确定目标类型实体。

其中，目标类型实体识别模型是上述步骤S220训练得到的模型。该模型由于是利用机器学习方法，由大量训练样本训练得到的，其识别准确性较高。电子设备可以将初始样本语句集中的各个语句依次输入该目标类型实体识别模型，得到各个输入的样本语句包括的目标类型实体。

S23022，将确定出的各个目标类型实体与预设类别的目标类型实体进行比对，得到非预设类型的目标类型实体。

具体地，可以将模型输出的各个目标类型实体组成的集合与图4对应实施例中已经确定出的预设类别的目标类型实体组成的集合取差集，得到非预设类型的目标类型实体。

S23023，将非预设类型的目标类型实体所在的样本语句确定为包括非预设类别的目标类型实体的样本语句。

图5对应实施例描述的方法，通过使用已经训练好的目标类型实体识别模型，可以全面且准确地从初始样本语句集中的样本语句中确定目标类型实体，进而可以全面而准确地生成负样本语句。

在一些可选的实现方式中，在S210之前，电子设备还可以执行如下步骤：

对预设初始文本进行预处理，得到符合预设格式的预设样本文本。

具体地，电子设备可以将对模型训练造成干扰的字符替换或去除。作为示例，预设初始文本可以是html格式的文本，电子设备可以将其中包括的html标签替换为空格或者空字符，将回车替换为空格，将多余空格符去除，将英文标点符号替换为中文标点符号等。

本实施例通过预先对预设初始文本进行预处理，得到预设样本文本，可以使预设样本文本的格式符合模型训练的要求，降低一些非必要字符对模型训练的干扰，提高模型识别的精度。

继续参见图6，为本公开一示例性实施例提供的实体提取方法的流程图，本实施例可应用在电子设备(如图1所示的终端设备101、102、103或服务器105)上，该方法包括以下步骤：

S610，获取待识别文本。

S620，将待识别文本输入预先训练的目标类型实体识别模型，得到目标类型实体。

S630，基于目标类型实体，从待识别文本中确定待分类语句。

S640，将待分类语句输入预先训练的实体分类模型，得到表征目标类型实体的类别的实体类别信息。

本公开实施方式提供的实体提取方法，通过使用上述图2对应实施例训练得到的目标类型实体识别模型和实体分类模型，可以准确、高效地从待识别文本中提取出目标类型实体并确定目标类型实体的类别。

在S610中，电子设备可以从本地或从远程获取待识别文本。其中，待识别文本可以是各种类型的文本。例如待识别文本可以是从招投标网站获取的招投标文书。

在S620中，电子设备可以将待识别文本输入预先训练的目标类型实体识别模型，得到目标类型实体。

其中，目标类型实体识别模型预先基于上述图2对应实施例描述的方法训练得到。具体地，电子设备可以将待识别文本包括的语句依次输入目标类似实体识别模型，得到各个句子中的目标类型实体。作为示例，当待识别文本是招投标文书时，目标类型实体可以是组织机构实体。

在S630中，电子设备可以基于目标类型实体，从待识别文本中确定待分类语句。

可选的，电子设备可以将目标类型实体所在的语句作为待分类语句并标记出待分类语句中的目标类型实体。

在S640中，电子设备可以将待分类语句输入预先训练的实体分类模型，得到表征目标类型实体的类别的实体类别信息。

其中，实体分类模型预先基于上述图2对应实施例描述的方法训练得到。电子设备可以将各个待分类语句(例如上述语句对)依次输入实体分类模型，得到各个目标类型实体对应的实体类别信息。作为示例，当待识别文本是招投标文书时，目标类型实体是组织机构实体时，某个目标类型实体对应的实体类别信息可以表征该目标类型实体的类别为客户或供应商或非客户及非供应商。将该方法应用到招投标领域时，可以从招投标文书中自动提取出准确的客户和供应商信息，提高了用户体验。

在一些可选的实现方式中，上述S610可以包括如下子步骤：

首先，获取原始文本。

其中，原始文本可以是各种类型的文本。作为示例，原始文本可以是从招投标网站获取的html格式的文本。

然后，对原始文本进行预处理，得到符合预设格式的待识别文本。

通常，预处理的方法可以与上述图2对应实施例中关于预处理的可选实现方式相同。例如，电子设备可以将html格式的原始文本包括的html标签替换为空格或者空字符，将回车替换为空格，将多余空格符去除，将英文标点符号替换为中文标点符号等。

本实施例通过预先对原始文本进行预处理，得到待识别文本，可以使待识别文本的格式符合模型识别的要求，降低一些非必要字符对模型识别的干扰，提高实体分类的精度。

在一些可选的实现方式中，上述S630可以如下执行：

将目标类型实体所在的语句和目标类型实体组成语句对，并将语句对确定为待分类语句。

例如，某个语句为“本次招标工作的客户为北京XX科技有限公司，招标代理商为北京YY科技有限公司”。则可以得到两个语句对，分别是“本次招标工作的客户为北京XX科技有限公司，招标代理商为北京YY科技有限公司”-“北京XX科技有限公司”，以及“本次招标工作的客户为北京XX科技有限公司，招标代理商为北京YY科技有限公司”-“北京YY科技有限公司”。这两个语句对均为待分类语句。

本实现方式通过将包含语句和目标类型实体的语句对作为待分类语句，可以使模型在进行实体分类时，更有针对性地对包含目标类型实体的语句进行分析，从而可以提高实体分类的准确性。

示例性装置

图7示意性示出了根据本公开的一实施例的识别模型生成装置的结构示意图。本公开实施例提供的识别模型生成装置可以设置在终端设备上，也可以设置在服务端上，或者部分设置在终端设备上，部分设置在服务端上，例如，可以设置在图1中的服务器105(根据实际替换)，但本公开并不限定于此。

本公开实施例提供的识别模型生成装置可以包括：第一获取模块710，用于获取第一样本语句集，其中，第一样本语句集中的样本语句包括目标类型实体，且具有对应的表征目标类型实体的实体标注信息；第一训练模块720，用于基于第一样本语句集中的样本语句和对应的实体标注信息，训练初始目标类型实体识别模型，得到目标类型实体识别模型；第二获取模块730，用于获取第二样本语句集，其中，第二样本语句集包括正样本语句和负样本语句，正样本语句包括预设类别的目标类型实体，且具有对应的正样本标注信息，负样本语句包括非预设类别的目标类型实体，且具有对应的负样本标注信息；第二训练模块740，用于基于第二样本语句集中的正样本语句和对应的正样本标注信息，以及负样本语句和对应的负样本标注信息，训练初始实体分类模型，得到实体分类模型。

在本实施例中，第一获取模块710可以从本地或从远程获取第一样本语句集。其中，第一样本语句集中的样本语句包括目标类型实体，且具有对应的表征目标类型实体的实体标注信息。

第一样本语句集的来源可以包括多种，例如可以包括从预设的文本中提取的语句，也可以包括从诸如MSRA数据集等数据库中提取的语句。

在本实施例中，实体标注信息可以由该装置自动生成，也可以由人工设置。

在本实施例中，第一训练模块720可以基于第一样本语句集中的样本语句和对应的实体标注信息，训练初始目标类型实体识别模型，得到目标类型实体识别模型。

在本实施例中，第二获取模块730可以从本地或从远程获取第二样本语句集。其中，第二样本语句集包括正样本语句和负样本语句，正样本语句包括预设类别的目标类型实体，且具有对应的正样本标注信息，负样本语句包括非预设类别的目标类型实体，且具有对应的负样本标注信息。

在本实施例中，第二训练模块740可以基于现有的各种结构的神经网络模型构建。例如，利用ERNIE构建用于对目标类型实体进行分类的分类模型作为初始实体分类模型。再例如，初始实体分类模型可以包括word2vec等用于确定语句的特征向量的模型，还可以包括诸如SVM、XGBoost、集成学习模型(如stacking，boosting)等对特征向量进行分类的分类器。

参照图8，图8是本公开另一示例性实施例提供的数据压缩装置的结构示意图。

在一些可选的实现方式中，第一获取模块710包括：第一提取单元7101，用于从预设样本文本中提取第一样本语句集，并从第一样本语句集包括的样本语句中确定目标类型实体；生成单元7102，用于基于目标类型实体在样本语句中的位置，生成样本语句子集包括的样本语句对应的实体标注信息。

在一些可选的实现方式中，第二获取模块730包括：第二提取单元7031，用于从预设样本文本中提取初始样本语句集；第一确定单元7302，用于从初始样本语句集中确定包括预设类别的目标类型实体的样本语句，以及确定包括非预设类别的目标类型实体的样本语句；第二确定单元7303，用于将预设类别的目标类型实体所在的样本语句和预设类别的目标类型实体组成的语句对确定为正样本语句，并生成表征预设类别的目标类型实体的正样本标注信息；第三确定单元7304，用于将非预设类别的目标类型实体所在的样本语句和非预设类别的目标类型实体组成的语句对确定为负样本语句，并生成表征非预设类别的目标类型实体的负样本标注信息。

在一些可选的实现方式中，第一确定单元7302包括：第一确定子单元73021，用于利用目标类型实体识别模型，从初始样本语句集中的样本语句中确定目标类型实体；比对子单元73022，用于将确定出的各个目标类型实体与预设类别的目标类型实体进行比对，得到非预设类型的目标类型实体；第二确定子单元73023，用于将非预设类型的目标类型实体所在的样本语句确定为包括非预设类别的目标类型实体的样本语句。

在一些可选的实现方式中，第一提取单元7101进一步用于：利用如下至少一种方式从第一样本语句集包括的样本语句中确定目标类型实体：方式一，基于预设的正则表达式，从第一样本语句集包括的样本语句中确定目标类型实体；方式二，基于预设的由目标类型实体构建的前缀字典树，从第一样本语句集包括的样本语句中查找目标类型实体。

在一些可选的实现方式中，该装置还包括：预处理模块750，用于对预设初始文本进行预处理，得到符合预设格式的预设样本文本。

本公开实施方式提供的实体识别模型生成装置，通过获取第一样本语句集和第二样本语句集，利用机器学习的方法，基于第一样本语句集训练目标类型实体识别模型，基于第二样本语句集训练实体分类模型，从而可以得到高提取准确性和分类准确性的模型，有助于使用训练好的目标类型实体识别模型和实体分类模型，从文本中准确地提取目标类型实体并对目标类型实体进行准确地分类。

本公开实施例提供的实体识别模型生成装置中的各个模块、单元和子单元的具体实现可以参照上述实体识别模型生成方法中的内容，在此不再赘述。

图9示意性示出了根据本公开的一实施例的实体提取装置的结构示意图。本公开实施例提供的实体提取装置可以设置在终端设备上，也可以设置在服务端上，或者部分设置在终端设备上，部分设置在服务端上，例如，可以设置在图1中的服务器105(根据实际替换)，但本公开并不限定于此。

本公开实施例提供的实体提取装置可以包括：第三获取模块910，用于获取待识别文本；识别模块920，用于将待识别文本输入预先训练的目标类型实体识别模型，得到目标类型实体，其中，目标类型实体识别模型预先基于第一方面的方法训练得到；确定模块930，用于基于目标类型实体，从待识别文本中确定待分类语句；分类模块940，用于将待分类语句输入预先训练的实体分类模型，得到表征目标类型实体的类别的实体类别信息，其中，实体分类模型预先基于第一方面的方法训练得到。。

在本实施例中，第三获取模块910可以从本地或从远程获取待识别文本。其中，待识别文本可以是各种类型的文本。例如待识别文本可以是从招投标网站获取的招投标文书。

在本实施例中，识别模块920可以将待识别文本输入预先训练的目标类型实体识别模型，得到目标类型实体。

其中，目标类型实体识别模型预先基于上述图2对应实施例描述的方法训练得到。具体地，训练模块920可以将待识别文本包括的语句依次输入目标类似实体识别模型，得到各个句子中的目标类型实体。作为示例，当待识别文本是招投标文书时，目标类型实体可以是组织机构实体。

在本实施例中，确定模块930可以基于目标类型实体，从待识别文本中确定待分类语句。

可选的，确定模块930可以将目标类型实体所在的语句作为待分类语句并标记出待分类语句中的目标类型实体。

在本实施例中，分类模块940可以将待分类语句输入预先训练的实体分类模型，得到表征目标类型实体的类别的实体类别信息。

其中，实体分类模型预先基于上述图2对应实施例描述的方法训练得到。分类模块940可以将各个待分类语句(例如上述语句对)依次输入实体分类模型，得到各个目标类型实体对应的实体类别信息。作为示例，当待识别文本是招投标文书时，目标类型实体是组织机构实体时，某个目标类型实体对应的实体类别信息可以表征该目标类型实体的类别为客户或供应商或非客户及非供应商。将该方法应用到招投标领域时，可以从招投标文书中自动提取出准确的客户和供应商信息，提高了用户体验。

在一些可选的实现方式中，第三获取模块910进一步用于：获取原始文本；对原始文本进行预处理，得到符合预设格式的待识别文本。

在一些可选的实现方式中，确定模块930进一步用于：基于目标类型实体，从待识别文本中确定待分类语句，包括：将目标类型实体所在的语句和目标类型实体组成语句对，并将语句对确定为待分类语句。

本公开实施方式提供的实体提取装置，通过使用上述图2对应实施例训练得到的目标类型实体识别模型和实体分类模型，可以准确、高效地从待识别文本中提取出目标类型实体并确定目标类型实体的类别。

本公开实施例提供的实体提取装置中的各个模块、单元和子单元的具体实现可以参照上述实体提取方法中的内容，在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之，上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。

示例性电子设备

如图10所示，示例电子设备100包括用于执行软件例程的处理器1001尽管为了清楚起见示出了单个处理器，但是电子设备100也可以包括多处理器系统。处理器1001连接到通信基础设施1002，用于与电子设备100的其他组件进行通信。通信基础设施1002可以包括例如通信总线、交叉开关或网络。

电子设备100还包括诸如随机存取存储器(Random Access Memory，RAM)之类的存储器，所述存储器可包括主存储器1003和辅助存储器1010。辅助存储器1010可以包括，例如硬盘驱动器1011和/或可移动存储驱动器1012，可移动存储驱动器1012可以包括软盘驱动器，磁带驱动器，光盘驱动器等。可移动存储驱动器1012以常规方式对可移动存储单元1013进行读取和/或写入。可移动存储单元1013可以包括由可移动存储驱动器1012读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解，可移动存储单元1013包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。

在一种可选实施方式中，辅助存储器1010可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备100中的其他类似装置。这样的装置可以包括例如可移动存储单元1021和接口1020。可移动存储单元1021和接口1020的示例包括：程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如EPROM或PROM)和相关联的插槽、以及其他可移动存储单元1021和允许软件和数据从可移动存储单元1021传输到电子设备100的接口1020。

电子设备100还包括至少一个通信接口1040。通信接口1040允许软件和数据经由通信路径1041在电子设备100和外部设备之间传输。在本公开的各种实施例中，通信接口1040允许数据在电子设备100和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口1040可用于在不同的电子设备100之间交换数据，这些电子设备100形成互连的计算机网络的一部分。通信接口1040的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口1040可以是有线的或者可以是无线的。经由通信接口1040传输的软件和数据为信号形式，该信号可以是能够被通信接口1040接收的电、磁、光或其他信号。这些信号经由通信路径1041被提供给通信接口。

如图10所示，电子设备100还包括显示器接口1031和音频接口1032，显示器接口1031执行用于将图像渲染到关联的显示器1030的操作，音频接口1032用于执行通过关联的扬声器1033播放音频内容的操作。

在本申请文件中，术语“计算机程序产品”部分程度上可以指代：可移动存储单元1013、可移动存储单元1021、安装在硬盘驱动器1011中的硬盘、或承载着软件通过通信路径1041(无线链路或电缆)到通信接口1040的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备100以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光TM光盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘、或诸如PCMCIA卡之类的计算机可读卡等等，这些部件无论是在电子设备100的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备100提供软件、应用程序、指令和/或数据，这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。

计算机程序(也被称为计算机程序代码)存储在主存储器1003和/或辅助存储器1010中。也可以经由通信接口1040来接收计算机程序。此类计算机程序在被执行时使电子设备100能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中，计算机程序在被执行时，使处理器1001能够执行上述实施例的特征。因此，此类计算机程序代表电子设备100的控制器。

软件可以存储在计算机程序产品中，并使用可移动存储驱动器1012、硬盘驱动器1011或接口1020加载到电子设备100中。替代地，可以通过通信路径1041将计算机程序产品下载到电子设备100。该软件在由处理器1001执行时促使电子设备100执行本文描述的实施例的功能。

应该理解，图10的实施例仅以示例的方式给出。因此，在一些实施例中，可以省略电子设备100的一个或多个特征。而且，在一些实施例中，电子设备100的一个或多个特征可以被组合在一起。另外，在一些实施例中，电子设备100的一个或多个特征可以被分成一个或多个组成部分。

可以理解的是，图10所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。

在一种实施方式中，服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起促使所述物理设备执行必要的操作。

示例性计算机可读存储介质

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现图2-6所示方法的功能。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类别的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被电子设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

示例性计算机程序

本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，该指令被执行时使得计算机执行上述任一可能的实现方式中的实体识别模型生成方法或实体提取方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，该计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，该计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 实体识别模型生成方法及装置、实体提取方法及装置 [P] . 中国专利： CN113010638A . 2021-06-22
2. 面试实体识别模型训练、面试信息实体提取方法及装置 [P] . 中国专利： CN112733539A . 2021-04-30
3. ENTITY RECOGNITION MODEL TRAINING METHOD AND ENTITY RECOGNITION METHOD AND APPARATUS USING THEM [P] . US2021200952A1 . 2021-07-01

机译：实体识别模型训练方法和实体识别方法和装置使用它们
4. Named Entity Recognition Model Generation Device and Method [P] . 韩国专利： KR101897060B1 . 2018-09-12

机译：命名实体识别模型生成装置和方法
5. Named Entity Recognition Model Generation Device and Method [P] . 韩国专利： KR20180044800A . 2018-05-03

机译：命名实体识别模型生成装置和方法