首页> 中国专利> 反命名实体识别的编码器对抗训练、隐私保护方法及装置

反命名实体识别的编码器对抗训练、隐私保护方法及装置

摘要

说明书实施例提供了一种反命名实体识别的编码网络训练、隐私保护方法及装置,该方法包括:获取第一样本集,其中包括多个第一样本,每个第一样本对应一段原始文本和针对其中命名实体的标注标签;对各第一样本,将其对应的原始文本输入编码网络,获得其特征文本;将特征文本输入预先训练的命名实体识别网络模型,获得针对命名实体的识别结果,根据识别结果和第一样本对应的标注标签,确定识别损失;将特征文本输入重构网络模型,获得重构文本,根据重构文本和原始文本,确定重构损失;根据原始文本和特征文本,确定比较损失;确定编码损失,编码损失与比较损失正相关,与识别损失和重构损失负相关;以编码损失趋于减少为目标,更新编码网络。

著录项

  • 公开/公告号CN112199955A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 支付宝(杭州)信息技术有限公司;

    申请/专利号CN202011173866.4

  • 发明设计人 刘杰;

    申请日2020-10-28

  • 分类号G06F40/295(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11309 北京亿腾知识产权代理事务所(普通合伙);

  • 代理人陈霁;周良玉

  • 地址 310000 浙江省杭州市西湖区西溪路556号8层B段801-11

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本说明书一个或多个实施例涉及机器学习领域和数据安全领域,尤其涉及一种反命名实体识别的编码网络训练、隐私保护方法及装置。

背景技术

文字作为人类记录思想和语言的载体,往往蕴涵着丰富的劳动价值和重要的个人信息。比如个人记事本往往会记录一些个人姓名,手机号,地址,公司等信息,一些人的聊天的文字记录等也会保留关于个人的社交活动等隐私信息。随着人工智能技术的发展,命名实体识别技术很容易解析这些文字中出现的专有名词,比如人名,地名,机构名,时间日期等等。然而,这也给个人隐私带来了威胁。命名实体识别技术(NER)可以轻易将个人的信息从一大段文本中解析出来,并且准确的识别个人的姓名,手机号,地址,公司等信息,从而获取个人隐私。所以,如何将文本信息中的敏感信息匿名化,并且不影响用户方便的理解自己的文字内容,成为了各个企业关注的焦点。

发明内容

本说明书中提供的实施例旨在提供更有效的反命名实体识别的隐私保护的方法,解决现有技术中的不足

根据第一方面,提供了一种反命名实体识别的编码网络的训练方法,所述方法包括:

获取有标签的第一样本集,其中包括多个第一样本,每个第一样本对应一段原始文本和针对原始文本中命名实体的标注标签;

对于各个第一样本,将所述第一样本对应的原始文本输入编码网络,获得其特征文本;

将所述特征文本输入预先训练的命名实体识别网络模型,获得针对命名实体进行识别的识别结果,根据识别结果和第一样本对应的标注标签,确定识别损失;

将所述特征文本输入重构网络模型,获得重构文本,根据重构文本和原始文本,确定重构损失;

根据原始文本和特征文本,确定比较损失;

确定编码损失,所述编码损失与所述比较损失正相关,与所述识别损失和所述重构损失负相关;

以所述编码损失趋于减少为目标,更新所述编码网络。

在一个实施例中,所述命名实体识别网络模型,包括第三方命名实体识别网络模型;

所述将所述特征文本输入命名实体识别网络模型,获得针对命名实体进行识别的识别结果,包括,将所述特征文本输入第三方命名实体识别网络模型的访问接口,获取所述识别结果。

在一个实施例中,所述重构网络为预先训练的重构网络。

在一个实施例中,所述训练方法还包括:以重构损失趋于减少为目标,更新重构网络。

在一个实施例中,所述编码网络基于卷积神经网络、长短期记忆模型中的一种。

在一个实施例中,所述重构网络模型基于循环神经网络。

在一个实施例中,所述根据识别结果和第一样本对应的标注标签,确定识别损失,包括,根据识别结果和所述标注标签之间的第一文本编辑距离,确定识别损失,所述识别损失与该第一文本编辑距离正相关;

所述根据重构文本和原始文本,确定重构损失,包括,根据重构文本和原始文本之间的第二文本编辑距离,确定重构损失,所述重构损失与该第二文本编辑距离正相关。

在一个实施例中,所述根据原始文本和特征文本,确定比较损失,包括以下之一:

根据用户对原始文本和特征文本的内容差异评分,确定比较损失;

根据原始文本的编码值和特征文本的编码值之间的均方误差,确定比较损失。

在一个实施例中,确定编码损失,包括:

将比较损失减去识别损失和重构损失,得到编码损失;或

将比较损失减去经过加权的识别损失和重构损失,得到编码损失。

根据第二方面,提供了一种反命名实体识别的编码网络的训练方法,所述方法包括:

确定实体识别网络模型的识别效果;

在所述识别效果达到预设条件的情况下,执行第一方面所述的方法,第一方面所述的编码网络。

在一个实施例中,所述确定实体识别网络模型的识别效果,包括:

将预定数量的带标签的文本样本输入实体识别网络模型,获取实体识别网络模型对于所述文本样本的识别率作为所述识别效果;

所述预设条件为,所述识别率达到预定阈值。

根据第三方面,提供了一种反命名实体识别的隐私保护方法,所述方法包括:

获取待保护文本;

将待保护文本输入根据第一方面所述的方法训练好的编码网络,所述编码网络生成隐私保护文本。

在一个实施例中,所述编码网络部署于移动终端或网页客户端。

根据第四方面,提供了一种反命名实体识别的编码网络的训练装置,所述装置包括:

样本获取单元,配置为获取有标签的第一样本集,其中包括多个第一样本,每个第一样本对应一段原始文本和针对原始文本中命名实体的标注标签;

特征文本获取单元,配置为对于各个第一样本,将所述第一样本对应的原始文本输入编码网络,获得其特征文本;

识别损失确定单元,配置为将所述特征文本输入预先训练的命名实体识别网络模型,获得针对命名实体进行识别的识别结果,根据识别结果和第一样本对应的标注标签,确定识别损失;

重构损失确定单元,配置为将所述特征文本输入重构网络模型,获得重构文本,根据重构文本和原始文本,确定重构损失;

比较损失确定单元,配置为根据原始文本和特征文本,确定比较损失;

编码损失确定单元,配置为确定编码损失,所述编码损失与所述比较损失正相关,与所述识别损失和所述重构损失负相关;

编码网络更新单元,配置为以所述编码损失趋于减少为目标,更新所述编码网络。

在一个实施例中,所述命名实体识别网络模型,包括第三方命名实体识别网络模型;

所述重构损失确定单元,配置为将特征文本输入第三方命名实体识别网络模型的访问接口,获取识别结果。

在一个实施例中,所述重构损失确定单元,进一步配置为:所述重构网络为预先训练的重构网络。

在一个实施例中,所述重构损失确定单元,进一步配置为:以重构损失趋于减少为目标,更新重构网络。

在一个实施例中,所述编码网络基于卷积神经网络、长短期记忆模型中的一种。

在一个实施例中,所述重构网络模型基于循环神经网络。

在一个实施例中,识别损失确定单元,配置为根据识别结果和所述标注标签之间的第一文本编辑距离,确定识别损失,所述识别损失与该第一文本编辑距离正相关;

重构损失确定单元,配置为根据重构文本和原始文本之间的第二文本编辑距离,确定重构损失,所述重构损失与该第二文本编辑距离正相关。

在一个实施例中,所述编码网络更新单元,所述比较损失确定单元,配置为以下之一:

根据用户对原始文本和特征文本的内容差异评分,确定比较损失;

根据原始文本的编码值和特征文本的编码值之间的均方误差,确定比较损失。

在一个实施例中,所述编码损失确定单元配置为:

将比较损失减去识别损失和重构损失,得到编码损失;或

将比较损失减去经过加权的识别损失和重构损失,得到编码损失。

根据第五方面,提供了一种反命名实体识别的编码网络的训练装置,所述装置包括:

识别效果确定单元,配置为确定实体识别网络模型的识别效果;

训练单元,配置为根据实体识别网络模型的识别效果,配置为在所述识别效果达到预设条件的情况下,执行第一方面所述的方法,训练第一方面所述的编码网络。

在一个实施例中,确定实体识别网络模型的识别效果,包括:将预定数量的带标签的文本样本输入实体识别网络模型,获取实体识别网络模型对于所述文本样本的识别率作为所述识别效果;所述预设条件为,所述识别率达到预定阈值。

根据第六方面,提供了一种反命名实体识别的隐私保护装置,所述装置包括:

待保护文本获取单元,配置为获取待保护文本;

隐私保护单元,配置为将待保护文本输入根据第一方面所述的方法训练好的编码网络;所述编码网络生成隐私保护文本。

在一个实施例中,所述编码网络部署于移动终端或网页客户端。

根据第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一、第二、第三方面所述的方法。

根据第八方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一、第二、第三方面所述的方法。

利用以上各个方面中的方法、装置、计算设备、存储介质中的一个或多个,可以更为有效地解决命名实体识别带来的隐私保护问题。

附图说明

为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出根据本说明书实施例的反命名实体识别的编码网络训练方法的示意图;

图2示出根据本说明书实施例的客户端编码器的使用效果示意图;

图3示出根据本说明书实施例的反命名实体识别的编码网络训练方法的流程图;

图4示出根据本说明书另一实施例的反命名实体识别的编码网络训练方法的流程图;

图5示出根据本说明书实施例的反命名实体识别的隐私保护方法的流程图;

图6示出根据本说明书实施例的反命名实体识别的编码网络训练装置的结构图;

图7示出根据本说明书另一实施例的反命名实体识别的编码网络训练装置的结构图;

图8示出根据本说明书实施例的反命名实体识别的隐私保护装置的结构图;

具体实施方式

下面将结合附图,对本发明书提供的方案进行描述。

如前所述,命名实体识别技术(NER)可以轻易将与个人有关的信息从一大段文本中解析出来,比如从个人记事本的记录或聊天信息中准确的识别个人的姓名,手机号,地址,公司等信息,从而造成个人隐私信息问题。

考虑到上述问题,在本说明书中的实施例中,提出一种反命名实体识别的编码网络训练、隐私保护方法及其装置。其基本思想是基于对抗学习的一种反命名实体识别(anti-NER)方法,能够在不改变语义的情况下,通过少量改变文本信息的表达方式或者语序把文字匿名化。通俗的讲,本文提出的方法可以输出一段文字,人可以很轻松的理解文字内容,而机器或者NER技术无法识别。本文中提出的方案不仅可以作为个人用户对个人文本信息的匿名化的工具,也可以用在网站或者APP作为保护自己文本信息数据的隐私化工具,亦可用在所有包含文本信息的场景中。

图2示出根据本说明书实施例的客户端编码器的使用效果示意图,其中,客户端编码器为根据反命名实体识别编码网络的训练方法训练好的编码网络,并将其下载到手机客户端,从图2可以看到,该编码器将一段文字编码为一段新的文字,从人的角度看,新的文字虽然可能有些奇异,但是仍然可以理解其蕴含的意义,但是该段文字对于使用命名实体识别技术的机器识别模型来说,却难以识别其中的个人信息,因此,使用该编码器对原始文本进行编码,可以达到对于使用命名实体识别技术的机器识别模型保密,同时保证人依然从编码后的文本获取原始文本蕴含的意义的双重目的,从而达到良好的文本隐私保护的效果。

图1示出根据本说明书实施例的反命名实体识别的编码网络训练方法的示意图。该编码网络(编码器,Encoder),用来将原始文本编码成特征文本,对于该编码网络的基本训练思路是,使得该编码网络编码后的特征文本经过一个命名实体识别模型识别后的文字形式的识别结果与原始文本的标签的差异越大越好,且该特征文本通过另一个重构网络重构出来的文本与原始文本的差异越大越好,同时,该特征文本与原始文本通过比较方法(例如采用用户评分方式,或算法替代方式)计算出来的差异越小越好。以数学方式表述,该编码网络的训练的损失函数为:

L

其中,L

图3示出根据本说明书实施例的反命名实体识别的编码网络训练方法的流程图。如图3所示,该方法包括以下步骤:

在步骤S31,获取有标签的第一样本集,其中包括多个第一样本,每个第一样本对应一段原始文本和针对原始文本中命名实体的标注标签。

如上文所述,所述原始文本例如为个人记事本中的个人记述,往往会记录一些个人姓名,手机号,地址,公司等信息,又例如为聊天的文字记录,其中也会保留关于个人的社交活动等隐私信息。当然,这些只是对原始文本的示例性的描述,而不用于限制本说明书实施例的范围。此外,第一样本集中每个原始文本有一个对应的标注标签,这个标签本身也是文本形式,在一个实施例中,该标签可以是提取了原始文本中准确的命名实体信息的文本。在不同例子中,上述标签可以由标注人员人工标注而生成,或者也可以由已验证准确率的命名实体识别模型识别得到。

在步骤S32,对于各个第一样本,将第一样本对应的原始文本输入编码网络,获得其特征文本。

所述的特征文本,是原始文本通过编码之后得到一段文字,获取这段文字的目的在于,人可以很轻松的理解其中文字内容,而利用实体识别技术的机器模型却无法识别。

编码网络本质上是一种进行特征提取的模型,在一个实施例中,编码网络可以是卷积神经网络模型或长短期记忆模型。可以理解,不同的实施例中,编码网络可以基于不同的神经网络模型,例如适用于自然语言处理的Transformer编码器,BERT模型,等等。本说明书对编码网络的具体实施方式不做限制。

在步骤S33,将特征文本输入预先训练的命名实体识别网络模型,获得针对命名实体进行识别的识别结果,根据识别结果和第一样本对应的标注标签,确定识别损失。

与上述原始文本的标签相同,识别结果本身也是文本形式,在一个实施例中,识别结果可以是实体识别网络模型提取的特征文本中命名实体信息(往往是关键个人隐私信息)文本。通过比较识别结果和原始文本的标签,确定两者之间的差异,从而确定识别损失,该识别损失被用于后续的训练过程,其具体作用将在后文中阐述。

在一个实施例中,可以根据识别结果和原始文本的标签的文本编辑距离,确定识别损失。文本编辑距离(Edit Distance),又称莱文斯坦(Levenshtein)距离,是指两个字符串(文本)之间,由一个转成另一个所需的最少编辑操作次数,其距离越大说明它们越是不同。所述编辑操作可以包括将一个字符替换成另一个字符,插入一个字符,删除一个字符

在实际生产过程中,存在不同厂家或机构架构(第三方)训练的命名实体识别模型,并将其访问接口公开。可以通过将待测样本传入这些公开的接口,从而获取其识别结果。在一个实施例中,上述命名实体识别模型可以利用第三方训练的命名实体识别模型。在这样的情况下,可以将特征文本输入第三方命名实体识别网络模型的访问接口,获取识别结果。

在步骤S34,将特征文本输入重构网络模型,获得重构文本,根据重构文本和原始文本,确定重构损失。

重构网络模型的目的是为了从特征文本还原出原始文本。本说明书的训练方法加入重构网络的目的,则是使得从编码网络输出的特征文本中还原或重构出原始文本的难度加大。如果可以从特征文本方便的重构出原始文本,那么就方便利用命名实体识别技术从重构出的原始文本中,提取用户个人隐私信息,因此提高根据特征文本重构原始文本的难度,本质上也可以起到反命名实体识别技术的目的。在一个例子中,重构网络模型可以基于循环神经网络,对于重构网络模型的具体形式本说明书不做限定。

重构网络做为一个独立的网络,可以进行独立训练。对于重构网络本身的训练而言,以重构效果越来越好为目标。因此,在一个实施例中,可以以重构损失趋于减少为目标,更新重构网络。在这样的情况下,重构网络的训练和编码网络的训练形成对抗。

在另一个实施例中,重构网络也可以为预先训练的重构网络。在该情况下,重构网络在编码网络训练的整个过程中,固定不变,不需进行更新。

如上所述确定的重构损失用于后续的编码网络的训练,关于如何具体利用重构损失将在后文阐述,这里仅对如何确定重构损失进行说明。由于重构损失可以视为对于重构文本和原始文本的差异的衡量,所以,在一个实施例中,可以根据重构文本和原始文本的文本编辑距离,确定重构损失。

在步骤S35,根据原始文本和特征文本,确定比较损失。

在不同的实施方式中,根据原始文本和特征文本,可以利用不同的具体方式衡量其文本差异,确定比较损失。例如:

根据一种实施方式,可以根据用户对原始文本和特征文本的内容差异评分,确定比较损失。由于比较损失本身的目的是衡量从人类理解角度的、原始文本和特征文本的差别,因此可以基于对原始文本和特征文本的差异的用户评分,确定比较损失,而用户评分可以采用例如向随机用户发送样本抽样调查的方法获取,这里的用户不限于使用本模型的直接用户,任何可以获取其差异评分的人类用户均可以被视为用户。

虽然使用用户评分,最符合比较损失的设计本意,根据其确定的比较损失也最准确,但是用户评分常常不容易获取,因此,在不同的实施方式中也可以以算法方式来确定比较损失。根据其中的一种实施方式,可以通过衡量原始文本和特征文本的编码值之间的均方误差,确定比较损失。均方误差(MSE:Mean Squared Error)是指估计值与真值之差平方的期望值,可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度,该实施方式中可以利用均方误差来衡量原始文本和特征文本的差异,确定比较损失。在一个例子中,可以通过如下公式,衡量两者之间的差异:

其中,xi为特征文本的编码值,yi为原始文本的编码值,MSE为原始文本和特征文本的编码值的均方误差。

需要说明的是,以上确定识别损失的步骤S33,确定重构损失的步骤S34和确定比较损失的步骤S35,可以以任何合理的相对顺序执行,或者并行执行。以上描述的顺序仅为示例。

在分别确定出识别损失、重构损失和比较损失的基础上,在步骤S36,确定编码损失,编码损失与比较损失正相关,与识别损失和重构损失负相关。

在一个例子中,编码损失等于比较损失减去识别损失和重构损失,如之前结合图1描述的公式(1)所示。在另一例子中,还可以将比较损失减去经过加权的识别损失和重构损失,得到编码损失。在计算编码损失时,对识别损失和重构损失进行加权,可以根据识别效果、和编码的隐私保护效果,对训练过程进行调整。

接着在步骤S37,以编码损失趋于减少为目标,更新所述编码网络。

该步骤中,编码网络的训练目标是使得编码损失趋于减少,而编码损失与比较损失正相关,与识别损失和重构损失负相关,因此,编码网络的训练实际上依赖于命名实体识别模型和重构网络模型的输出所给予的反馈,或者说,编码网络的训练本质上是为了对抗命名实体识别模型识别能力,以及对抗重构网络模型的重构能力。具体的,由于编码损失与识别损失和重构损失负相关,因此命名实体识别模型的识别能力越强,识别损失就会越小,编码损失就会越大;重构网络的重构能力越强,重构损失就会越小,编码损失越大。同时,编码损失与比较损失正相关,即比较损失越小,编码损失也就越小。因此,以编码损失趋向于变小训练编码网络的过程,将会使得编码的结果(特征文本)对于命名实体识别模型的识别难度(对于重构网络来讲是重构难度)加大,从而识别损失(对于重构网络来讲是重构损失)变大,且对于人类来讲辨识难度下降,从而比较损失变小的过程。这也是该训练方法中的对抗性训练的实质所在。

如此,通过以上训练过程训练得到的编码网络,可以达到编码后的特征文本对于命名实体识别技术保密,同时保证人依然能够从中获取原始含义的效果。

图4示出根据本说明书另一实施例的反命名实体识别的编码网络训练方法的流程图。如图4所示,该方法包含以下步骤:

在步骤41,确定实体识别网络模型的识别效果。

在一个实施例中,可以将预定数量的带标签的文本样本输入实体识别网络模型,获取实体识别网络模型对于所述文本样本的识别率作为识别效果。在其他实施例中,还可以根据其他性能衡量指标,例如误识比例,漏识比例等,确定识别效果。

在步骤42,在识别效果达到预设条件的情况下,执行图3所示的方法,训练编码网络。

实践中,单纯从命名实体识别模型而言,其识别能力的趋势通常是越来越好,而命名实体识别模型的识别能力变强,将导致编码网络的反命名实体识别能力变弱,因此当检测到命名实体识别模型的识别能力变强,可以对抗性的启动对编码网络的训练。在一个实施例中,可以在实体识别网络模型对于文本样本的识别率超过预定阈值后,或者例如误识比例/漏识比例低到一定设定值后,利用图3所示的方法,启动对于编码网络的训练。

图5示出根据本说明书实施例的反命名实体识别的隐私保护方法的流程图。如图5所示,所述方法包括:

在步骤51,获取待保护文本;

在步骤52,将待保护文本输入根据图3所示方法训练好的编码网络,所述编码网络生成隐私保护文本。

在一个实施例中,训练好的编码网络可以部署于移动终端或网页客户端的。编码网络在训练过程中可以部署于云端,在一个具体的例子中,将云端训练好的编码网络,下载并部署于移动终端或网页客户端。容易理解,由于前述的编码网络可以根据阈值判断重启训练过程,重新训练好的编码网络的也可以重新部署。

图6示出根据本说明书实施例的反命名实体识别的编码网络训练装置的结构图。如图6所示,该编码网络训练装置600包括:

样本获取单元61,配置为获取有标签的第一样本集,其中包括多个第一样本,每个第一样本对应一段原始文本和针对原始文本中命名实体的标注标签;

特征文本获取单元62,配置为对于各个第一样本,将所述第一样本对应的原始文本输入编码网络,获得其特征文本;

识别损失确定单元63,配置为将所述特征文本输入预先训练的命名实体识别网络模型,获得针对命名实体进行识别的识别结果,根据识别结果和第一样本对应的标注标签,确定识别损失;

重构损失确定单元64,配置为将所述特征文本输入重构网络模型,获得重构文本,根据重构文本和原始文本,确定重构损失;

比较损失确定单元65,配置为根据原始文本和特征文本,确定比较损失;

编码损失确定单元66,配置为确定编码损失,所述编码损失与所述比较损失正相关,与所述识别损失和所述重构损失负相关;

编码网络更新单元67,配置为以所述编码损失趋于减少为目标,更新所述编码网络。

在一个实施例中,命名实体识别网络模型,可以是第三方命名实体识别网络模型;重构损失确定单元,进一步配置为将特征文本输入第三方命名实体识别网络模型的访问接口,获取识别结果。

在一个实施例中,重构损失确定单元64可以进一步配置为:所述重构网络为预先训练的重构网络。

在一个实施例中,重构损失确定单元64可以进一步配置为:以重构损失趋于减少为目标,更新重构网络。

在一个实施例中,编码网络可以基于卷积神经网络、长短期记忆模型中的一种。

在一个实施例中,重构网络模型可以基于循环神经网络。

在一个实施例中,识别损失确定单元63,可以进一步配置为根据识别结果和所述标注标签之间的第一文本编辑距离,确定识别损失,所述识别损失与该第一文本编辑距离正相关;

重构损失确定单元64,可以进一步配置为根据重构文本和原始文本之间的第二文本编辑距离,确定重构损失,所述重构损失与该第二文本编辑距离正相关。

在一个实施例中,比较损失确定单元65,可以进一步配置为以下之一:

根据用户对原始文本和特征文本的内容差异评分,确定比较损失;

根据原始文本的编码值和特征文本的编码值之间的均方误差,确定比较损失。

在一个实施例中,编码损失确定单元66可以进一步配置为,将比较损失减去识别损失和重构损失,得到编码损失;或

将比较损失减去经过加权的识别损失和重构损失,得到编码损失。

图7示出根据本说明书另一实施例的反命名实体识别的编码网络训练装置的结构图。如图7所示,该装置包括:

识别效果确定单元71,配置为确定实体识别网络模型的识别效果;

训练单元72,配置为在所述识别效果达到预设条件的情况下,执行图3所示的方法,训练编码网络。

在一个实施例中,可以将预定数量的带标签的文本样本输入实体识别网络模型,获取实体识别网络模型对于所述文本样本的识别率作为所述识别效果;在这种情况下,所述预设条件为识别率达到预定阈值。

图8示出根据本说明书实施例的反命名实体识别的隐私保护装置的结构图。如图8所示,该装置包括:

待保护文本获取单元81,配置为获取待保护文本;

隐私保护单元82,配置为将待保护文本输入根据图3所示的方法训练好的编码网络;所述编码网络生成隐私保护文本。

在一个实施例中,训练好的编码网络可以部署于移动终端或网页客户端的。

本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。

本说明书另一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。

需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号