首页> 中国专利> 一种基于隐私保护的隐私数据处理方法、装置及设备

一种基于隐私保护的隐私数据处理方法、装置及设备

摘要

本说明书实施例公开了一种基于隐私保护的隐私数据处理方法、装置及设备,该方法包括:获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据;对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息;如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型;基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,并基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理。

著录项

  • 公开/公告号CN113221747A

    专利类型发明专利

  • 公开/公告日2021-08-06

    原文格式PDF

  • 申请/专利权人 支付宝(杭州)信息技术有限公司;

    申请/专利号CN202110521370.X

  • 发明设计人 曹佳炯;丁菁汀;

    申请日2021-05-13

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06F21/62(20130101);

  • 代理机构11315 北京国昊天诚知识产权代理有限公司;

  • 代理人朱文杰

  • 地址 310000 浙江省杭州市西湖区西溪路556号8层B段801-11

  • 入库时间 2023-06-19 12:07:15

说明书

技术领域

本说明书涉及计算机技术领域,尤其涉及一种基于隐私保护的隐私数据处理方法、装置及设备。

背景技术

近年来,诸如指纹识别、人脸识别等生物识别系统得到了广泛的应用,在支付、出行、安防等场景都可以见到生物识别系统的身影。由于生物识别系统往往涉及到对用户生物信息的采集、处理、传输和存储,其中每一步都有可能造成用户隐私数据泄漏。

由于目前大部分生物识别系统是基于深度学习框架构建的,而深度学习框架需要大量的样本数据进行训练,从而提高生物识别系统的性能,而以保护用户隐私为前提,大量采集和使用用户隐私数据来构建模型或优化模型是不可取的。为此,需要提供一种在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能。

发明内容

本说明书实施例的目的是提供一种在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能。

为了实现上述技术方案,本说明书实施例是这样实现的:

本说明书实施例提供的一种基于隐私保护的隐私数据处理方法,所述方法包括:获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据。对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息。如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值。基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。

本说明书实施例提供的一种基于隐私保护的隐私数据处理方法,所述方法包括:获取包括用户隐私数据的业务数据。对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据。将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据。基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果。其中,所述主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例提供的一种基于隐私保护的隐私数据处理方法,所述方法包括:获取包括用户隐私数据的业务数据。对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据。将所述脱敏后的业务数据发送给服务器,以使所述服务器将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据,所述主动学习模型是所述服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到。接收所述服务器发送的所述优化脱敏业务数据,并基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例提供的一种基于隐私保护的隐私数据处理装置,所述装置包括:目标数据获取模块,获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据。分布分析模块,对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息。训练模块,如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值。第一处理模块,基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。

本说明书实施例提供的一种基于隐私保护的隐私数据处理装置,所述装置包括:业务数据获取模块,获取包括用户隐私数据的业务数据。第一脱敏模块,对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据。优化处理模块,将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据。识别模块,基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果;其中,所述主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例提供的一种基于隐私保护的隐私数据处理装置,所述装置包括:业务数据获取模块,获取包括用户隐私数据的业务数据。脱敏模块,对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据。数据发送模块,将所述脱敏后的业务数据发送给服务器,以使所述服务器将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据,所述主动学习模型是所述服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到。识别模块,接收所述服务器发送的所述优化脱敏业务数据,并基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例提供的一种基于隐私保护的隐私数据处理设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据。对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息。如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值。基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。

本说明书实施例提供的一种基于隐私保护的隐私数据处理设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取包括用户隐私数据的业务数据。对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据。将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据。基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果;其中,所述主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例提供的一种基于隐私保护的隐私数据处理设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取包括用户隐私数据的业务数据。对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据。将所述脱敏后的业务数据发送给服务器,以使所述服务器将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据,所述主动学习模型是所述服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到。接收所述服务器发送的所述优化脱敏业务数据,并基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据。对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息。如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值。基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。

本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取包括用户隐私数据的业务数据。对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据。将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据。基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果;其中,所述主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取包括用户隐私数据的业务数据。对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据。将所述脱敏后的业务数据发送给服务器,以使所述服务器将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据,所述主动学习模型是所述服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到。接收所述服务器发送的所述优化脱敏业务数据,并基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1A为本说明书一种基于隐私保护的隐私数据处理方法实施例;

图1B为本说明书一种基于隐私保护的隐私数据处理过程的示意图;

图2为本说明书另一种基于隐私保护的隐私数据处理过程的示意图;

图3A为本说明书另一种基于隐私保护的隐私数据处理方法实施例;

图3B为本说明书又一种基于隐私保护的隐私数据处理过程的示意图;

图4A为本说明书又一种基于隐私保护的隐私数据处理方法实施例;

图4B为本说明书又一种基于隐私保护的隐私数据处理过程的示意图;

图5为本说明书一种基于隐私保护的隐私数据处理装置实施例;

图6为本说明书另一种基于隐私保护的隐私数据处理装置实施例;

图7为本说明书又一种基于隐私保护的隐私数据处理装置实施例;

图8为本说明书一种基于隐私保护的隐私数据处理设备实施例。

具体实施方式

本说明书实施例提供一种基于隐私保护的隐私数据处理方法、装置及设备。

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。

实施例一

如图1A所示,本说明书实施例提供一种基于隐私保护的隐私数据处理方法,该方法的执行主体可以为服务器,其中,该服务器可以是为某项业务(如进行交易的业务或金融业务等)或需要为指定的终端设备(如IoT设备等)生成高效的业务模型(如面部识别模型或虹膜识别模型等)的服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。该方法具体可以包括以下步骤:

在步骤S102中,获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据。

其中,目标数据可以是包括用户隐私数据的任意数据,例如可以是包括用户隐私数据的某项业务(如支付业务、登录业务等)的数据,或者,也可以是只包含用户隐私数据等,具体可以根据实际情况设定,本说明书实施例对此不做限定。目标数据可以包括一个,也可以包括多个,在实际应用中,为了进行模型训练,目标数据的数量可以满足指定的条件,例如目标数据的数量需要超过1000个等。用户隐私数据可以包括多种,例如用户的面部数据、用户的指纹数据、用户的虹膜数据或指定的业务数据等,其中的用户隐私数据可以通过多种不同的方式呈现,例如,可以以图像的方式呈现用户的面部数据,可以以物理纹路等信息呈现用户的指纹数据等,具体可以根据实际情况设定,本说明书实施例对此不做限定。脱敏处理可以是对某些隐私数据通过脱敏规则进行数据的变形,实现隐私数据的可靠保护,在涉及用户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则情况下,对数据进行改造并提供测试等场景使用,如可以对某些数据中包含的能够证明用户身份的信息、手机号码、银行卡号码、用户姓名等个人隐私数据进行数据脱敏处理,以对上述数据中包含的上述个人隐私数据进行数据保护。

在实施中,近年来,诸如指纹识别、人脸识别等生物识别系统得到了广泛的应用,在支付、出行、安防等场景都可以见到生物识别系统的身影。随着生物识别系统的大规模应用,用户和监管部门对于隐私的忧虑逐渐浮现出来。由于生物识别系统往往涉及到对用户生物信息的采集、处理、传输和存储,其中每一步都有可能造成用户隐私数据泄漏。另一方面,目前生物识别的核心技术是深度学习技术,而深度学习的过程需要大量的有标签数据进行训练。某些组织或个人利用这一点将用户的隐私数据进行标注后售卖给某些组织或机构,形成了灰色产业链。而有些组织或机构为了提升算法的性能,甚至可能在用户没有授权的情况下使用用户隐私数据。

由于目前大部分生物识别系统是基于深度学习框架构建的,而深度学习框架需要大量的样本数据进行训练,从而提高生物识别系统的性能,而以保护用户隐私为前提,大量采集和使用用户隐私数据来构建模型或优化模型是不可取的。此外,当前也存在多种隐私保护的方案,例如,通过不可逆的操作对用户隐私数据进行隐私保护处理(具体如可以将用户信息转换为特征的形式进行存储和传输等),这样用户信息将无法进行恢复。此方式对于用户隐私的安全性较高,黑产难以使用隐私保护后的特征恢复得到用户隐私数据。但是,由于模型训练的过程中只有特征数据,而无原始的用户隐私数据,模型的训练和性能的提升将会停滞不前,如果数据分布发生明显变化,则模型的性能将会明显衰减,且无法通过模型训练提升其性能。再例如,可以使用可逆的数据变换操作(如进行简单的图像行列交换操作等),对用户隐私数据进行加密,然后,模型训练的过程中,可以通过对应的逆变换进行解密,得到用户隐私数据,但是此方式可以通过暴力破解的方式得到用户隐私数据,安全性较低。为此,需要提供一种在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统模型的性能,进而提升用户的体验。本说明书实施例提供一种可选的技术方案,具体可以包括以下内容:

可以通过多种不同的方式获取待处理的包括用户隐私数据的目标数据,具体如,可以通过购买的方式从不同的用户处购买用户隐私数据,或者,可以通过提前体验某应用程序,但需要用户提供用户隐私数据的方式从不同的用户处获取包括用户隐私数据的目标数据,或者,可以预先设定生成用户隐私数据的模型,并可以通过该模型生成用户隐私数据等,具体可以根据实际情况设定,本说明书实施例对此不做限定。

可以根据实际情况,预先设定用于对用户隐私数据进行脱敏处理的脱敏规则,该脱敏规则可以包括多种不同的构成形式,例如,该脱敏规则可以是由文本构成,该文本中可以记载有对哪些数据需要进行脱敏处理,以及用于脱敏处理的算法等,或者,该脱敏规则可以是由一个或多个模型构成等,具体可以根据实际情况设定,本说明书实施例对此不做限定。通过上述方式构建脱敏规则后,可以通过该脱敏规则确定目标数据中包含的用户隐私数据,然后,可以通过该脱敏规则对确定的用户隐私数据进行脱敏处理,得到脱敏后的目标数据,从而使得目标数据中包含的用户隐私数据得到保护。

上述处理过程可以是由服务器完成,也可以是进行隐私识别处理的终端设备完成,具体可以根据实际情况设定,本说明书实施例对此不做限定。其中,对于上述处理过程是由进行隐私识别处理的终端设备完成的情况,如图1B所示,终端设备可以获取脱敏后的目标数据,并可以将脱敏后的目标数据发送给服务器,具体可以根据实际情况设定,本说明书实施例对此不做限定。

在步骤S104中,对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息。

其中,数据分布差异信息可以是数据的分布情况存在的差别的信息,数据分布差异信息可以指示某数据的分布情况存在差异或可以指示某数据的分布情况不存在差异等,具体可以根据实际情况设定,本说明书实施例对此不做限定。

在实施中,可以根据目标数据的形成时间对脱敏后的目标数据进行排序,即可以将某项目标数据的形成时间作为相应的脱敏后的目标数据对应的时间,然后,可以基于脱敏后的目标数据对应的时间,按照时间的先后顺序对相应的脱敏后的目标数据进行排序。可以基于排序结果将脱敏后的目标数据划分为多个不同的集合,具体地划分集合的方式可以包括多种,例如可以每隔预设时长(如7天或1个月等)将脱敏后的目标数据划分为1个集合,则每个集合中包括预设时长的脱敏后的目标数据。可以分别对每个集合中包括的脱敏后的目标数据进行数据分布分析,同时,可以基于每个集合中包括的脱敏后的目标数据的数据分布分析结果,确定不同集合之间数据分布分析结果,从而得到脱敏后的目标数据对应的数据分布差异信息。

在步骤S106中,如果上述数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,该主动学习模型用于对脱敏后的目标数据进行数据优化处理,以得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,该隐私识别模型是基于包括用户隐私数据的第一样本数据进行训练得到,第一样本数据对应的数据分布差异概率小于预定阈值。

其中,隐私识别模型可以是预先已训练完成,用于对用户隐私数据进行识别的模型,例如,隐私识别模型可以是面部识别模型,或者,隐私识别模型可以是指纹识别模型,或者,隐私识别模型可以是虹膜识别模型,或者,除了隐私识别模型可以为上述生物识别模型外,隐私识别模型还可以是对指定的不允许向指定机构或个人传输的业务数据进行识别的模型等,具体可以根据实际情况设定,本说明书实施例对此不做限定。主动学习模型可以是待训练的模型,针对主动学习模型,在使用监督学习方法进行分类时,往往是训练样本规模越大,分类的效果就越好,但是在实际应用的很多场景中,标记样本的获取是比较困难的,通常需要领域内的专家来进行人工标注,所需花费的时间成本和经济成本很大,而且,如果训练样本的规模过于庞大,训练的时间花费也会较多,如何能够使用较少的训练样本来获得性能较好的分类器,成为需要解决的重要问题,而主动学习提供了这种可能,主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练主动学习模型,通过不断积累的信息修正隐私识别模型,进而提高隐私识别模型的精确度。主动学习模型的处理过程需要学习者通过少量初始标记样本开始学习,通过一定的查询函数选择出一个或多个有效的样本,并向督导者询问相应的标签,然后利用获得的信息来训练主动学习模型和进行下一轮查询,主动学习模型的处理过程是一个循环的过程,直至达到某一停止准则为止。其中的查询函数的设计最常用的策略是不确定性准则和差异性准则,不确定性准则就是要找出不确定性高的样本数据,因为该样本数据所包含的丰富信息量,对训练模型来说就是有用的。预定阈值可以根据实际情况设定,具体如60%或80%等。准确性阈值可以根据实际情况设定,例如准确性阈值可以为95%等。

在实施中,隐私识别模型可以设置于终端设备或服务器中,可以预先获取包括用户隐私数据的第一样本数据,其中,第一样本数据对应的数据分布差异概率小于预定阈值,然后,可以通过预设的算法构建隐私识别模型的初始架构,然后,可以使用第一样本数据对构建的隐私识别模型进行训练,得到训练后的隐私识别模型。在实际应用中,当数据的差异性达到一定程度时,说明隐私识别模型需要进行更新迭代,即如果上述数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则可以参照上述主动学习模型的处理过程,通过预设的查询函数选择出一个或多个脱敏后的目标数据,并向督导者询问选择的脱敏后的目标数据对应的类别,然后利用获得的信息来训练主动学习模型,之后,进行下一轮查询,从而使得输入的数据得到优化,以更加有利于被隐私识别模型进行隐私数据识别处理,即得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,最终得到训练后的主动学习模型。

在步骤S108中,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,并基于更新后的隐私识别模型和训练后的主动学习模型进行隐私数据的识别处理,第二样本数据中包括数据分布差异概率大于预定阈值的样本数据。

其中,第二样本数据中可以包括用户隐私数据。

在实施中,可以预先获取一定数量的第二样本数据,具体如,可以通过购买的方式从不同的用户处购买第二样本数据,或者,可以通过提前体验某应用程序,但需要用户提供相关数据的方式从不同的用户处获取第二样本数据,或者,可以预先设定生成样本数据的模型,并可以通过该模型生成第二样本数据等,具体可以根据实际情况设定。然后,可以训练后的主动学习模型对第二样本数据对应的脱敏数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,可以将优化脱敏数据输入到隐私识别模型中,以对隐私识别模型进行训练,得到更新后的隐私识别模型。后续可以对更新后的隐私识别模型和训练后的主动学习模型进行部署,部署之后,当终端设备需要对用户进行隐私数据识别时,可以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,具体地,可以获取包括用户隐私数据的待处理数据,可以将该待处理数据对应的脱敏后的数据输入到训练后的主动学习模型中得到增强处理后的用户隐私数据,可以将增强处理后的用户隐私数据输入到更新后的隐私识别模型中,以得到用户隐私数据的识别结果。

本说明书实施例提供一种基于隐私保护的隐私数据处理方法,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

实施例二

如图2所示,本说明书实施例提供一种基于隐私保护的隐私数据处理方法,该方法的执行主体可以为服务器,其中,该服务器可以是为某项业务(如进行交易的业务或金融业务等)或需要为指定的终端设备(如IoT设备等)生成高效的业务模型(如面部识别模型或虹膜识别模型等)的服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。该方法具体可以包括以下步骤:

在步骤S202中,接收终端设备发送的脱敏后的目标数据,该脱敏后的目标数据为终端设备基于预先训练的隐私识别模型对目标数据中包含的用户隐私数据进行特征提取而得到的目标数据对应的特征。

在实施中,在实际应用中,脱敏处理的方式可以包括多种,本实施例中提供一种可选的处理方式,即通过特征提取的方式提取的特征作为脱敏后的目标数据,这样,用户隐私数据通过特征数据的方式进行存储和传输,而通过特征数据很难将其恢复为原始的用户隐私数据,从而保护了用户隐私数据,基于此,每当用户使用终端设备进行隐私识别处理时,终端设备可以启动隐私识别处理机制,并可以通过隐私识别处理机制获取包括用户隐私数据(如用户的面部图像或指纹数据等)的目标数据(如包括用户面部图像的支付数据等),然后,终端设备可以基于预先训练的隐私识别模型中包含的特征提取机制对目标数据中包含的用户隐私数据进行特征提取,得到目标数据对应的特征,可以将目标数据对应的特征作为脱敏后的目标数据,终端设备可以将脱敏后的目标数据发送给服务器。

此外,终端设备将脱敏后的目标数据提供给服务器之前,终端设备还可以对目标数据进行预处理,具体地,终端设备获取到包括用户隐私数据的目标数据后,还可以基于预先训练的隐私识别模型对目标数据进行预处理,得到预处理后的目标数据,其中,预处理可以包括对目标数据进行用户隐私数据的检测、对目标数据进行用户隐私数据的校准处理中的一项或多项。其中的对目标数据进行用户隐私数据的检测可以包括通过预设的隐私数据检测机制对目标数据中是否包括用户隐私数据,以及目标数据中的哪些数据为用户隐私数据进行检测。其中的对目标数据进行用户隐私数据的校准处理可以包括对检测到的用户隐私数据进行校准,以使得从目标数据中准确获取用户隐私数据。

通过上述方式,不同用户的终端设备可以分别向服务器发送相应目标数据对应的特征(即脱敏后的目标数据),服务器可以获取到终端设备发送的脱敏后的目标数据。其中,脱敏后的目标数据(如目标数据对应的特征)是能够被服务器应用和识别的数据,并且可以被服务器应用于进行生物识别等隐私识别处理中。

需要说明的是,服务器获取的可以是多个不同终端设备分别发送的脱敏后的目标数据,也可以是从同一个终端设备获取的多个不同的脱敏后的目标数据等,具体可以根据实际情况设定,本说明书实施例对此不做限定。此外,隐私识别模型可以是终端设备中存储的用于对用户隐私数据进行隐私识别处理的模型,隐私识别模型的构建和训练过程可以参见上述相关内容,在此不再赘述。

在步骤S204中,基于预设的时间间隔,从脱敏后的目标数据中分别抽取预设数量的脱敏后的目标数据,得到两个时间点的数据集合。

其中,预设的时间间隔可以包括多种,例如1个月或3个月等,具体可以根据实际情况设定。预设数量可以根据实际情况设定,例如10万或15万等。

在实施中,可以预先设定一定的时间间隔,以时间间隔为1个月为例,可以从脱敏后的目标数据中抽取指定的时间点处预设数量(如10万)的脱敏后的目标数据,同样的,可以确定与指定的时间点间隔1个月的时间点,并可以从脱敏后的目标数据中抽取确定的时间点处预设数量(如10万)的脱敏后的目标数据,从而得到两个时间点的数据集合。

在步骤S206中,分别获取每个时间点的数据集合中包含的脱敏后的目标数据对应的用户隐私数据的识别分值。

其中,识别分值可以是将当前数据(即当前的用户隐私数据)与预设的基准数据(即基准的用户隐私数据)进行比对,而得到的两者相似程度的数值,识别分值可以通过多种不同的方式确定,例如可以通过预先设定的相似度算法等确定相应的识别分值,或者,可以也可以通过上述隐私识别模型确定等,具体可以根据实际情况设定,本说明书实施例对此不做限定。

在实施中,可以将每个时间点的数据集合中包含的脱敏后的目标数据输入到上述隐私识别模型中进行隐私数据的识别,得到每个脱敏后的目标数据对应的识别结果,其中,隐私识别模型的输出结果可以是上述识别分值,则可以得到每个脱敏后的目标数据对应的识别分值,从而可以得到每个时间点的数据集合中包含的脱敏后的目标数据对应的用户隐私数据的识别分值。

在步骤S208中,基于每个时间点的数据集合中包含的脱敏后的目标数据对应的用户隐私数据的识别分值,确定每个时间点的数据集合对应的识别分值的分布特征。

在实施中,例如,识别分值的取值范围为0-100,如果以0-0.1的范围作为一个分值段,则可以得到1000个分值段,可以统计每个分值段内包含的特征的数量,从而可以得到每个分值段对应的识别分值的分布特征。

需要说明的是,上述仅是一种可实现的分布特征的确定方式,在实际应用中,还可以通过多种不同的方式实现分布特征的确定,具体可以根据实际情况设定,本说明书实施例对此不做限定。

在步骤S210中,基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,将两个时间点的数据集合对应的数据分布差异信息确定为脱敏后的目标数据对应的数据分布差异信息。

其中,分布分类模型可以基于预设的算法(如基于指定的聚类算法,具体如K-Means聚类算法、均值漂移聚类算法、基于密度的聚类算法或用高斯混合模型(GMM)的最大期望(EM)聚类算法等)构建,分布分类模型可以是基于数据的分布情况,对数据进行分类或确定不同数据之间的异同的模型。分布分类模型可以通过预先获取的数据分布特征进行模型训练而得到,具体的模型构建和模型训练的过程可以根据实际实际情况设定,本说明书实施例对此不做限定。

在实施中,可以获取数据分布特征作为训练数据,可以对通过预设算法构建的分布分类模型进行训练,得到训练后的分布分类模型,通过上述方式得到每个时间点的数据集合对应的识别分值的分布特征后,可以将每个时间点的数据集合对应的识别分值的分布特征分别输入训练后的分布分类模型中,基于训练后的分布分类模型的处理,可以得到两个时间点的数据集合对应的数据分布差异信息,其中,两个时间点的数据集合对应的数据分布差异信息可以通过数据分布差异概率表示。上述两个时间点的数据集合对应的数据分布差异信息即可作为脱敏后的目标数据对应的数据分布差异信息。

上述步骤S210的具体处理可以多种多样,以下再提供一种可选的处理方式,具体可以包括以下步骤A2和步骤A4的处理。

在步骤A2中,基于预设的聚类算法分别对两个时间点的数据集合进行聚类,得到每个时间点的数据集合对应的聚类中心特征。

其中,该聚类算法可以包括多种,本实施例中的聚类算法可以包括K-Means聚类算法。

在实施中,可以将两个时间点的数据集合分别使用预设的聚类算法进行聚类,得到多个不同的聚类中心(如10个聚类中心等),可以将得到的多个不同的聚类中心作为聚类中心特征,从而得到每个时间点的数据集合对应的聚类中心特征。

在步骤A4中,将每个时间点的数据集合对应的识别分值的分布特征和每个时间点的数据集合对应的聚类中心特征输入到预先训练的分布分类模型中,得到两个时间点的数据集合对应的数据分布差异信息。

在实施中,可以将两个时间点的数据集合对应的识别分值的分布特征和每个时间点的数据集合对应的聚类中心特征串联起来,输入到预先训练的分布分类模型中,得到两个时间点的数据集合对应的数据分布差异概率,如果上述数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则表明脱敏后的目标数据中存在差异性较大的数据,此时需要进行基于主动学习的模型训练,即执行下述步骤S212的处理,如果上述数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率小于预定阈值,则表明脱敏后的目标数据中不存在差异性较大的数据,即当前的隐私识别模型的性能较好,不需要执行步骤S212及其之后的处理。

在步骤S212中,如果上述数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于每个时间点的数据集合中包含的脱敏后的目标数据对应的用户隐私数据的识别分值,生成每个时间点的数据集合中包含的脱敏后的目标数据对应的类别。

在实施中,对于主动学习模型的训练,可以包括两个阶段,其中,第一阶段:

类别的确定(或数据标签的生成)

可以利用隐私识别模型确定的每个时间点的数据集合中包含的脱敏后的目标数据对应的用户隐私数据的识别分值进行分类,具体地,每一个脱敏后的目标数据都会被隐私识别模型判定为一个身份,对应的置信度则为上述识别分值。

在步骤S214中,从两个时间点的数据集合中包含的脱敏后的目标数据中选取识别分值大于第一预设识别阈值的脱敏后的目标数据,并获取选取的脱敏后的目标数据对应的类别。

其中,第一预设识别阈值可以根据实际情况设定,具体如75等。

在实施中,可以将识别分值大于第一预设识别阈值(例如第一预设识别阈值为75)的脱敏后的目标数据(即目标数据对应的特征)筛选出来,并以隐私识别模型判定的身份作为类别(或数据标签)。

在步骤S216中,基于选取的脱敏后的目标数据和选取的脱敏后的目标数据对应的类别,以及Margin-Softmax损失函数,对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型。

其中,该主动学习模型可以由多个多层感知机构建,本实施例中该主动学习模型可以由三层的MLP构建。

通过上述第一阶段构建和训练主动学习模型后,还可以通过下述步骤S218~步骤S222的处理执行主动学习模型的第二阶段。

在步骤S218中,通过训练后的主动学习模型对两个时间点的数据集合中包含的脱敏后的目标数据进行脱敏处理,得到脱敏数据,并确定脱敏数据对应的用户隐私数据的识别分值。

在实施中,可以利用上述第一阶段中主动学习模型对两个时间点的数据集合中包含的脱敏后的目标数据进行脱敏处理,得到脱敏数据,具体地,可以利用上述第一阶段中主动学习模型对两个时间点的数据集合中包含的脱敏后的目标数据进行特征提取,得到脱敏后的目标数据对应的特征,并重新计算脱敏数据对应的用户隐私数据的识别分值。

在步骤S220中,从上述脱敏数据中选取识别分值大于第二预设识别阈值的脱敏数据,并基于隐私识别模型分别对选取的脱敏数据进行用户隐私数据的识别处理,基于得到的识别结果确定选取的脱敏数据对应的类别。

其中,第二预设识别阈值可以根据实际情况设定,具体如70等。

上述步骤S220的具体处理过程可以参见上述相关内容,在此不再赘述。

在步骤S222中,基于选取的脱敏数据、确定的选取的脱敏数据对应的类别和TripletLoss损失函数对主动学习模型进行调整,得到调整后的主动学习模型。

在实施中,在上述第一阶段得到的主动学习模型的基础上,利用第二阶段确定的选取的脱敏数据对应的类别,以及TripletLoss损失函数对主动学习模型进行模型训练,以对主动学习模型进行调整,得到最终的增强学习模型(即调整后的主动学习模型)。

在步骤S224中,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型。

在步骤S226中,将更新后的隐私识别模型和训练后的主动学习模型发送给终端设备,以使终端设备基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理。

在实际应用中,除了可以将更新后的隐私识别模型和训练后的主动学习模型部署于终端设备中之外,还可以将更新后的隐私识别模型部署于终端设备,而训练后的主动学习模型部署于服务器中,即将更新后的隐私识别模型发送给终端设备,以通过终端设备中的更新后的隐私识别模型和本地的训练后的主动学习模型进行用户隐私数据的识别处理。

针对更新后的隐私识别模型部署于终端设备,训练后的主动学习模型部署于服务器中的情况,服务器可以执行下述步骤B2~步骤B6的处理。

在步骤B2中,接收终端设备发送的通过更新后的隐私识别模型对待处理的业务数据中包含的用户隐私数据进行脱敏处理而得到脱敏后的业务数据。

其中,业务数据可以包括多种,例如面部识别的业务数据,包括面部识别数据的用于支付的业务数据等,具体可以根据实际情况设定,本说明书实施例对此不做限定。

在步骤B4中,将脱敏后的业务数据输入到训练后的主动学习模型中,以对脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据。

在步骤B6中,将优化脱敏业务数据发送给终端设备,以使终端设备基于优化脱敏业务数据,使用更新后的隐私识别模型进行隐私数据的识别处理,得到脱敏后的业务数据对应的识别结果。

本说明书实施例提供一种基于隐私保护的隐私数据处理方法,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

实施例三

如图3A和图3B所示,本说明书实施例提供一种基于隐私保护的隐私数据处理方法,该方法的执行主体可以为终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。本实施例可以是针对上述实施例二中更新后的隐私识别模型和训练后的主动学习模型部署于终端设备中的情况,该方法具体可以包括以下步骤:

在步骤S302中,获取包括用户隐私数据的业务数据。

在步骤S304中,对上述业务数据中包含的用户隐私数据进行脱敏处理,得到脱敏后的业务数据。

在步骤S306中,将脱敏后的业务数据输入到预先训练的主动学习模型中,以对脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据。

在步骤S308中,基于优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到脱敏后的业务数据对应的识别结果。

其中,主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到,隐私识别模型是基于训练后的主动学习模型对目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

需要说明的是,步骤S304的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括:基于预先训练的隐私识别模型对上述业务数据中包含的用户隐私数据进行脱敏处理,得到脱敏后的业务数据。具体处理过程可以参见上述相关内容,在此不再赘述。

另外,针对上述实施例二中的相关内容,终端设备可以为服务器提供脱敏后的目标数据,具体处理可以包括下述步骤C2~步骤C8的处理。

在步骤C2中,获取包括用户隐私数据的目标数据。

在步骤C4中,基于预先训练的隐私识别模型对目标数据进行预处理,得到预处理后的目标数据,该预处理包括对目标数据进行用户隐私数据的检测、对目标数据进行用户隐私数据的校准处理中的一项或多项。

在步骤C6中,基于预先训练的隐私识别模型对目标数据中包含的用户隐私数据进行脱敏处理,得到脱敏后的目标数据。

在步骤C8中,将脱敏后的目标数据发送给服务器。

其中,服务器基于脱敏后的目标数据的具体处理过程可以参见上述实施例二中的相关内容,在此不再赘述。

本说明书实施例提供一种基于隐私保护的隐私数据处理方法,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

实施例四

如图4A和图4B所示,本说明书实施例提供一种基于隐私保护的隐私数据处理方法,该方法的执行主体可以为终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。本实施例可以是针对上述实施例二中更新后的隐私识别模型部署于终端设备,训练后的主动学习模型部署于服务器中的情况,该方法具体可以包括以下步骤:

在步骤S402中,获取包括用户隐私数据的业务数据。

在步骤S404中,对上述业务数据中包含的用户隐私数据进行脱敏处理,得到脱敏后的业务数据。

在步骤S406中,将脱敏后的业务数据发送给服务器,以使服务器将脱敏后的业务数据输入到预先训练的主动学习模型中,以对脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据,主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到。

在步骤S408中,接收服务器发送的优化脱敏业务数据,并基于优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到脱敏后的业务数据对应的识别结果,隐私识别模型是基于训练后的主动学习模型对目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

需要说明的是,步骤S404的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括:基于预先训练的隐私识别模型对上述业务数据中包含的用户隐私数据进行脱敏处理,得到脱敏后的业务数据。具体处理过程可以参见上述相关内容,在此不再赘述。

另外,针对上述实施例二中的相关内容,终端设备可以为服务器提供脱敏后的目标数据,具体处理可以包括下述步骤D2~步骤D8的处理。

在步骤D2中,获取包括用户隐私数据的目标数据。

在步骤D4中,基于预先训练的隐私识别模型对目标数据进行预处理,得到预处理后的目标数据,该预处理包括对目标数据进行用户隐私数据的检测、对目标数据进行用户隐私数据的校准处理中的一项或多项。

在步骤D6中,基于预先训练的隐私识别模型对目标数据中包含的用户隐私数据进行脱敏处理,得到脱敏后的目标数据。

在步骤D8中,将脱敏后的目标数据发送给服务器。

其中,服务器基于脱敏后的目标数据的具体处理过程可以参见上述实施例二中的相关内容,在此不再赘述。

本说明书实施例提供一种基于隐私保护的隐私数据处理方法,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

实施例五

以上为本说明书实施例提供的基于隐私保护的隐私数据处理方法,基于同样的思路,本说明书实施例还提供一种基于隐私保护的隐私数据处理装置,如图5所示。

该基于隐私保护的隐私数据处理装置包括:目标数据获取模块501、分布分析模块502、训练模块503和第一处理模块504,其中:

目标数据获取模块501,获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据;

分布分析模块502,对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息;

训练模块503,如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值;

第一处理模块504,基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。

本说明书实施例中,所述分布分析模块502,包括:

数据集合确定单元,基于预设的时间间隔,从所述脱敏后的目标数据中分别抽取预设数量的脱敏后的目标数据,得到两个时间点的数据集合;

识别分值获取单元,分别获取每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值;

分布特征确定单元,基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,确定每个时间点的数据集合对应的识别分值的分布特征;

分布分析单元,基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,将两个时间点的数据集合对应的数据分布差异信息确定为所述脱敏后的目标数据对应的数据分布差异信息。

本说明书实施例中,所述分布分析单元,基于预设的聚类算法分别对所述两个时间点的数据集合进行聚类,得到每个时间点的数据集合对应的聚类中心特征;将每个时间点的数据集合对应的识别分值的分布特征和所述每个时间点的数据集合对应的聚类中心特征输入到预先训练的分布分类模型中,得到两个时间点的数据集合对应的数据分布差异信息。

本说明书实施例中,所述聚类算法包括K-Means聚类算法。

本说明书实施例中,所述训练模块503,包括:

第一类别确定单元,基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,生成每个时间点的数据集合中包含的所述脱敏后的目标数据对应的类别;

第二类别确定单元,从所述两个时间点的数据集合中包含的所述脱敏后的目标数据中选取识别分值大于第一预设识别阈值的脱敏后的目标数据,并获取选取的脱敏后的目标数据对应的类别;

训练单元,基于选取的脱敏后的目标数据和选取的脱敏后的目标数据对应的类别,以及Margin-Softmax损失函数,对所述隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型。

本说明书实施例中,所述装置还包括:

第二处理模块,通过所述训练后的主动学习模型对两个时间点的数据集合中包含的所述脱敏后的目标数据进行脱敏处理,得到脱敏数据,并确定所述脱敏数据对应的用户隐私数据的识别分值;

类别确定模块,从所述脱敏数据中选取识别分值大于第二预设识别阈值的脱敏数据,并基于所述隐私识别模型分别对选取的脱敏数据进行用户隐私数据的识别处理,基于得到的识别结果确定选取的脱敏数据对应的类别;

模型调整模块,基于选取的脱敏数据、确定的选取的脱敏数据对应的类别和TripletLoss损失函数对所述主动学习模型进行调整,得到调整后的主动学习模型。

本说明书实施例中,所述主动学习模型由多个多层感知机构建。

本说明书实施例中,所述第一处理模块504,将更新后的隐私识别模型和所述训练后的主动学习模型发送给终端设备,以使所述终端设备基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理。

本说明书实施例中,所述第一处理模块504,将更新后的隐私识别模型发送给终端设备,以通过所述终端设备中的更新后的隐私识别模型和本地的所述训练后的主动学习模型进行用户隐私数据的识别处理。

本说明书实施例中,所述第一处理模块504,包括:

业务数据接收单元,接收所述终端设备发送的通过所述更新后的隐私识别模型对待处理的业务数据中包含的用户隐私数据进行脱敏处理而得到脱敏后的业务数据;

优化处理单元,将所述脱敏后的业务数据输入到所述训练后的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据;

数据发送单元,将所述优化脱敏业务数据发送给所述终端设备,以使所述终端设备基于所述优化脱敏业务数据,使用所述更新后的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果。

本说明书实施例中,所述目标数据获取模块501,接收终端设备发送的脱敏后的目标数据,所述脱敏后的目标数据为所述终端设备基于预先训练的隐私识别模型对所述目标数据中包含的所述用户隐私数据进行特征提取而得到的所述目标数据对应的特征。

本说明书实施例提供一种基于隐私保护的隐私数据处理装置,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

实施例六

基于同样的思路,本说明书实施例还提供一种基于隐私保护的隐私数据处理装置,如图6所示。

该基于隐私保护的隐私数据处理装置包括:业务数据获取模块601、第一脱敏模块602、优化处理模块603和识别模块604,其中:

业务数据获取模块601,获取包括用户隐私数据的业务数据;

第一脱敏模块602,对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据;

优化处理模块603,将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据;

识别模块604,基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果;

其中,所述主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例中,所述装置还包括:

目标数据获取模块,获取包括用户隐私数据的目标数据;

预处理模块,基于预先训练的隐私识别模型对所述目标数据进行预处理,得到预处理后的目标数据,所述预处理包括对所述目标数据进行用户隐私数据的检测、对所述目标数据进行用户隐私数据的校准处理中的一项或多项;

第二脱敏模块,基于预先训练的隐私识别模型对所述目标数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的目标数据;

数据发送模块,将所述脱敏后的目标数据发送给服务器。

本说明书实施例提供一种基于隐私保护的隐私数据处理装置,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

实施例七

基于同样的思路,本说明书实施例还提供一种基于隐私保护的隐私数据处理装置,如图7所示。

该基于隐私保护的隐私数据处理装置包括:业务数据获取模块701、脱敏模块702、数据发送模块703和识别模块704,其中:

业务数据获取模块701,获取包括用户隐私数据的业务数据;

脱敏模块702,对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据;

数据发送模块703,将所述脱敏后的业务数据发送给服务器,以使所述服务器将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据,所述主动学习模型是所述服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到;

识别模块704,接收所述服务器发送的所述优化脱敏业务数据,并基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例提供一种基于隐私保护的隐私数据处理装置,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

实施例八

以上为本说明书实施例提供的基于隐私保护的隐私数据处理装置,基于同样的思路,本说明书实施例还提供一种基于隐私保护的隐私数据处理设备,如图8所示。

所述基于隐私保护的隐私数据处理设备可以为上述实施例提供的终端设备或服务器等。

基于隐私保护的隐私数据处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对基于隐私保护的隐私数据处理设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在基于隐私保护的隐私数据处理设备上执行存储器802中的一系列计算机可执行指令。基于隐私保护的隐私数据处理设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806。

具体在本实施例中,基于隐私保护的隐私数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的隐私数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:

获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据;

对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息;

如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值;

基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。

本说明书实施例中,所述对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息,包括:

基于预设的时间间隔,从所述脱敏后的目标数据中分别抽取预设数量的脱敏后的目标数据,得到两个时间点的数据集合;

分别获取每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值;

基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,确定每个时间点的数据集合对应的识别分值的分布特征;

基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,将两个时间点的数据集合对应的数据分布差异信息确定为所述脱敏后的目标数据对应的数据分布差异信息。

本说明书实施例中,所述基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,包括:

基于预设的聚类算法分别对所述两个时间点的数据集合进行聚类,得到每个时间点的数据集合对应的聚类中心特征;

将每个时间点的数据集合对应的识别分值的分布特征和所述每个时间点的数据集合对应的聚类中心特征输入到预先训练的分布分类模型中,得到两个时间点的数据集合对应的数据分布差异信息。

本说明书实施例中,所述聚类算法包括K-Means聚类算法。

本说明书实施例中,所述基于所述脱敏后的目标数据对所述隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,包括:

基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,生成每个时间点的数据集合中包含的所述脱敏后的目标数据对应的类别;

从所述两个时间点的数据集合中包含的所述脱敏后的目标数据中选取识别分值大于第一预设识别阈值的脱敏后的目标数据,并获取选取的脱敏后的目标数据对应的类别;

基于选取的脱敏后的目标数据和选取的脱敏后的目标数据对应的类别,以及Margin-Softmax损失函数,对所述隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型。

本说明书实施例中,还包括:

通过所述训练后的主动学习模型对两个时间点的数据集合中包含的所述脱敏后的目标数据进行脱敏处理,得到脱敏数据,并确定所述脱敏数据对应的用户隐私数据的识别分值;

从所述脱敏数据中选取识别分值大于第二预设识别阈值的脱敏数据,并基于所述隐私识别模型分别对选取的脱敏数据进行用户隐私数据的识别处理,基于得到的识别结果确定选取的脱敏数据对应的类别;

基于选取的脱敏数据、确定的选取的脱敏数据对应的类别和TripletLoss损失函数对所述主动学习模型进行调整,得到调整后的主动学习模型。

本说明书实施例中,所述主动学习模型由多个多层感知机构建。

本说明书实施例中,所述基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,包括:

将更新后的隐私识别模型和所述训练后的主动学习模型发送给终端设备,以使所述终端设备基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理。

本说明书实施例中,所述基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,包括:

将更新后的隐私识别模型发送给终端设备,以通过所述终端设备中的更新后的隐私识别模型和本地的所述训练后的主动学习模型进行用户隐私数据的识别处理。

本说明书实施例中,所述基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,包括:

接收所述终端设备发送的通过所述更新后的隐私识别模型对待处理的业务数据中包含的用户隐私数据进行脱敏处理而得到脱敏后的业务数据;

将所述脱敏后的业务数据输入到所述训练后的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据;

将所述优化脱敏业务数据发送给所述终端设备,以使所述终端设备基于所述优化脱敏业务数据,使用所述更新后的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果。

本说明书实施例中,所述获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据,包括:

接收终端设备发送的脱敏后的目标数据,所述脱敏后的目标数据为所述终端设备基于预先训练的隐私识别模型对所述目标数据中包含的所述用户隐私数据进行特征提取而得到的所述目标数据对应的特征。

此外,具体在本实施例中,基于隐私保护的隐私数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的隐私数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:

获取包括用户隐私数据的业务数据;

对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据;

将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据;

基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果;

其中,所述主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例中,还包括:

获取包括用户隐私数据的目标数据;

基于预先训练的隐私识别模型对所述目标数据进行预处理,得到预处理后的目标数据,所述预处理包括对所述目标数据进行用户隐私数据的检测、对所述目标数据进行用户隐私数据的校准处理中的一项或多项;

基于预先训练的隐私识别模型对所述目标数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的目标数据;

将所述脱敏后的目标数据发送给服务器。

另外,具体在本实施例中,基于隐私保护的隐私数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的隐私数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:获取包括用户隐私数据的业务数据;

获取包括用户隐私数据的业务数据;

对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据;

将所述脱敏后的业务数据发送给服务器,以使所述服务器将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据,所述主动学习模型是所述服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到;

接收所述服务器发送的所述优化脱敏业务数据,并基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例提供一种基于隐私保护的隐私数据处理设备,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

实施例九

进一步地,基于上述图1A至图4B所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:

获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据;

对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息;

如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值;

基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。

本说明书实施例中,所述对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息,包括:

基于预设的时间间隔,从所述脱敏后的目标数据中分别抽取预设数量的脱敏后的目标数据,得到两个时间点的数据集合;

分别获取每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值;

基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,确定每个时间点的数据集合对应的识别分值的分布特征;

基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,将两个时间点的数据集合对应的数据分布差异信息确定为所述脱敏后的目标数据对应的数据分布差异信息。

本说明书实施例中,所述基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,包括:

基于预设的聚类算法分别对所述两个时间点的数据集合进行聚类,得到每个时间点的数据集合对应的聚类中心特征;

将每个时间点的数据集合对应的识别分值的分布特征和所述每个时间点的数据集合对应的聚类中心特征输入到预先训练的分布分类模型中,得到两个时间点的数据集合对应的数据分布差异信息。

本说明书实施例中,所述聚类算法包括K-Means聚类算法。

本说明书实施例中,所述基于所述脱敏后的目标数据对所述隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,包括:

基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,生成每个时间点的数据集合中包含的所述脱敏后的目标数据对应的类别;

从所述两个时间点的数据集合中包含的所述脱敏后的目标数据中选取识别分值大于第一预设识别阈值的脱敏后的目标数据,并获取选取的脱敏后的目标数据对应的类别;

基于选取的脱敏后的目标数据和选取的脱敏后的目标数据对应的类别,以及Margin-Softmax损失函数,对所述隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型。

本说明书实施例中,还包括:

通过所述训练后的主动学习模型对两个时间点的数据集合中包含的所述脱敏后的目标数据进行脱敏处理,得到脱敏数据,并确定所述脱敏数据对应的用户隐私数据的识别分值;

从所述脱敏数据中选取识别分值大于第二预设识别阈值的脱敏数据,并基于所述隐私识别模型分别对选取的脱敏数据进行用户隐私数据的识别处理,基于得到的识别结果确定选取的脱敏数据对应的类别;

基于选取的脱敏数据、确定的选取的脱敏数据对应的类别和TripletLoss损失函数对所述主动学习模型进行调整,得到调整后的主动学习模型。

本说明书实施例中,所述主动学习模型由多个多层感知机构建。

本说明书实施例中,所述基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,包括:

将更新后的隐私识别模型和所述训练后的主动学习模型发送给终端设备,以使所述终端设备基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理。

本说明书实施例中,所述基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,包括:

将更新后的隐私识别模型发送给终端设备,以通过所述终端设备中的更新后的隐私识别模型和本地的所述训练后的主动学习模型进行用户隐私数据的识别处理。

本说明书实施例中,所述基于更新后的隐私识别模型和所述训练后的主动学习模型进行用户隐私数据的识别处理,包括:

接收所述终端设备发送的通过所述更新后的隐私识别模型对待处理的业务数据中包含的用户隐私数据进行脱敏处理而得到脱敏后的业务数据;

将所述脱敏后的业务数据输入到所述训练后的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据;

将所述优化脱敏业务数据发送给所述终端设备,以使所述终端设备基于所述优化脱敏业务数据,使用所述更新后的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果。

本说明书实施例中,所述获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据,包括:

接收终端设备发送的脱敏后的目标数据,所述脱敏后的目标数据为所述终端设备基于预先训练的隐私识别模型对所述目标数据中包含的所述用户隐私数据进行特征提取而得到的所述目标数据对应的特征。

此外,另一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:

获取包括用户隐私数据的业务数据;

对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据;

将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据;

基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果;

其中,所述主动学习模型是服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例中,还包括:

获取包括用户隐私数据的目标数据;

基于预先训练的隐私识别模型对所述目标数据进行预处理,得到预处理后的目标数据,所述预处理包括对所述目标数据进行用户隐私数据的检测、对所述目标数据进行用户隐私数据的校准处理中的一项或多项;

基于预先训练的隐私识别模型对所述目标数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的目标数据;

将所述脱敏后的目标数据发送给服务器。

另,再一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:

获取包括用户隐私数据的业务数据;

对所述业务数据中包含的所述用户隐私数据进行脱敏处理,得到脱敏后的业务数据;

将所述脱敏后的业务数据发送给服务器,以使所述服务器将所述脱敏后的业务数据输入到预先训练的主动学习模型中,以对所述脱敏后的业务数据进行数据优化处理,得到被隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏业务数据,所述主动学习模型是所述服务器基于获取的包括用户隐私数据的目标数据对主动学习模型进行训练的得到;

接收所述服务器发送的所述优化脱敏业务数据,并基于所述优化脱敏业务数据,使用预先训练的隐私识别模型进行隐私数据的识别处理,得到所述脱敏后的业务数据对应的识别结果,所述隐私识别模型是基于训练后的主动学习模型对所述目标数据进行处理后得到的数据对隐私识别模型进行更新后得到。

本说明书实施例提供一种存储介质,通过对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息,如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,这样,采用不可逆隐私保护作为基础,在此基础上,通过主动学习模型,在数据分布发生变化的情况下,仍然可以进一步提升隐私识别模型的性能,从而兼顾了模型的性能和用户数据的强隐私性,实现了在不利用用户隐私数据训练的前提下,解决用户的隐私保护和生物识别系统模型性能提升的矛盾的技术方案,以此来提升生物识别系统的精度,提升生物识别系统的模型性能,此外,通过部署更新后的隐私识别模型和所述训练后的主动学习模型,以基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号