首页> 中国专利> 基于敏感度识别模型的数据敏感度识别方法及装置

基于敏感度识别模型的数据敏感度识别方法及装置

摘要

本申请提供了一种基于敏感度识别模型的数据敏感度识别方法、敏感度识别模型的训练方法、装置、设备及计算机可读存储介质;所述敏感度识别模型包括特征提取层和敏感度识别层,数据敏感度识别方法包括:获取待识别数据的元数据,所述元数据用于描述所述待识别数据;通过所述特征提取层,对所述待识别数据的元数据进行特征提取,得到所述元数据的数据特征;通过所述敏感度识别层,基于所述元数据的数据特征,对所述待识别数据进行敏感度识别,得到敏感度识别结果;其中,所述敏感度识别结果,用于指示所述待识别数据对应的数据敏感度。通过本申请,能够提高数据敏感度的识别效率。

著录项

  • 公开/公告号CN114840869A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN202110139667.X

  • 发明设计人 赵文;

    申请日2021-02-01

  • 分类号G06F21/62(2013.01);G06F16/22(2019.01);G06F40/126(2020.01);G06F40/289(2020.01);

  • 代理机构北京派特恩知识产权代理有限公司 11270;北京派特恩知识产权代理有限公司 11270;

  • 代理人李昂;张颖玲

  • 地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-12-09

    实质审查的生效 IPC(主分类):G06F21/62 专利申请号:202110139667X 申请日:20210201

    实质审查的生效

  • 2022-08-02

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及人工智能及互联网技术,尤其涉及一种基于敏感度识别模型的数据敏感度识别方法、敏感度识别模型的训练方法、装置、设备及计算机可读存储介质。

背景技术

在互联网企业的数据资产管理中,随着业务的发展和用户活跃度的提升,大量有价值的数据会沉淀在数据库表或文本中。数据敏感度作为元数据中的一部分,从泄露风险归类数据,便于开发人员使用和保密。然而,若一些有价值的数据缺少具体的数据敏感度或风险等级,并且没有被开发人员管理维护起来,那么这部分数据在使用时就有可能被泄露出去,这将对业务造成很大的影响。

相关技术中,通过人工方式识别数据敏感度,即由数据库管理员根据个人经验对待识别数据的数据敏感度进行识别和确定,但该方式费时费力,且出现漏查敏感数据的概率较高。

发明内容

本申请实施例提供一种基于敏感度识别模型的数据敏感度识别方法、敏感度识别模型的训练方法、装置、设备及计算机可读存储介质,能够提高数据敏感度的识别效率,并降低漏查敏感数据的概率。

本申请实施例的技术方案是这样实现的:

本申请实施例提供一种基于敏感度识别模型数据敏感度识别方法,所述敏感度识别模型包括特征提取层和敏感度识别层,包括:

获取待识别数据的元数据,所述元数据用于描述所述待识别数据;

通过所述特征提取层,对所述待识别数据的元数据进行特征提取,得到所述元数据的数据特征;

通过所述敏感度识别层,基于所述元数据的数据特征,对所述待识别数据进行敏感度识别,得到敏感度识别结果;

其中,所述敏感度识别结果,用于指示所述待识别数据对应的数据敏感度。

本申请实施例提供一种敏感度识别模型的训练方法,所述敏感度识别模型包括特征提取层和敏感度识别层,所述方法包括:

获取数据样本的元数据,所述数据样本携带有敏感度标签,所述敏感度标签用于指示所述数据样本对应的数据敏感度;

通过所述特征提取层,对所述数据样本的元数据进行特征提取,得到所述数据样本的元数据的样本数据特征;

通过所述敏感度识别层,基于所述样本数据特征,对所述数据样本进行敏感度识别,得到样本敏感度识别结果;

获取所述样本敏感度识别结果与所述数据样本携带的敏感度标签之间的差异,并基于所述差异,更新所述敏感度识别模型的模型参数;

其中,所述敏感度识别模型,用于在将待识别数据的元数据输入至敏感度识别模型后,输出指示所述待识别数据对应的数据敏感度的敏感度识别结果。

本申请实施例提供一种基于敏感度识别模型的数据敏感度识别装置,所述敏感度识别模型包括特征提取层和敏感度识别层,装置包括:

第一获取模块,用于获取待识别数据的元数据,所述元数据用于描述所述待识别数据;

第一提取模块,用于通过所述特征提取层,对所述待识别数据的元数据进行特征提取,得到所述元数据的数据特征;

第一识别模块,用于通过所述敏感度识别层,基于所述元数据的数据特征,对所述待识别数据进行敏感度识别,得到敏感度识别结果;

其中,所述敏感度识别结果,用于指示所述待识别数据对应的数据敏感度。

上述方案中,所述第一获取模块,还用于当所述待识别数据的存储形式为数据表时,从所述数据表中获取以下表元素至少之一:数据表名、数据表中对应所述待识别数据的表描述、数据表中对应所述待识别数据的属性字段;

将获取的表元素确定为所述待识别数据的元数据。

上述方案中,所述第一获取模块,还用于当所述待识别数据的存储形式为文档时,从所述文档中获取以下文档内容至少之一:文档标题、文档摘要、文档关键词;

将获取的文档内容确定为所述待识别数据的元数据。

上述方案中,所述第一提取模块,还用于对所述待识别数据的元数据进行分词处理,得到所述元数据对应的多个词语;

分别对各个所述词语进行特征编码,得到各个所述词语对应的词语特征;

对各个所述词语对应的词语特征进行特征拼接,得到所述元数据对应的数据特征。

上述方案中,所述第一提取模块,还用于分别对各个词语的词语特征进行双向编码处理,得到各所述词语对应的上文编码特征和下文编码特征;

分别对各所述词语的上文编码特征和下文编码特征进行特征拼接,得到相应的拼接编码特征;

将各所述词语对应的拼接编码特征进行特征拼接,得到所述元数据对应的数据特征。

上述方案中,所述第一识别模块,还用于通过所述敏感度识别层,对所述元数据的数据特征进行对应至少两个敏感等级的分类预测,得到所述元数据对应各所述敏感等级的概率;

选取概率最大的敏感等级,作为对所述待识别数据的敏感度识别结果。

上述方案中,所述第一提取模块,还用于当所述元数据包括至少两个关键词时,通过所述特征提取层,分别对各所述关键词进行特征提取,得到各所述关键词对应的特征作为所述元数据的数据特征;

相应的,所述第一提取模块,还用于通过所述敏感度识别层,分别将各所述关键词对应的特征与至少两个敏感词对应的特征进行匹配,得到相应的匹配度;

选取匹配度最高的敏感词对应的数据敏感度,作为对所述待识别数据的敏感度识别结果。

上述方案中,所述装置还包括:

处理模块,用于建立所述敏感度识别结果与所述待识别数据的关联关系,并存储所述关联关系;

其中,所述关联关系,用于供基于所述待识别数据查找对应所述待识别数据的数据敏感度。

上述方案中,所述处理模块,还用于将所述敏感度识别结果存储至所述待识别数据关联的目标区域,所述目标区域为所述元数据对应的存储区域中对应数据敏感度的区域。

上述方案中,所述装置还包括:

返回模块,用于响应于针对所述待识别数据的数据展示请求,获取所述待识别数据对应的数据敏感度;

当所述待识别数据对应的数据敏感度达到敏感度阈值时,返回对应所述待识别数据的屏蔽指示信息;

所述屏蔽指示信息,用于指示对所述待识别数据进行屏蔽展示。

上述方案中,所述装置还包括:

输出模块,用于当所述敏感度识别结果表征所述待识别数据的数据敏感度达到目标数据敏感度时,输出对应所述待识别数据的加密提示信息;

其中,所述加密提示信息,用于提示对所述待识别数据进行加密处理。

本申请实施例提供一种敏感度识别模型的训练装置,所述敏感度识别模型包括特征提取层和敏感度识别层,所述装置包括:

第二获取模块,用于获取数据样本的元数据,所述数据样本携带有敏感度标签,所述敏感度标签用于指示所述数据样本对应的数据敏感度;

第二提取模块,用于通过所述特征提取层,对所述数据样本的元数据进行特征提取,得到所述数据样本的元数据的样本数据特征;

第二识别模块,用于通过所述敏感度识别层,基于所述样本数据特征,对所述数据样本进行敏感度识别,得到样本敏感度识别结果;

更新模块,用于获取所述样本敏感度识别结果与所述数据样本携带的敏感度标签之间的差异,并基于所述差异,更新所述敏感度识别模型的模型参数;

其中,所述敏感度识别模型,用于在将待识别数据的元数据输入至敏感度识别模型后,输出指示所述待识别数据对应的数据敏感度的敏感度识别结果。

本申请实施例提供一种电子设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法。

本申请实施例提供一种电子设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的敏感度识别模型的训练方法。

本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法。

本申请实施例还提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的敏感度识别模型的训练方法。

本申请实施例具有以下有益效果:

服务器通过敏感度识别模型对待识别数据的元数据进行敏感度识别,具体地获取用于描述待识别数据的元数据,通过敏感度识别模型的特征提取层,对待识别数据的元数据进行特征提取,得到元数据的数据特征;通过敏感度识别模型的敏感度识别层,基于元数据的数据特征,对待识别数据进行敏感度识别,得到敏感度识别结果;如此,将待识别的元数据输入至敏感度识别模型中,即可自动识别得到用于指示待识别数据对应的数据敏感度的敏感度识别结果,相较于人工识别的方式而言,能够大大提高数据敏感度的识别效率,且降低漏查敏感数据的概率。

附图说明

图1为本申请实施例提供的基于敏感度识别模型的数据敏感度识别系统100的一个可选的架构示意图;

图2为本申请实施例提供的电子设备500的一个可选的结构示意图;

图3为本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法的流程示意图;

图4为本申请实施例提供的敏感度识别模型的结构示意图;

图5为本申请实施例提供的敏感度识别模型的结构示意图;

图6为本申请实施例提供的敏感度识别模型的结构示意图;

图7为本申请实施例提供的敏感度识别模型的训练方法的流程示意图;

图8为本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法的流程示意图;

图9为本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法的流程示意图;

图10为本申请实施例提供的敏感度识别模型的结构示意图;

图11为本申请实施例提供的基于敏感度识别模型的数据敏感度识别装置的结构示意图;

图12为本申请实施例提供的敏感度识别模型的训练装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。

1)元数据,为描述数据的数据,或者为用于提供某种资源(即待识别数据)的有关信息的结构数据,主要用于描述待识别数据的数据属性信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能;元数据可称为一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。

2)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。

基于上述对本申请实施例中涉及的名词和术语的解释,接下来对本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法进行说明,参见图1,图1为本申请实施例提供的基于敏感度识别模型的数据敏感度识别系统100的一个可选的架构示意图,为实现支撑一个示例性应用,终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。

在实际应用中,终端上设置有客户端,如微博、知乎、企业应用等,用于提供与业务相关的待识别数据,或者与用户行为相关的待识别数据,并将待识别数据发送至服务器200,服务器200既可以为单独配置的支持各种业务的一个服务器,亦可以配置为一个服务器集群,还可以为云服务器等,如可为客户端的后台服务器,也可以为信息流平台。

在实际实施时,服务器200,用于获取待识别数据的元数据,其中,元数据用于描述待识别数据;通过敏感度识别模型的特征提取层,对待识别数据的元数据进行特征提取,得到元数据的数据特征;通过敏感度识别模型的敏感度识别层,基于元数据的数据特征,对待识别数据进行敏感度识别,得到敏感度识别结果;其中,敏感度识别结果用于指示待识别数据对应的数据敏感度。

接下来对实施本申请实施例的基于敏感度识别模型的数据敏感度识别方法的电子设备进行说明。参见图2,图2为本申请实施例提供的电子设备500的一个可选的结构示意图,在实际应用中,电子设备500可以为图1中的终端(如终端400-1和终端400-2)或服务器200,以电子设备为图1所示的服务器200为例,图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;

呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);

输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中,本申请实施例提供的基于敏感度识别模型的数据敏感度识别装置可以采用软件方式实现,图2示出了存储在存储器550中的基于敏感度识别模型的数据敏感度识别装置555,其可以是程序和插件等形式的软件,包括以下软件模块:第一获取模块5551、第一提取模块5552和第一识别模块5553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。

在另一些实施例中,本申请实施例提供的基于敏感度识别模型的数据敏感度识别装置可以采用硬件方式实现,作为示例,本申请实施例提供的基于敏感度识别模型的数据敏感度识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(P LD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex P rogrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。

基于上述对本申请实施例的基于敏感度识别模型的数据敏感度识别系统及电子设备的说明,接下来对本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法进行说明,在一些实施例中,该方法可由终端或服务器单独实施,如通过图1中的终端400-1、终端400-2或服务器200单独实施,还可由服务器及终端协同实施,如通过图1中的终端400-1和服务器200协同实施,接下来结合图1及图3,图3为本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法的流程示意图,以图1中的服务器200实施本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法为例进行说明。

步骤101:服务器获取待识别数据的元数据,其中,元数据用于描述待识别数据。

在实际应用中,待识别数据可为企业业务相关的数据,还可为个人用户相关的数据,可为从数据库中获取的数据,还可为实时获取的数据,待识别数据的存储形式可为数据表、还可为文字或日志等文本形式。元数据主要用于对待识别数据进行属性描述,例如,若待识别数据为如购物业务相关的数据时,元数据可为购物账号、订单编号、姓名、手机号、收货地址等数据;若待识别数据为个人用户相关的数据,元数据可为姓名、身份证号、手机号、电子邮箱、银行卡号、家庭地址、工作单位等数据。

在一些实施例中,服务器可通过如下方式获取待识别数据的元数据:当待识别数据的存储形式为数据表时,从数据表中获取以下表元素至少之一:数据表名、数据表中对应待识别数据的表描述、数据表中对应待识别数据的属性字段;将获取的表元素确定为待识别数据的元数据。

这里,在实际应用中,若待识别数据的存储形式为数据表时,将数据表中的数据表名、表描述或属性字段作为待识别数据的元数据。例如,将待识别数据对应的数据表中的数据表名、表中文名、表负责人、字段名或字段类型等属性字段作为元数据。

在一些实施例中,服务器还可通过如下方式获取待识别数据的元数据:当待识别数据的存储形式为文档时,从文档中获取以下文档内容至少之一:文档标题、文档摘要、文档关键词;将获取的文档内容确定为待识别数据的元数据。

这里,文档可为word文档或记事本(如txt)文档,当待识别数据的存储形式为文档时,将待识别数据的文档标题、文档摘要、文档关键词作为元数据。当待识别数据包括文档标题和文档正文时,除了可将文档标题作为元数据外,还可从文档正文中提取关键的摘要内容(即文档摘要)作为元数据,这是由于在实际上,待识别数据的文档正文可能比较冗长,如果对所有的文档正文都进行识别,势必带来很大的计算压力,导致识别效率低下;而通常情况下,待识别数据的核心主题可以用其中的某一句或几句话来概括,因此,为了在有效提取待识别数据的核心主题的同时提高识别效率,可从文档正文中提取用于表征待识别数据的核心主题的摘要内容作为待识别数据的元数据。

在一些实施例中,可通过对文档正文进行关键词提取,得到对应的文档关键词,并可通过如下方式获取待识别数据的文档摘要:对待识别数据的文档正文进行句提取,得到对应待识别数据的多个目标句;根据各目标句中多个关键词的词权重,确定对应目标句的句权重;基于各句权重,对目标句进行降序排序,得到对应的句序列;从句序列中第一个目标句开始,选取目标数量的目标句,并将目标数量的目标句,作为对应待识别数据的文档摘要。

其中,服务器可分别对各目标句执行以下操作,以实现根据各目标句中多个关键词的词权重,确定对应目标句的句权重:对目标句进行关键词提取,得到对应的多个关键词;分别获取各关键词在文档正文中对应的词频、及各关键词的逆向文件频率;基于词频及逆向文件频率,确定对应的关键词的词权重;将各关键词的词权重进行求和处理,得到对应目标句的句权重。

这里,词频表征该关键词在待识别数据中出现的频次与待识别数据中的总词数的比值,逆向文件频率表征该关键词的稀有程度,以待识别数据归属的数据集中的数据总数与待识别数据归属的数据集中包含各关键词对应的数据的数量比值的对数来表示。此外,除了考虑关键词的词频,还综合考虑关键词的稀有程度,在实际实施时,一个关键词的重要程度不仅正比于它在待识别数据中的频次,还反比于待识别数据所归属的数据集中有多少数据包含它,通常而言,包含该关键语的数据越多,就说明它越宽泛,越不能体现数据的特色。最后,将目标句中的关键词的词权重的总和确定为该目标句的句权重,如此,得到了每个目标句的句权重,句权重越大,表征对应的目标句越能代表待识别数据的核心主题。

通过上述方式,基于获取的待识别数据的元数据进行后续的数据敏感度识别,由于元数据不仅能够表征待识别数据的属性特征,而且数据量相对应待识别而言大大降低,因此,不仅能够保证识别的精准度,还能提高识别的效率。

步骤102:通过特征提取层,对待识别数据的元数据进行特征提取,得到元数据的数据特征。

在一些实施例中,参见图4,图4为本申请实施例提供的敏感度识别模型的结构示意图,如图4所示,敏感度识别模型包括特征提取层和敏感度识别层,将待识别数据的元数据输入值敏感度识别模型中,通过特征提取层,对元数据进行特征提取,得到对应的数据特征,通过敏感度识别层,对数据特征进行行敏感度识别,得到敏感度识别结果。

在一些实施例中,参见图5,图5为本申请实施例提供的敏感度识别模型的结构示意图,如图5所示,服务器可通过如下方式对待识别数据的元数据进行特征提取,得到元数据的数据特征:

对待识别数据的元数据进行分词处理,得到元数据对应的多个词语;分别对各个词语进行特征编码,得到各个词语对应的词语特征;对各个词语对应的词语特征进行特征拼接,得到元数据对应的数据特征。

这里,在实际实施时,对待识别数据的元数据,如数据表名或表描述,进行分词处理,得到元数据对应的多个词语或多个字。在实际应用中,为了便于检索到相应的词语或字,还可为每个词语或字设置唯一的索引值,即基于每个词语或字的索引值获取相应的词语或字,然后对每个词语或字进行特征编码,如词向量转换,得到对应的词语特征,即词向量;然后对各个词语或字对应的词语特征进行特征拼接,得到对应的数据特征,即句向量。

在一些实施例中,服务器可通过如下方式对各个词语对应的词语特征进行特征拼接,得到元数据对应的数据特征:

分别对各个词语的词语特征进行双向编码处理,得到各词语对应的上文编码特征和下文编码特征;分别对各词语的上文编码特征和下文编码特征进行特征拼接,得到相应的拼接编码特征;将各词语对应的拼接编码特征进行特征拼接,得到元数据对应的数据特征。

这里,考虑词语上下文特征,在得到每个词语的词向量后,将每个词语的词向量输入至双向编码层,如双向长短期记忆网络(Bi-LSTM,Bi-directional Long Short-TermMemory)层,其中,Bi-LSTM层包括两个LSTM:一个为正向输入序列和一个反向输入序列,通过前向过程(如从左向右)提取得到各个词语对应的上文编码特征,通过后向过程(如从右向左)提取得到各个词语对应的下文编码特征向量,最后将上文编码特征和下文编码特征进行拼接得到的对应词语的拼接编码特征。

步骤103:通过敏感度识别层,基于元数据的数据特征,对待识别数据进行敏感度识别,得到敏感度识别结果。

在一些实施例中,服务器可通过如下方式通过敏感度识别层,基于元数据的数据特征,对待识别数据进行敏感度识别,得到敏感度识别结果:

通过敏感度识别层,对元数据的数据特征进行对应至少两个敏感等级的分类预测,得到元数据对应各敏感等级的概率;选取概率最大的敏感等级,作为对待识别数据的敏感度识别结果。

其中,敏感度识别结果,用于指示待识别数据对应的数据敏感度,数据敏感度的表现形式有多种,如可用敏感等级或敏感度值等来表征,当以敏感度值来表征待识别数据的数据敏感度时,敏感度值越大,表征待识别数据越敏感;当以敏感等级来表征待识别数据的数据敏感度时,对数据敏感度自定义的敏感等级依次为:对外公开、内部公开、一般敏感、特别敏感、高度机密,并依次对应于1~5五个自然数字,可以参照行业标准,以及国家立法部门在数据安全方面的相关法规,定义企业自己的数据敏感等级标准。

需要说明的是,敏感等级数目的确定,既要有利于数据敏感度的合理区分,也要考虑基于不同敏感等级实施安全管控措施的可行性,一般4~5级是比较合理的,当选取5级时,从高到低分别为:5(高度机密)、4(特别敏感)、3(一般敏感)、2(内部公开)和1(对外公开);这里敏感等级的定义,对于数据表而言,要精确到字段的敏感等级。比如,作为字段中的身份证号、手机号级为5级,姓名、电子邮箱、收货地址等为4级。另外,还可仅采用自定义的敏感等级来表征待识别数据的数据敏感度,如敏感等级可分为五种:绝密、机密、高敏感、中敏感和低敏感。

这里,假设待识别数据对应的敏感等级为以下五种:绝密、机密、高敏感、中敏感和低敏感,若通过敏感度识别层,对元数据的数据特征进行分类预测,得到对应以上敏感等级的概率依次为:绝密(90%)、机密(40%)、高敏感(30%)、中敏感(15%)和低敏感(10%),那么可知,从中选择概率最大(90%)的敏感等级为绝密,将绝密作为该待识别数据的敏感度识别结果。

在一些实施例中,参见图6,图6为本申请实施例提供的敏感度识别模型的结构示意图,如图6所示,服务器还可通过如下方式通过特征提取层,对待识别数据的元数据进行特征提取,得到元数据的数据特征,包括:当元数据包括至少两个关键词时,通过特征提取层,分别对各关键词进行特征提取,得到各关键词对应的特征作为元数据的数据特征;相应的,服务器可通过如下方式通过敏感度识别层,基于元数据的数据特征,对待识别数据进行敏感度识别,得到敏感度识别结果:通过敏感度识别层,分别将各关键词对应的特征与至少两个敏感词对应的特征进行匹配,得到相应的匹配度;选取匹配度最高的敏感词对应的数据敏感度,作为对待识别数据的敏感度识别结果。

这里,服务器预存有敏感词与对应的数据敏感度之间的对应关系,如敏感词1对应的数据敏感度为绝密、敏感词2对应的数据敏感度为机密、敏感词3对应的数据敏感度为高敏感、敏感词4对应的数据敏感度为低敏感、敏感词5对应的数据敏感度为低敏感,假设待识别数据的元数据对应的关键词包括:关键词1和关键词2,则通过特征提取层,分别对关键词1和关键词2进行特征提取,得到关键词1对应的特征和关键词2对应的特征;通过敏感度识别层,分别将关键词1的特征与上述敏感词(如敏感词1~敏感词5)的特征进行匹配,得到相应的匹配度依次为:10%、20%、30%、40%、80%,分别将关键词2的特征与上述敏感词(如敏感词1~敏感词5)的特征进行匹配,得到相应的匹配度依次为:20%、10%、30%、40%、60%,则从中选择匹配度最高为80%的敏感词5对应的低敏感,作为待识别数据的敏感度识别结果。

在一些实施例中,在得到敏感度识别结果之后,服务器还可建立敏感度识别结果与待识别数据的关联关系,并存储关联关系;其中,关联关系用于供基于待识别数据查找对应待识别数据的数据敏感度。

在一些实施例中,服务器可通过如下方式建立敏感度识别结果与待识别数据的关联关系:

将所述敏感度识别结果存储至所述待识别数据关联的目标区域,所述目标区域为所述元数据对应的存储区域中对应数据敏感度的区域。

这里,在服务器确定待识别数据的数据敏感度之后,还可将该数据敏感度添加到待识别数据关联的用于指示数据敏感度的区域中,如在数据标中“敏感等级”一栏补齐该待识别数据的数据敏感度,将数据敏感度作为元数据的一部分,供用户使用与维护。

在一些实施例中,在得到敏感度识别结果之后,服务器还可响应于针对待识别数据的数据展示请求,获取待识别数据对应的数据敏感度;当待识别数据对应的数据敏感度达到敏感度阈值时,返回对应待识别数据的屏蔽指示信息;其中,所述屏蔽指示信息,用于指示对待识别数据进行屏蔽展示。

这里,当待识别数据的数据敏感度达到敏感度阈值时,表征该待识别数据比较敏感,如为机密或绝密数据,此时,服务器返回对应待识别数据的屏蔽指示信息至终端,以使用户在终端对该待识别数据进行安全维护,如对机密或绝密数据进行屏蔽,避免被泄露;此外,还可选择性展示待识别数据中的部分数据,如表中某些敏感信息例如用户的身份证号,不想展示给其他人看,可用视图屏蔽掉这个字段。

在一些实施例中,在得到敏感度识别结果之后,当所述敏感度识别结果表征所述待识别数据的数据敏感度达到目标数据敏感度时,服务器还可输出对应待识别数据的加密提示信息;其中,加密提示信息,用于提示对待识别数据进行加密处理。

通过上述方式,当待识别数据的数据敏感度达到一定程度时,提示用户在维护或使用对该待识别数据时,对该待识别数据进行加密避免泄露,例如,需将待识别数据从一个数据库转移到另一个数据库时,应用本申请实施例所提供的方法自动识别出待识别数据的数据敏感度,并进一步对满足一定敏感度的待识别数据进行加密处理或者模糊化处理等,以使该需转移的待识别数据的安全性进一步提高。

接下来对敏感度识别模型的训练进行说明。参见图7,图7为本申请实施例提供的敏感度识别模型的训练方法的流程示意图,在一些实施例中,敏感度识别模型包括特征提取层和敏感度识别层,方法包括:

步骤201:服务器获取数据样本的元数据,其中,数据样本携带有敏感度标签,敏感度标签用于指示数据样本对应的数据敏感度。

步骤202:通过特征提取层,对数据样本的元数据进行特征提取,得到数据样本的元数据的样本数据特征。

步骤203:通过敏感度识别层,基于样本数据特征,对数据样本进行敏感度识别,得到样本敏感度识别结果。

步骤204:获取样本敏感度识别结果与数据样本携带的敏感度标签之间的差异,并基于获取的差异,更新敏感度识别模型的模型参数。

在实际实施时,可根据样本敏感度识别结果与数据样本携带的敏感度标签之间的差异,确定敏感度识别模型的损失函数的值;当损失函数的值达到预设阈值时,基于敏感度识别模型的损失函数的值确定相应的误差信号;将误差信号在敏感度识别模型中反向传播,并在传播的过程中更新敏感度识别模型的各个层的模型参数。

这里,对反向传播进行说明,将训练的数据样本输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。

通过上述方式,服务器将待识别的元数据输入至敏感度识别模型中,即可自动识别得到用于指示待识别数据对应的数据敏感度的敏感度识别结果,相较于人工识别的方式而言,能够大大提高数据敏感度的识别效率,且降低漏查敏感数据的概率。

接下来继续对本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法进行说明,在一些实施例中,结合图1及图8,图8为本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法的流程示意图,以图1中的终端与服务器200协同实施本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法为例进行说明,本申请实施例提供的敏感度识别模型包括特征提取层和敏感度识别层,方法包括:

步骤301:服务器获取数据样本的元数据,其中,数据样本携带有敏感度标签,敏感度标签用于指示数据样本对应的数据敏感度。

步骤302:服务器通过特征提取层,对数据样本的元数据进行特征提取,得到数据样本的元数据的样本数据特征。

步骤303:服务器通过敏感度识别层,基于样本数据特征,对数据样本进行敏感度识别,得到样本敏感度识别结果。

步骤304:服务器获取样本敏感度识别结果与数据样本携带的敏感度标签之间的差异,并基于获取的差异,更新敏感度识别模型的模型参数。

通过上述方式,训练得到敏感度识别模型。

步骤305:终端将用户的待识别数据传输至服务器。

步骤306:若待识别数据的存储形式为数据表时,服务器获取数据表中的数据表名、表描述或属性字段作为元数据。

步骤307:服务器通过特征提取层,对待识别数据的元数据进行特征提取,得到元数据的数据特征。

步骤308:服务器通过敏感度识别层,基于元数据的数据特征,对待识别数据进行敏感度识别,得到敏感度识别结果。

步骤309:服务器将敏感度识别结果存储至待识别数据关联的目标区域。

其中,目标区域为待识别数据的元数据对应的存储区域中对应数据敏感度的区域。

通过上述方式,通过训练好的敏感度识别模型对待识别数据的数据敏感度进行识别,并将相应的敏感度识别结果存储在待识别数据关联的目标区域上,使得待识别数据的数据敏感度成为元数据的一部分,大大提高数据敏感度的识别效率,且避免对待识别数据的数据敏感度的漏查。

下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法,主要在于利用机器学习对待识别数据的数据敏感度进行识别,参见图9,图9为本申请实施例提供的基于敏感度识别模型的数据敏感度识别方法的流程示意图,如图9所示,本申请实施例提供的数据敏感度的识别包括:敏感度识别模型的训练(即训练阶段)和基于训练好的敏感度识别模型对待识别数据进行数据敏感度的识别(即识别阶段),接下来将逐一进行说明。

在训练阶段,获取数据样本的元数据,其中,数据样本携带有敏感度标签,敏感度标签用于指示数据样本对应的数据敏感度。也即,输入至敏感度识别模型的数据样本的元数据包括:数据表名、数据表中对应数据样本的表描述和该数据表(即数据样本)所属的数据敏感度(即敏感度标签),其中,数据敏感度可用敏感等级来表征,敏感等级分为五种:绝密,机密,高敏感,中敏感,低敏感。

通常而言,与用户账号安全相关的数据的敏感等级为绝密,用户个人信息及金融相关的数据的敏感等级为机密,用户的行为数据的敏感等级为高敏感,敏感等级为机密的数据的大粒度上卷的数据的敏感等级为中敏感,普通的统计数据的敏感等级为低敏感。

在训练时,将数据样本的数据表名和表描述作为样本点,将敏感等级作为敏感度标签,通过优化训练敏感度识别模型,学习数据表名和表描述与敏感等级之间的关系,训练完成后,将敏感度识别模型的模型参数保存下来。

在识别阶段,在识别过程中,先加载训练阶段保存下来的敏感度识别模型的模型参数,然后,将待识别数据的元数据,即待识别数据的数据表名和表描述,输入至训练好的敏感度识别模型中,对待识别数据进行数据敏感度的识别,得到用于指示待识别数据对应的数据敏感度的敏感等级。

接着将对敏感度识别模型的结构进行说明,参见图10,图10为本申请实施例提供的敏感度识别模型的结构示意图,如图10所示,敏感度识别模型包括输入层、特征提取层、敏感度识别层,其中,特征提取层包括:嵌入层、双向编码层、池化层,接下来以对待识别数据进行数据敏感度的识别这一应用为例,对敏感度识别模型进行说明。

1、输入层

在输入层中,首先对待识别数据的元数据,如数据表名或表描述,进行分词处理,得到元数据对应的多个词语或多个字,然后为每个词语或字设置唯一的索引值,如输入的第i个词为w

2、特征提取层

1)嵌入层

这里,在嵌入层,首先基于每个词语或字的索引值获取相应的词语或字,然后对每个词语或字进行词向量转换(即特征编码),得到对应的词向量(即词语特征)。

假设嵌入层的矩阵为E∈R

O

2)双向编码层

在得到每个词语的词向量后,将每个词语的词向量输入至双向编码层,如双向长短期记忆网络(Bi-LSTM,Bi-directional Long Short-Term Memory)层,其中,Bi-LSTM层包括两个LSTM:一个为正向输入序列和一个反向输入序列,能够同时考虑上下文特征,起到充分融合理解上下文语义的作用。

在实际实施时,可分别对各个词语的词向量进行双向编码处理,得到各词语对应的上文编码特征和下文编码特征;分别对各词语的上文编码特征和下文编码特征进行特征拼接,得到相应的拼接编码特征。具体表达式为:

其中,l表示从左到右,r表示从右到左,

3)池化层

通过上述双向编码层得到每个词语对应的拼接编码特征,通过池化层,将每个词语对应的拼接编码特征进行特征拼接,得到对应的句向量(即元数据的数据特征)。具体表达式为:

其中,z表征待识别数据的元数据对应的句向量,C

3、敏感度识别层

这里,敏感度识别层又称为多层感知机(MLP,MultiLayer Perceptron)层,多层感知机由多层全连接神经网络组成,待识别数据的元数据对应的数据特征经过敏感度识别层,输出待识别数据对应每个敏感等级的概率,以3层全连接神经网络为例,输书属于每个敏感等级的概率可参考以下表达式:

a

其中,f为非线性激励函数,z为上述池化层得到的待识别数据的元数据对应的句向量,W

然后,从中选择概率最大的敏感等级作为待识别数据对应的敏感等级,输出最终确定的敏感等级,并将输出的敏感等级补充到待识别数据的元数据中。

需要说明的是,上述敏感度识别模型的结构可根据实际情况进行设置,如可将待识别数据的元数据输入至输入层,通过输入层,将待识别数据的元数据传送至特征提取层,以在特征提取层执行对元数据的分词或索引操作,等等,本申请并不对敏感度识别的结构进行具体限定。

敏感度识别模型的结构布局好后,可以使用随机梯度下降的方法训练该敏感度识别模型,使得模型参数最优或者局部最优。例如,将获取数据样本的元数据通过输入层,传输至特征提取层,通过特征提取层,对数据样本的元数据进行特征提取,得到数据样本的元数据的样本数据特征;通过敏感度识别层,基于样本数据特征,对数据样本进行敏感度识别,得到样本敏感度识别结果;获取样本敏感度识别结果与数据样本携带的敏感度标签之间的差异,并基于获取的差异,更新敏感度识别模型的模型参数。

另外,本申请实施例提供的敏感度识别模型还可基于传统的机器学习方法进行训练,如快速文本分类器(FastText);或者深度学习的方式,如基于变形的双向编码器表征(BERT,Bidirectional Encoder Representations from Transf ormers)通用模型、TextCNN模型、中文预训练RoBERTa模型、中文训练EL ECTRA模型等。本申请实施例提供的全连接神经网络还可采用注意力网络、循环神经网络与卷积神经网络等。

通过上述方式,将待识别的元数据输入至敏感度识别模型中,利用机器学习的方式自动识别得到相应的敏感等级,并将识别到的敏感等级补充到待识别数据的元数据中,相较于人工识别的方式而言,能够大大提高数据敏感度的识别效率,且降低漏查敏感数据的概率。

下面继续说明本申请实施例提供的基于敏感度识别模型的数据敏感度识别装置555的实施为软件模块的示例性结构,在一些实施例中,如图11所示,图11为本申请实施例提供的基于敏感度识别模型的数据敏感度识别装置的结构示意图,其中,敏感度识别模型包括特征提取层和敏感度识别层,装置包括:

第一获取模块5551,用于获取待识别数据的元数据,所述元数据用于描述所述待识别数据;

第一提取模块5552,用于通过所述特征提取层,对所述待识别数据的元数据进行特征提取,得到所述元数据的数据特征;

第一识别模块5553,用于通过所述敏感度识别层,基于所述元数据的数据特征,对所述待识别数据进行敏感度识别,得到敏感度识别结果;

其中,所述敏感度识别结果,用于指示所述待识别数据对应的数据敏感度。

在一些实施例中,所述第一获取模块,还用于当所述待识别数据的存储形式为数据表时,从所述数据表中获取以下表元素至少之一:数据表名、数据表中对应所述待识别数据的表描述、数据表中对应所述待识别数据的属性字段;

将获取的表元素确定为所述待识别数据的元数据。

在一些实施例中,所述第一获取模块,还用于当所述待识别数据的存储形式为文档时,从所述文档中获取以下文档内容至少之一:文档标题、文档摘要、文档关键词;

将获取的文档内容确定为所述待识别数据的元数据。

在一些实施例中,所述第一提取模块,还用于对所述待识别数据的元数据进行分词处理,得到所述元数据对应的多个词语;

分别对各个所述词语进行特征编码,得到各个所述词语对应的词语特征;

对各个所述词语对应的词语特征进行特征拼接,得到所述元数据对应的数据特征。

在一些实施例中,所述第一提取模块,还用于分别对各个词语的词语特征进行双向编码处理,得到各所述词语对应的上文编码特征和下文编码特征;

分别对各所述词语的上文编码特征和下文编码特征进行特征拼接,得到相应的拼接编码特征;

将各所述词语对应的拼接编码特征进行特征拼接,得到所述元数据对应的数据特征。

在一些实施例中,所述第一识别模块,还用于通过所述敏感度识别层,对所述元数据的数据特征进行对应至少两个敏感等级的分类预测,得到所述元数据对应各所述敏感等级的概率;

选取概率最大的敏感等级,作为对所述待识别数据的敏感度识别结果。

在一些实施例中,所述第一提取模块,还用于当所述元数据包括至少两个关键词时,通过所述特征提取层,分别对各所述关键词进行特征提取,得到各所述关键词对应的特征作为所述元数据的数据特征;

相应的,所述第一提取模块,还用于通过所述敏感度识别层,分别将各所述关键词对应的特征与至少两个敏感词对应的特征进行匹配,得到相应的匹配度;

选取匹配度最高的敏感词对应的数据敏感度,作为对所述待识别数据的敏感度识别结果。

在一些实施例中,所述装置还包括:

处理模块,用于建立所述敏感度识别结果与所述待识别数据的关联关系,并存储所述关联关系;

其中,所述关联关系,用于供基于所述待识别数据查找对应所述待识别数据的数据敏感度。

在一些实施例中,所述处理模块,还用于将所述敏感度识别结果存储至所述待识别数据关联的目标区域,所述目标区域为所述元数据对应的存储区域中对应数据敏感度的区域。

在一些实施例中,所述装置还包括:

返回模块,用于响应于针对所述待识别数据的数据展示请求,获取所述待识别数据对应的数据敏感度;

当所述待识别数据对应的数据敏感度达到敏感度阈值时,返回对应所述待识别数据的屏蔽指示信息;

所述屏蔽指示信息,用于指示对所述待识别数据进行屏蔽展示。

在一些实施例中,所述装置还包括:

输出模块,用于当所述敏感度识别结果表征所述待识别数据的数据敏感度达到目标数据敏感度时,输出对应所述待识别数据的加密提示信息;

其中,所述加密提示信息,用于提示对所述待识别数据进行加密处理。

接下来继续对本申请实施例提供的敏感度识别模型的训练装置进行说明,参见图12,图12为本申请实施例提供的敏感度识别模型的训练装置的结构示意图,敏感度识别模型包括特征提取层和敏感度识别层,所述敏感度识别模型的训练装置120包括:

第二获取模块121,用于获取数据样本的元数据,所述数据样本携带有敏感度标签,所述敏感度标签用于指示所述数据样本对应的数据敏感度;

第二提取模块122,用于通过所述特征提取层,对所述数据样本的元数据进行特征提取,得到所述数据样本的元数据的样本数据特征;

第二识别模块123,用于通过所述敏感度识别层,基于所述样本数据特征,对所述数据样本进行敏感度识别,得到样本敏感度识别结果;

更新模块124,用于获取所述样本敏感度识别结果与所述数据样本携带的敏感度标签之间的差异,并基于所述差异,更新所述敏感度识别模型的模型参数。

本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法。

在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号