首页> 中国专利> 隐私数据挖掘方法及系统

隐私数据挖掘方法及系统

摘要

本发明提供了一种隐私数据挖掘方法及系统,涉及大数据挖掘领域,可应用于金融领域和其他领域,所述方法包含:获取查询请求,根据所述查询请求解析获得用户信息和DP算法类型;根据所述DP算法类型调取预存的对应DP算法,根据所述DP算法于预设数据库中调取对应的系统参数和业务参数;根据所述系统参数连接对应的数据库,通过所述业务参数和所述用户信息获得用户查询权限;根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果。

著录项

  • 公开/公告号CN113032456A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 中国工商银行股份有限公司;

    申请/专利号CN202110285267.X

  • 发明设计人 谢伟;陆新龙;吴冕冠;周文泽;

    申请日2021-03-17

  • 分类号G06F16/2458(20190101);G06F16/26(20190101);G06F21/62(20130101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人任默闻;王涛

  • 地址 100140 北京市西城区复兴门内大街55号

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明涉及大数据挖掘领域,可应用于金融领域和其他领域,尤指一种隐私数据挖掘方法及系统。

背景技术

随着互联网的普及和大数据技术的应用,各大企业和服务机构获得了大量数据,例如医疗机构建立的患者诊断数据集,电子商务企业收集的客户在线交易数据集,金融公司存储的客户信息和交易数据等。企业或机构对这些数据集进行分析,可以获得更多有价值的知识,然后为客户提供更好的服务,提升生活水平。但这类数据集中存储了大量涉及个人隐私的数据,比如身份信息、住址信息和通讯信息等,极易发生隐私泄露事件。大数据技术确实给我们的生活带来了很多便利,但是也让隐私泄露变成一个严重问题;因此,隐私数据保护问题亟待有效的技术解决方案。

当前技术中,日常工作需要从各类应用系统获取客户数据,并进行数据挖掘(数据分析),为市场营销和管理决策提供数据支撑;虽然数据挖掘场景一般都有人员角色和权限控制,但是,已有研究表明,仅有权限控制是不能保证客户隐私安全的。

综上,目前没有解决数据挖掘场景下隐私泄露问题的可靠方案,因此,如何基于隐私保护技术提供一种新的方案,解决上述技术问题是本领域亟待解决的技术难题。

发明内容

本发明目的在于提供一种隐私数据挖掘方法及系统,支持数据所有者在加强数据隐私保护的同时,可以进行数据挖掘,同时支持可以选择差分隐私技术的具体算法和数据干扰程度,可以量化控制数据的可用性和精确度,严格保护客户隐私。

为达上述目的,本发明所提供的隐私数据挖掘方法,所述方法包含:获取查询请求,根据所述查询请求解析获得用户信息和DP(Dynamic Programming,动态规划)算法类型;根据所述DP算法类型调取预存的对应DP算法,根据所述DP算法于预设数据库中调取对应的系统参数和业务参数;根据所述系统参数连接对应的数据库,通过所述业务参数和所述用户信息获得用户查询权限;根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果。

在上述隐私数据挖掘方法中,优选的,所述DP算法包含接口方式分类算法和聚类算法、完全访问方式分类算法及频繁模式分析算法。

在上述隐私数据挖掘方法中,优选的,所述系统参数包含DP算法所需的参数及数据库连接信息。

在上述隐私数据挖掘方法中,优选的,所述业务参数包含原始数据集、查询数据范围和用户权限。

在上述隐私数据挖掘方法中,优选的,所述查询请求包含数据库名称、原始数据集名称、查询范围和条件、数据挖掘分析方式和应用DP算法。

在上述隐私数据挖掘方法中,优选的,根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果包含:根据所述用户查询权限获得数据挖掘方式;根据所述数据挖掘方式利用所述DP算法通过预定接口获取数据挖掘对应的统计类信息;或,根据所述数据挖掘方式访问数据集,执行对应的所述DP算法进行差分隐私计算挖掘获得查询结果。

本发明还提供一种隐私数据挖掘系统,所述系统包含DP算法装置、系统参数装置、业务参数装置和数据挖掘装置;所述DP算法装置用于预存多种DP算法;所述系统参数装置用于加载或配置隐私预算参数及数据库连接信息;所述业务参数装置用于加载或配置原始数据集、查询数据范围、用户及权限;所述数据挖掘装置用于获取查询请求,根据所述查询请求解析获得用户信息和DP算法类型;根据所述DP算法类型调取预存的对应DP算法,根据所述DP算法于预设数据库中调取对应的系统参数和业务参数;根据所述系统参数连接对应的数据库,通过所述业务参数和所述用户信息获得用户查询权限;根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果。

在上述隐私数据挖掘系统中,优选的,所述DP算法装置包含接口方式分类模块、接口方式聚类模块、完全访问方式分类模块及完全访问方式频繁模式分析模块;所述接口方式分类算法模块用于根据分类算法构建分类器模型,通过预定接口利用所述分类器模型进行数据挖掘计算;所述接口方式聚类算法模块用于通过预定接口根据聚类算法进行数据挖掘计算;所述完全访问方式分类算法模块用于访问数据集,利用分类算法构建的分类器模型进行数据挖掘计算;所述完全访问方式频繁模式分析算法模块用于访问数据集,利用关联规则进行数据挖掘计算。

在上述隐私数据挖掘系统中,优选的,所述系统参数装置包含隐私预算配置单元和数据库连接配置单元;所述隐私预算配置单元用于为不同DP算法配置隐私预算参数和算法所需的计算参数;所述数据库连接配置单元用于配置多种数据库类型,且对每种数据库类型配置多个数据库连接信息。

在上述隐私数据挖掘系统中,优选的,所述业务参数装置包含原始数据集配置单元、查询范围配置单元和用户权限配置单元;所述原始数据集配置单元用于根据不同的数据库实例配置原始数据集;所述查询范围配置单元用于按预设表维度配置查询范围;所述用户权限配置单元用于配置用户的查询权限。

在上述隐私数据挖掘系统中,优选的,所述数据挖掘装置包含查询提交单元、DP处理单元和结果保存单元;所述查询提交单元用于提供数据集供用户选择提交查询请求;所述DP处理单元用于根据所述查询请求解析获得用户信息和DP算法类型;根据所述DP算法类型调取预存的对应DP算法,根据所述DP算法于预设数据库中调取对应的系统参数和业务参数;根据所述系统参数连接对应的数据库,通过所述业务参数和所述用户信息获得用户查询权限;根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果;所述结果保存单元用于保存及反馈用户所述查询结果。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明的有益技术效果在于:通过差分隐私算法向原始数据集加入噪声,再进行数据挖掘。帮助数据管理者最大限度保证客户隐私不被泄露;可配置多种差分隐私算法及算法参数,并支持扩展算法组件,提高算法灵活度和适用性;可配置数据集、查询范围和用户权限,精细化控制数据挖掘范围;提供多种数据挖掘方法和结果保存格式,满足用户多种数据分析需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例所提供的隐私数据挖掘方法的流程示意图;

图2为本发明一实施例所提供的计算查询结果的流程示意图;

图3为本发明一实施例所提供的隐私数据挖掘系统的结构示意图;

图4为本发明一实施例所提供的DP算法装置的结构示意图;

图5为本发明一实施例所提供的系统参数装置的结构示意图;

图6为本发明一实施例所提供的业务参数装置的结构示意图;

图7为本发明一实施例所提供的数据挖掘装置的结构示意图;

图8为本发明一实施例所提供的隐私数据挖掘系统的应用流程示意图;

图9为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。

另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

请参考图1所示,本发明所提供的隐私数据挖掘方法,所述方法包含:

S101获取查询请求,根据所述查询请求解析获得用户信息和DP算法类型;

S102根据所述DP算法类型调取预存的对应DP算法,根据所述DP算法于预设数据库中调取对应的系统参数和业务参数;

S103根据所述系统参数连接对应的数据库,通过所述业务参数和所述用户信息获得用户查询权限;

S104根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果。

在上述实施例中,所述DP算法可包含接口方式分类算法和聚类算法、完全访问方式分类算法及频繁模式分析算法;具体可参考如下表1所示;所述系统参数包含DP算法所需的参数及数据库连接信息;所述业务参数包含原始数据集、查询数据范围和用户权限。所述查询请求包含数据库名称、原始数据集名称、查询范围和条件、数据挖掘分析方式和应用DP算法。

表1

请参考图2所示,在本发明一实施例中,根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果可包含:

S201根据所述用户查询权限获得数据挖掘方式;

S202根据所述数据挖掘方式利用所述DP算法通过预定接口获取数据挖掘对应的统计类信息;

S203或,根据所述数据挖掘方式访问数据集,执行对应的所述DP算法进行差分隐私计算挖掘获得查询结果。具体的,在实际工作中,当接收到的数据分析请求时,可连接指定的数据库,在指定数据集上执行指定DP算法(如DiffPID3,并加载隐私预算参数;该算法应用了指数机制来实现差分隐私保护,由于在指数机制下,只需一个查询即可实现一次对全部属性的评估,决策树的一次分裂只需消耗一次预算,因此每个查询所分配的预算较大,有效降低了噪声,在样本量足够大和隐私预算参数等于1的条件下能获得大于80%的分类准确率。

请参考图3所示,本发明还提供一种隐私数据挖掘系统,所述系统包含DP算法装置1、系统参数装置2、业务参数装置3和数据挖掘装置4;所述DP算法装置用于预存多种DP算法;所述系统参数装置用于加载或配置隐私预算参数及数据库连接信息;所述业务参数装置用于加载或配置原始数据集、查询数据范围、用户及权限;所述数据挖掘装置用于获取查询请求,根据所述查询请求解析获得用户信息和DP算法类型;根据所述DP算法类型调取预存的对应DP算法,根据所述DP算法于预设数据库中调取对应的系统参数和业务参数;根据所述系统参数连接对应的数据库,通过所述业务参数和所述用户信息获得用户查询权限;根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果。

在实际工作中,上述隐私数据挖掘系统中,DP算法装置1与系统参数装置2相连;系统参数装置2与业务参数装置3相连;DP算法装置1与数据挖掘装置4相连;系统参数装置2与数据挖掘装置4相连;业务参数装置3与数据挖掘装置4相连;其运行流程如下:步骤1):DP(Differential Privacy)算法装置,配置多种DP算法组件;步骤2):系统参数装置,配置隐私预算参数及数据库连接信息;步骤3):业务参数装置,配置原始数据集、查询数据范围、用户权限;步骤4):数据挖掘装置,提供接口方式和完全访问方式两种方式,每种方式均可选择不同数据分析方法和DP算法。

其中,DP算法装置1:用于加载或配置多种DP算法组件,分为接口方式分类算法和聚类算法、完全访问方式分类算法及频繁模式分析算法,具体算法有:SuLQ-based ID3,SuLQ-based k-means,FIM等等,算法组件以插件方式灵活加载或卸载,支持扩展更多算法组件。系统参数装置2:用于加载或配置隐私预算参数及数据库连接信息。业务参数装置3:用于加载或配置原始数据集、查询数据范围、用户及权限。数据挖掘装置4:提供接口和完全访问两种方式,每种方式均可选择不同分析方法和DP算法;具体流程可包含:根据系统参数确定各个DP算法的隐私预算参数;根据系统参数确定数据库连接信息(多个),包括网络地址、数据库用户和密码;根据业务参数约束数据分析用户(身份认证及权限);根据业务参数约束数据集范围和分析查询次数;在数据分析用户指定数据集上执行具体DP算法(配合系统参数确定的隐私预算参数)。详细实施流程将在后续实施例中予以说明,在此就不再一一详述。

请参考图4所示,在本发明一实施例中,所述DP算法装置1包含接口方式分类模块11、接口方式聚类模块12、完全访问方式分类模块13及完全访问方式频繁模式分析模块14;所述接口方式分类算法模块11用于根据分类算法构建分类器模型,通过预定接口利用所述分类器模型进行数据挖掘计算;所述接口方式聚类算法模块12用于通过预定接口根据聚类算法进行数据挖掘计算;所述完全访问方式分类算法模块13用于访问数据集,利用分类算法构建的分类器模型进行数据挖掘计算;所述完全访问方式频繁模式分析算法模块14用于访问数据集,利用关联规则进行数据挖掘计算。

请参考图5所示,在本发明一实施例中,所述系统参数装置2包含隐私预算配置单元21和数据库连接配置单元22;所述隐私预算配置单元21用于为不同DP算法配置隐私预算参数和算法所需的计算参数;所述数据库连接配置单元22用于配置多种数据库类型,且对每种数据库类型配置多个数据库连接信息。隐私预算配置单元21:不同算法组件可以分别配置隐私预算参数及算法需要的其它参数。隐私预算参数取值范围推荐为[0,10],数值越小,隐私保护效果越好。数据库连接配置单元22:可以配置多种数据库类型,比如Oracle,MySql,PostgreSql等,可按实际需要灵活增减。每种数据库类型可以配置多个数据库连接信息,包括数据库地址、端口、用户、密码等信息。

请参考图6所示,在本发明一实施例中,所述业务参数装置3包含原始数据集配置单元31、查询范围配置单元32和用户权限配置单元33;所述原始数据集配置单元31用于根据不同的数据库实例配置原始数据集;所述查询范围配置单元32用于按预设表维度配置查询范围;所述用户权限配置单元33用于配置用户的查询权限。具体的,原始数据集配置单元31:可以根据不同的数据库实例,配置原始数据集(全集)。查询范围配置单元32:可以按表维度控制查询范围,比如按时间维度指定最长一年,或按地理维度指定地区等。用户权限配置单元33:支持设置管理用户(最多3个)和查询用户(可多个)。配置查询用户的可查询数据集(子集)和访问方式(接口方式和完全访问方式)。配置查询用户的查询配额,比如每天3次,或每月10次等。管理用户可以操作DP算法装置、系统参数装置和业务参数装置,不能操作数据挖掘装置,系统首版本包含首个管理用户。查询用户只能操作数据挖掘装置。

请参考图7所示,在本发明一实施例中,所述数据挖掘装置4包含查询提交单元41、DP处理单元42和结果保存单元43;所述查询提交单元41用于提供数据集供用户选择提交查询请求;所述DP处理单元42用于根据所述查询请求解析获得用户信息和DP算法类型;根据所述DP算法类型调取预存的对应DP算法,根据所述DP算法于预设数据库中调取对应的系统参数和业务参数;根据所述系统参数连接对应的数据库,通过所述业务参数和所述用户信息获得用户查询权限;根据所述用户查询权限和所述DP算法执行对应的DP算法计算获得查询结果;所述结果保存单元43用于保存及反馈用户所述查询结果。具体的,查询提交单元41:支持用户选择可查询的数据集。支持接口访问方式和完全访问方式两种查询方式。在接口方式下,查询用户不能直接访问原始数据集,只能通过特定接口获取数据挖掘所需的统计类信息,其查询数目受隐私保护预算的限制。在完全访问方式下,用户能够直接访问数据集,并执行数据挖掘和差分隐私算法,对查询数量没有限制。每种方式可选择各自的分析方法和DP算法。DP处理单元42:根据用户查询请求,在指定数据集上按分析方法执行指定DP算法,生成数据分析结果。结果保存单元43:接口方式,直接返回分析结果。完全访问方式,自动保存分析结果。两种方式的分析结果均能以文件方式导出到用户本地,支持xls,csv,sql,txt,pdf,png及jpg等常见文件格式,具体格式按不同方法略有不同。

为更清楚的说明本发明所提供的隐私数据挖掘系统的实际运行流程,以下请参考图8所示,对整体数据挖掘请求处理流程做详细说明:

步骤S801:系统开始启动,自检系统运行条件是否满足,如系统参数和业务参数是否可用,网络连接是否正常,如有异常,提示报错或警告。

步骤S802:调用DP算法装置加载算法组件,包括SuLQ-based ID3、SuLQ-based k-means、DiffGen、FIM等已配置的多种DP算法,供后续使用。

步骤S803:调用系统参数装置加载系统参数,包括DP算法需要的参数(如隐私预算参数)及数据库连接信息(如数据库网络地址、数据库用户及密码),供后续使用。

步骤S804:调用业务参数装置加载业务参数,包括原始数据集、查询数据范围、用户权限。

步骤S805:用户提交查询(数据分析)请求,包括数据库名称、原始数据集(表名)、查询范围和条件,及数据挖掘分析方式、方法和DP算法(如接口方式分类方法的DiffPID3算法)。

步骤S806:DP处理单元接受数据分析请求,连接指定的数据库,在指定数据集上执行指定DP算法(如DiffPID3,并加载隐私预算参数。该算法应用了指数机制来实现差分隐私保护,由于在指数机制下,只需一个查询即可实现一次对全部属性的评估,决策树的一次分裂只需消耗一次预算,因此每个查询所分配的预算较大,有效降低了噪声,在样本量足够大和隐私预算参数等于1的条件下能获得大于80%的分类准确率)。

步骤S807:返回或保存查询(数据分析)结果,比如保存为csv格式的文件。

本发明的有益技术效果在于:通过差分隐私算法向原始数据集加入噪声,再进行数据挖掘。帮助数据管理者最大限度保证客户隐私不被泄露;可配置多种差分隐私算法及算法参数,并支持扩展算法组件,提高算法灵活度和适用性;可配置数据集、查询范围和用户权限,精细化控制数据挖掘范围;提供多种数据挖掘方法和结果保存格式,满足用户多种数据分析需求。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。

如图9所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图9中所示的所有部件;此外,电子设备600还可以包括图9中没有示出的部件,可以参考现有技术。

如图9所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。

该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号