首页> 中国专利> 一种社交网络中需求隐私的保护方法

一种社交网络中需求隐私的保护方法

摘要

本发明提供了一种社交网络中需求隐私的保护方法,包括以下步骤:S1、用户查询需求服务;S2、结合关联规则和差分隐私技术保护用户查询的需求隐私;S3、发送给服务商,服务商把查询的结果返回给用户。本发明的有益效果是:可以保护需求隐私,避免需求隐私泄露。

著录项

  • 公开/公告号CN107862219A

    专利类型发明专利

  • 公开/公告日2018-03-30

    原文格式PDF

  • 申请/专利权人 哈尔滨工业大学深圳研究生院;

    申请/专利号CN201711122693.1

  • 申请日2017-11-14

  • 分类号G06F21/62(20130101);G06Q50/00(20120101);

  • 代理机构深圳市添源知识产权代理事务所(普通合伙);

  • 代理人罗志伟

  • 地址 518000 广东省深圳市南山区西丽镇深圳大学城哈工大校区

  • 入库时间 2023-06-19 04:56:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-08

    授权

    授权

  • 2018-04-24

    实质审查的生效 IPC(主分类):G06F21/62 申请日:20171114

    实质审查的生效

  • 2018-03-30

    公开

    公开

说明书

技术领域

本发明涉及隐私保护,尤其涉及一种社交网络中需求隐私的保护方法。

背景技术

社交网络中的隐私包括用户个人信息,用户分享信息,人际关系信息和数据挖掘信息等。在用户个人信息中位置隐私备受关注,位置隐私保护技术主要有空间模糊化、虚拟对象、隐私信息检索、差分隐私等。空间模糊化和虚拟对象技术相对成熟,能够较好的达到数据隐私性和实用性的平衡,实用性相对较好;隐私信息检索技术是基于密码学基础,能够提供高水平的隐私保护,但是计算代价很高,因此只适用于安全级别要求较高的场景;Andres等学者借鉴差分隐私思想,提出地理不可区分性来保护用户的位置隐私。尽管差分隐私技术能够提供可控和可以证明的隐私保护,但噪声过大也会对实用性产生不利影响。在2015年,Shokri等学者提出以用户为中心的最佳数据模糊机制,利用非零和博弈思想来使得攻击者和用户彼此都获得最好的结果,其应用场景仍然是用户的位置隐私。目前,在社交网络中,缺少保护用户的需求隐私的方案。

传统的隐私保护方案都是用来保护人们的位置隐私,位置隐私中包含用户的物理位置和用户的查询内容,传统方案都是来保护用户的当前位置,很少有技术来保护用户的查询内容,即人们的需求。当人们打开网页时,网页会自动向用户推荐一些信息,这些信息很多是基于人们上网记录产生的,究其原因是由于信息的泄露。因此,如何提供一种需求隐私的保护方案,是本领域技术人员所亟待解决的技术问题。

发明内容

为了解决现有技术中的问题,本发明提供了一种社交网络中需求隐私的保护方法。

本发明提供了一种社交网络中需求隐私的保护方法,包括以下步骤:

S1、用户查询需求服务;

S2、结合关联规则和差分隐私技术保护用户查询的需求隐私;

S3、发送给服务商,服务商把查询的结果返回给用户。

作为本发明的进一步改进,在步骤S2中,关联规则是指两种或者几种事物之间的关联度,即一种事物出现的同时另外一种事物出现的概率,关联规则的实现包括两个指标:支持度和置信度。通过在数据库中找到事物之间的关联程度,获得支持度和置信度,并对要查询的需求隐私进行替换,进而达到需求隐私保护的目的。

作为本发明的进一步改进,在步骤S2中,支持度是几个关联的数据在数据集中出现的次数在总数据集的占比,即几个数据关联出现的概率;例如分析数据X和数据Y关联度,则对应的支持度S为:

以此类推,分析数据X、数据Y和数据Z之间关联性,则对应的支持度S为:

置信度体现了一个数据出现后,另一个数据出现的概率,即数据的条件概率;例如分析数据X和数据Y之间的置信度,数据X对数据Y的置信度C为:

以此类推,数据X对于数据Y和数据Z的置信度C为:

作为本发明的进一步改进,通过差分隐私对信息的泄露设置一个边界约束信息的泄露程度。针对用户的多个需求,通过差分隐私使得多个需求隐私被替换后的概率相同,使得攻击者不能区分出用户的真实需求,差分隐私的度量为需求事物集合之间不同的数目,以上即为关联规则与差分隐私两种技术相结合来保护用户的需求隐私。

作为本发明的进一步改进,在步骤S2中,通过利用关联规则和差分隐私相结合共同建立需求隐私保护的模型,隐私保护的模型如下:

假设用户的隐私数据为s∈S,模糊后事物为o∈O(O=S),模糊机制的概率分布:

p(o|s)=Pr{O=o|S=s}(5)

需求替换机制可以看成在用户和观察者之间的信道,信道的噪声越大,用户的隐私越高;将先验知识ω定义为用户的需求的概率,即用户一段时间内对物品的需求的概率分布;由于将用户的真实需求替换成另一需求,将导致服务质量损失。定义c为置信度,c(o,s)为用户的需求s与o之间的置信度,服务质量损失函数为log2(1/c(o,s)),置信度越大,服务质量损失越小,反之亦然。定义期望的保护机制的服务质量损失为:

则保护机制的服务质量损失依赖于:(a)用户的先验知识ω;(b)提供给用户的服务p;(c)用户期望的损失函数log2(1/c(o,s))。

令dε(s,s')为需求之间不可区分的度量,定义为s与s'之间不同的需求数目,所以当满足不等式:

p(o|s)≤exp(ε·(dε(s,s')))·p(o|s')(7)

则认为一个机制满足差分隐私,即使得多个需求互相不可区分;

攻击者通过观察数据o并推断出估计值推断机制的概率分布为:

定义推断函数为置信度越大,对应的用户的隐私越小;用户的隐私是在给定的攻击模型(q)通过保护机制获得的,所以定义为:

对于所有的需求,计算期望的用户的隐私为:

本发明的有益效果是:通过上述方案,可以保护需求隐私,避免需求隐私泄露。

附图说明

图1是本发明一种社交网络中需求隐私的保护方法的保护体系框图。

图2是无差分隐私下需求隐私度与服务质量关系图。

图3是无差分隐私下保护机制概率分布图。

图4是有差分隐私下需求隐私度与服务质量关系图。

图5是有差分隐私下保护机制概率分布图。

图6是置信度较大情况下服务质量损失与隐私度关系图。

图7是置信度较小情况下服务质量损失与隐私度关系图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

一种社交网络中需求隐私的保护方法,包括以下步骤:

S1、用户查询需求服务;

S2、结合关联规则和差分隐私技术保护用户查询的需求隐私;

S3、发送给服务商,服务商把查询的结果返回给用户。

本发明的体系框架如图1所示,体系框架分为三大部分:实体层,策略层和评价层,具体如下:

(1)实体层,涉及参与系统服务的主要实体,包括用户、服务商和攻击者。用户请求需求服务,发送给服务商,服务商把查询的结果返回给用户。攻击者可以直接攻击服务商来获取用户的查询内容,或者认为服务商本身就是攻击者,攻击者还可以攻击用户和服务商之间的通信信道,截获用户的查询。

(2)策略层描述了主要使用的技术以及构建的数学模型,主要有差分隐私和关联规则两大技术。差分隐私技术主要的指标有噪声机制、隐私预算和欧式距离(这里不局限于标准的差分隐私);关联规则的量化主要有支持度和置信度这两个指标。

(3)评价层描述了采用具体方法来对整个系统性能进行评价,既要评价系统本身的隐私水平,又要评估系统的使用对用户的服务质量的影响。

关联规则是指两种或者几种事物之间的关联度,即一种事物出现的同时另外一种事物出现的概率。当人们的查询为敏感事物时(或者说不想被人知道事物),因此需要对其进行保护,同时还要得到一定的服务质量。例如在美国的沃尔玛超市,店家把啤酒与尿布放一起销售,既方便用户也增加彼此销量。像这种啤酒与尿布的关系就是商家通过大数据分析后发现一些年轻的父亲们经常在买尿布后又顺便为自己买啤酒这个事实。如果单身妈妈不想让别人知道自己有小孩的信息,当她想要知道哪些超市卖尿布时,就可以搜索哪些超市卖啤酒(因为大数据分析啤酒与尿布之间的关联度很高,即卖啤酒的超市几乎就会卖尿布),既保护了其隐私,也买到了需求的事物。关联规则的实现包括两个指标:支持度和置信度。通过在数据库中找到事物之间的关联程度,获得支持度和置信度,并对要查询的需求隐私进行替换,进而达到需求隐私保护的目的。例如分析数据X和数据Y关联度,则对应的支持度S为:

以此类推,例如分析数据X、数据Y和数据Z之间关联性,则对应的支持度S为:

置信度体现了一个数据出现后,另一个数据出现的概率,即数据的条件概率;例如分析数据X和数据Y之间的置信度,数据X对数据Y的置信度C为:

以此类推,数据X对于数据Y和数据Z的置信度C为:

一般来说,要选择一个数据集合中的频繁数据集,需要自定义评估标准。最常用的评估标准是用自定义的支持度大小,或者是自定义支持度和置信度的一个组合。当支持度达到一定值时,设置置信度才有意义。在本发明中,根据数据库中找到事物之间的关联度来预先设定支持度和置信度,然后对要查询“敏感”事物进行“替换”,达到需求隐私保护的目的。

差分隐私技术主要是想进一步保护用户的隐私信息,可以对信息的泄露设置一个边界约束信息的泄露程度,从而使得用户的隐私得到更好的保护。差分隐私的应用是针对用户的多个需求,使得多个需求被替换后的结果的概率(几乎)相同,攻击者不能区分出用户的真实需求值。在本发明中,差分隐私的度量用需求事物集合之间不同的数目表示,即关联规则与差分隐私两种技术相结合来保护用户的需求隐私。

具体方案如下:

假设用户的需求事物为s∈S,模糊后事物为o∈O(O=S),模糊机制概率分布:

p(o|s)=Pr{O=o|S=s} (5)

需求替换机制可以看成是在用户和观察者之间的一个信道,信道的噪声越大,用户的隐私越高。目前,简单的把先验知识ω定义为用户的需求的概率,即用户一段时间内对物品的需求的概率分布值(这里不要求概率和为1),先验知识是随着时间改变的,要以具体时间而定。因为把用户的真实需求替换成另外一种事物,这必然是有服务质量的损失的,这里定义一个服务质量损失函数(由于置信度越大,服务质量损失越小,反之亦然)为置信度倒数取对数,即log2(1/c(o,s))(c表示置信度,c(o,s)代表用户的需求s与o之间的置信度大小)表示用户期望的服务质量的损失(用户希望损失越小越好,对应的置信度越大),则保护机制的服务质量损失依赖于:(a)用户的先验知识ω;(b)提供给用户的服务p;(c)用户期望的损失函数log2(1/c(o,s)),则把期望的保护机制的服务质量损失定义为:

当s与o的置信度为1时,即自己代替自己,服务质量没有损失。

差分隐私可以被应用在测量信息泄露,已经证明差分隐私对信息的泄露有一定的限制,所以在本模型中想加入差分隐私的概念。其核心为对于多个需求,产生相同的结果的概率(几乎)相同,这样就不能区分需求。令dε(s,s')为需求之间不可区分的度量,定义为s与s'之间不同的需求数目,所以当满足不等式:

p(o|s)≤exp(ε·(dε(s,s')))·p(o|s')(7)

则认为一个机制满足差分隐私,即使得多个需求互相不可区分;

攻击者通过观察数据o并推断出估计值推断机制的概率分布为:

定义推断函数为置信度越大,对应的用户的隐私越小;用户的隐私是在给定的攻击模型(q)通过保护机制获得的,所以定义为:

对于所有的需求,计算期望的用户的隐私为:

以上是需求隐私保护的基本模型,通过利用关联规则技术和差分隐私相结合技术共同来实现。

实验(一):在不同的隐私约束下,最大化用户的服务质量:

实验(二):当攻击者进行攻击时,一方面攻击者最小化用户的隐私,另一方面用户要最大化自己隐私——零-和博弈思想:

这里需要对目标函数进行处理,因为q*是攻击者在最佳保护机制p*下的推断概率,但要进一步优化p,这就需要在一个目标函数中只出现一个变量,所以证明目标函数等价于(15)式。

实验场景:随机选择5个用户,每个用户有10种日常需求物品,假设攻击者知道用户在一段时间内对这10种需求物品的概率(先验知识)。用户的每一种需求都有对应的关联事物,设定它们之间的置信度,为了保证用户的服务质量,人为的约束替换的事物与原事物之间的置信度在一定范围内(可以动态的改变置信度和选取的代替事物,以及代替事物的个数),太小的置信度计算起来也没有了实际意义。采用差分隐私保护机制,设置差分隐私预算参数ε和dε(s,s')以及至少要达到的最小的隐私度,进行实验。

结果分析:

1、根据图2和图4显示,随着用户对隐私的要求越来越大,用户的服务质量损失也越来越大,这是符合实际的(横坐标表示用户要求的隐私级别,纵坐标表示用户的服务质量的损失,均无单位)。纵坐标的值依赖于用户对事物需求的概率(先验知识)、用户的服务以及损失函数。当隐私度为0时,即用户不关心隐私,则不对需求模糊(用需求本身来替代),在没有加入差分隐私的保护机制中不会产生服务质量的损失,因为用需求本身来替代置信度为1,损失函数为0,也可以从服务质量损失表达式可以看出,服务质量的损失为0;但在有差分隐私机制中,即使隐私度为0,仍然有服务质量的损失,这是因为在差分隐私的约束,当代替矩阵比较大时,不能使得所有的保护机制在用本身替代时概率为1,导致置信度就不全为1,所以损失的最小值不为0。

2、图2中没有加入差分隐私机制,对比图2和图4,同样的隐私级别,差分隐私机制下服务质量的损失要大些,这是因为差分隐私保护机制要求比较严格,使得一个观察值对应多需求的概率是几乎一样的,所以攻击者不知道用户的真实需求(差分隐私保护的更好,见图5);

3、图3和图5分别是没有差分隐私和有差分隐私情况下保护机制的概率分布图。从图3可知,同一个模糊需求对应的用户真实需求概率相差很大,导致攻击者从模糊需求的概率能以较大概率推断出用户的真实需求。图5显示,同一个模糊需求对应的用户的多个真实需求概率几乎相同(或者部分概率相同),所以攻击者从模糊需求很难推断出用户的真实需求,用户的需求隐私可以得到保护。

4、图6是利用零和博弈的方法实现用户的隐私度与服务质量之间的关系,开始阶段随着服务质量损失的增加,用户的隐私不断增加。当隐私达到一定的值时,再增加损失,隐私度并不会增加,这是因为达到了博弈的平衡点,即用户和攻击者双方的利益都最大化了。

5、图7是通过改变置信度,研究置信度对隐私的影响(实验的其他条件不变)。当替换事物与用户的需求事物之间的置信度变小,由图6和图7对比可以看出,当置信度变小,用户的隐私整体变大,因为置信度变小,从隐私的定义式(10)可以知道隐私变大。

攻击者根据人们的需求可能推断出用户的身份信息、个人爱好甚至健康状况等,这将严重泄露人们的隐私。本发明提供了一种社交网络中需求隐私的保护方法,可以保证人们在查询事物时,隐私得到较好的保护。通过使用关联规则和差分隐私结合的技术,既保护了用户的隐私又保证了用户的服务质量。本发明不仅保护了人们的需求内容,同时也避免了由于需求泄露而导致的其他隐私的泄露问题。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号