技术领域
本发明涉及差分隐私技术领域,尤其涉及一种基于隐私保护的大型图的节点三角形计数的发布方法。
背景技术
“差分隐私”的概念最早是由Dwork等人在2006年提出,其定义可以简单描述为:若有两个最多只相差一条记录的相邻数据集,攻击者同时对这两个相邻数据集进行查询,所得到的查询结果也无法跟踪到这条记录。Dwork同样提出实现差分隐私的具体方法:加入满足服从拉普拉斯分布的噪声即可实现差分隐私。此后,又有学者提出指数机制,相较于拉普拉斯机制,它可以在同样的隐私预算设置下提供更大数量的查询,但与此同时也会带来更大的计算复杂度和更长的计算时间。
“三角个数”是指图中有多少个三角形,它是研究社交网络模型的重要角色,其广泛应用于角色识别、社区发现和垃圾邮件检测等领域。当发布三角计数结果时,同样会带来用户的隐私问题。现有的三角计算和节点计数的组合查询对图的处理和加噪仍是都是直接删边和直接加噪,因此累积噪声过大,查询结果的可用性较差,并不是一种理想的方案。
发明内容
本发明提供一种基于隐私保护的大型图的节点三角形计数的发布方法,有助于发布大型图的节点三角个数而不会造成隐私泄露。
本发明提供了一种基于隐私保护的大型图的节点三角形计数的发布方法,该方法包括:
选定原始图G,使用三角计数算法统计所述原始图G中每个节点的三角形个数,获取第一分布直方图;
观察所述第一分布直方图服从长尾分布,确定阈值θ;
对所述原始图G中节点的三角个数超过所述阈值θ的节点进行删边,获取预处理后图形G
使用三角计数算法统计所述预处理后图形G
使用层次聚类算法对所述第二分布直方图的数据桶进行分组,考虑全局最优解,选取总误差最小的分组作为最终分组;
对所述最终分组内桶的值的和添加拉普拉斯噪声,然后平均分配给组内每个桶。
可选的,所述第一分布直方图是所述原始图G的节点三角形个数分布直方图。
可选的,所述第二分布直方图是所述预处理后图形G
可选的,对所述原始图G中节点的三角个数超过所述阈值θ的节点进行删边的步骤,包括:
定义三个空集合Tri(G),Deg(G),Neighbor(v
遍历所述原始图G的每一个节点,统计每个节点所连接的三角形个数,度和邻节点,分别记入集合Tri(G),Deg(G),Neighbor(v
对任一节点v
更新节点v
如三角形个数大于阈值θ,继续执行步骤S23;
如三角形个数小于或等于阈值θ,进入下一步;
更新所述原始图G的节点三角形个数分集合Tri(G)。
可选的,所述预处理后图形G
实施本发明,具有如下有益效果:
本发明通过某些预处理手段,对不必要的边进行删减,将图的敏感度上限控制在一定范围之内并且能够保留原始图G中更多的三角形,并选取更优的直方图发布方法,可以大大降低满足差分隐私所需要添加的噪声量,从而在发布数据的隐私性和可用性之间取得最优的平衡。
附图说明
为了更清楚地说明本发明技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于隐私保护的大型图的节点三角形计数的发布方法的步骤示意图。
图2是本发明提供的基于隐私保护的大型图的节点三角形计数的发布方法的流程示意图。
图3是本发明与传统点三角形计数的发布方法的l1误差。
图4是本发明与传统点三角形计数的发布方法的KS误差。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的一种基于隐私保护的大型图的节点三角形计数的发布方法的步骤示意图。如图1所示,本发明的发布方法可包括以下步骤:
S1:选定原始图G,使用三角计数算法统计所述原始图G中每个节点的三角形参数,获取第一分布直方图;
S2:观察所述第一分布直方图服从长尾分布,确定阈值θ;
S3:对所述原始图G中节点的三角个数超过所述阈值θ的节点进行删边,获取预处理后图形G
S4:使用三角计数算法统计所述预处理后图形G
S5:使用层次聚类算法对所述第二分布直方图的数据桶进行分组,考虑全局最优解,选取总误差最小的分组作为最终分组;
S6:对所述最终分组内桶的值的和添加拉普拉斯噪声,然后平均分配给组内每个桶。
具体的,本发明的发布方法分为预处理过程和直方图分组加噪过程,预处理过程包括上述步骤中的S1至S3,直方图分组加噪过程包括上述步骤中的S4至S6,操作流程可参见图2。
进一步地,所述图形数据预处理步骤为:
S21:首先定义三个集合Tri(G),Deg(G),Neighbor(v
S22:遍历所述原始图G的每一个节点,统计每个节点所连接的三角形个数,度和邻节点,分别记入集合Tri(G),Deg(G),Neighbor(v
S23:对所述原始图G中的每一节点,如果节点所连接的三角形个数大于阈值θ,那么删掉该节点的若干条边使其三角个数满座阈值要求:
S231:对任一节点v
S232:更新节点v
S233:更新所述原始图G的节点三角形个数分集合Tri(G),如果Link(v
S24:得到满足阈值θ要求的图形数据Tri(G
进一步地,直方图分组加噪过程为对所述第二分布直方图的数据处理过程,具体过程如下:
S31:先用所述预处理后图形G
S32:层次聚类簇个数k∈[1,θ+1],循环使用层次聚类算法,找到令分组误差最小的聚类簇个数k,将节点的三角形个数分布直方图H={H
S321:对于任意的聚类簇数k∈[1,θ+1],开始进行层次聚类:
S3211:将集合H={H
S3212:设置当前聚类数目q=θ+1
S3213:当q大于k(k是我们想要划分的簇个数)时执行如下步骤:
a.找到距离最近的两个集合C
b.在集合C中将C
c.删除M的第j行和第j列。更新M的第i行和第i列。
d.更新q的值为q-1,返回到S3213
S3214:返回当前聚类集合
S3215:计算每一个簇C
S3216:计算此划分的总误差
S322:从总误差数组ERR中最小值找到对应的层次聚类分组方式
S33:对分组
实验效果用l 1误差和KS距离来度量,参见图3和图4,横坐标代表隐私预算,纵坐标代表l 1误差和KS距离,越小表示数据的可用性越好。显然本发明的图数据发布方式(图例为c l uster dp)在相同的隐私预算下数据可用性更好。
本发明通过对图形数据预处理和对节点的三角形个数分布直方图进行加噪来保护节点的三角形计数相关数据在发布过程中的隐私泄露问题。
上述实例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
机译: 信息发布系统,信息发布方法,信息发布程序,计数设备,计数方法和计数程序
机译: 一种正面认证方法,其增强了计算机生成全息图转换的数字全息图标记的安全级别,这是一种基于计算机生成的全息图的正认证系统数字全息图标记发生器,用于基于计算机生成的全息图的正验证系统
机译: 动态数据集发布中的隐私保护方法和使用该方法的隐私保护系统