首页> 中国专利> 基于SVM分类器的隐私保护和数据安全访问的方法

基于SVM分类器的隐私保护和数据安全访问的方法

摘要

本发明公开了一种基于SVM分类器的隐私保护和数据安全访问的方法,该方法不仅能够实现SVM分类器中涉及到的隐私保护,而且还可以实现安全地向外发布SVM分类器,该方法具有较高的安全性,并且可以保护SVM分类器的隐私。该方法能够广泛应用于,与SVM分类器隐私保护并且要求安全的发布SVM分类器参数的相关的很多应用场景。

著录项

  • 公开/公告号CN104092686A

    专利类型发明专利

  • 公开/公告日2014-10-08

    原文格式PDF

  • 申请/专利权人 中国科学技术大学苏州研究院;

    申请/专利号CN201410332957.6

  • 发明设计人 黄刘生;怀梦迪;胡杰;杨威;

    申请日2014-07-14

  • 分类号H04L29/06;

  • 代理机构苏州广正知识产权代理有限公司;

  • 代理人刘述生

  • 地址 215123 江苏省苏州市苏州工业园区仁爱路166号

  • 入库时间 2023-12-17 02:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-09

    授权

    授权

  • 2014-10-29

    实质审查的生效 IPC(主分类):H04L29/06 申请日:20140714

    实质审查的生效

  • 2014-10-08

    公开

    公开

说明书

技术领域

本发明涉及信息技术安全领域,特别是涉及一种基于SVM分类器的隐私保护和数据安全访问的方法。

背景技术

目前,数据挖掘的一个主要的任务就是,分类,分类算法从已知标签的训练数据集上学习得到,一个分类模型,即分类器,对以后的未知标签的数据,进行分类,在现如今,数据挖掘已经被视为是对个人敏感信息的一个威胁,这个隐私问题,已经使人们开始研究数据挖掘领域的隐私保护问题,不同的分类算法,有不同的隐私保护方案,SVM是目前分类算法中,一个使用最广泛的分类算法,在SVM隐私保护方面,已经有很多的工作了,然而,目前SVM的隐私保护问题,有一个问题,还没有被重视,SVM学习得到的分类器中,包含训练数据的完整实例,从本质上来说,对于一些法律和商业隐私保护的角度来说,SVM的分类模型会破坏隐私问题,当向外公布分类器时,会显示训练数据集中的个人敏感数据,比如说,HIPAA法律要求,医疗数据在没有合适的匿名化之前,是禁止对外发布的,因此,在没有隐私保护的情况下,这就限制了SVM学习得到的分类器,对外发布的局限性。

     假定一个医院或者医疗机构,已经收集了大量的医疗记录数据,该机构,希望利用这些收集的数据来学习得到一个SVM分类器,使用该SVM分类器,可以预测一个病人是否得了这个病,由于在训练得到的分类器中包含一些医疗记录数据,如果发布这个分类器,会泄漏一些病人的敏感数据,虽然,每条记录的标识符字段已经被移除,但是每条记录的实体身份也可能从准标识符识别出来,比如说,性别,血型,年龄,出生日期和邮政编码,通过这个例子,主要是说明,如果对外发布训练得到的SVM分类器,会泄漏原始训练数据集中的一些数据,会涉及到隐私保护问题。

     在2011年,Keng-Pei Lin等人提出了一个新的SVM近似算法,提出的新的近似算法,会对预先训练出来的SVM分类器,之后再对预先得到的SVM分类器进行处理,以此来保护支持向量的隐私内容,使用近似的方法,得到的SVM分类器,可以在不泄漏支持向量隐私的情况下,发布SVM,而且这个近似的SVM分类器,和原来的SVM分类器有相近的分类精确度。

    通过保护分类器中的隐私内容,即支持向量,结果得到的保护隐私的分类器,可以在不泄漏隐私的情况下,对外公布。

    具有隐私保护的SVM分类器具有很多的应用场景,可以有广泛的应用,但是,随之而来的就是,安全地对外即客户请求方,发布服务器方训练得到的具有隐私保护的SVM分类器。

    假定,现在有一个服务的提供方即服务器B,和一个服务的请求方,即客户方A,客户方A和服务器方B,需要进行通信,服务器方B,首先利用自己的资源,通过训练得到具有隐私保护的SVM分类器,客户方A,可以向服务器方B,请求服务器方训练得到的具有隐私保护的SVM分类器。

    在一个开放式和分布式的环境下,A和B要进行通信,认证和机密性,就成为需要考虑的两个主要的问题,基于认证的密钥协商协议是构建安全网络环境的基础,通过认证密钥协商协议,在通信系统中为通信的参与者提供身份认证,为身份已经确认的参与方之间建立共享密钥,用来加密传递的消息。

    另外,如何保证通信过程中机密信息不泄漏,鉴别信息来源的真实性,确保信息的完整性和不可抵赖性,就是网络信息安全研究需要研究的问题,网络安全的目标应当满足:身份真实性、信息机密性、信息完整性、服务可用性、不可否认性、系统可控性、系统易用性、可审查性等等,数字签名技术技术是网络安全的重要手段之一,它可以保证信息完整性、鉴别发送者的身份真实性和不可否认性。

     数字签名的特性包括:身份鉴别,可以鉴别心愿的真实性而防止冒充;不可抵赖性,信源时候不可否认以防止其抵赖;数据完整性保护,低于数据的篡改或重排;一般还使用加密技术保护信息机密性,以防止截听攻击等等。

 作为网络安全的关键技术之一,数字签名在社会生活的各个领域也都有十分广阔的应用前景。

发明内容

本发明主要解决的技术问题是提供一种基于SVM分类器的隐私保护和数据安全访问的方法,不仅使得SVM分类器具有保护隐私即支持向量的目的,而且还使得在对客户请求方发布具有隐私保护的SVM分类器时,安全的进行传送SVM模型参数。

为解决上述技术问题,本发明采用的一个技术方案是:

提供一种基于SVM分类器的隐私保护和数据安全访问的方法,即服务请求方A向服务提供方B请求得到服务提供方B训练的具有隐私保护的SVM分类器,其具体步骤包括:一.密钥协商:A.建立阶段,即在服务提供方B的PKG文件中生成系统的参数和它自己公私钥对:设置p=G,G为素数集合;利用双线性映射获得                                               ;在PKG文件中随机的选取两个生成器g和h,且;在PKG文件中设置主人私钥为;设置哈希函数;设置服务请求方A和服务提供方B之间的共享会话密钥为,并设置;设置PKG的公钥是,其中,,;

B.密钥生成阶段,即在服务提供方B的PKG文件中为服务请求方A生成密钥:设置服务请求方A的用户名为,用户身份为;在PKG文件中随机生成一个,并且输出一个私钥为其中;面向服务请求方A时,设置,面向服务提供方B时,设置;

C.密钥协商阶段,即服务请求方A和服务提供方B,通过隐式的密钥认证,建立一个共享的共享会话密钥,其步骤包括:

    1.1)设置服务请求方A的用户身份为,设置服务提供方B的用户身份为,服务请求方A选择一个并且计算,然后把发送给服务提供方B。

    1.2) 服务提供方B选择一个并且计算,然后把发送给服务请求方A。

    1.3) 服务请求方A计算下面式子:

            

   1.4) 服务提供方B计算下面式子:

            

  由1.3和1.4中的步骤可知:

                          (1)

                           (2)

   且式子(1)和式子(2)是相等的,所以得到:即得到服务请求方A和服务提供方B之间的共享会话密钥;

二.训练得到具有隐私保护的SVM分类器,即服务提供方B利用训练数据集,训练得到一个初始的SVM分类器,然后再对这个分类器进行变换,得到一个具有隐私保护的SVM分类器: 

   2.1) 服务提供方B首先利用自己的训练数据集,通过训练得到一个初始的SVM分类器,所述初始的SVM分类器是基于高斯核函数的,它的决策函数的形式为:

       (1),

其中 ,,核参数,,偏差变量,为任意有理数,为支持向量,是相应的标签,为与支持向量对应的支持变量,表示训练数据集中包含的支持向量的个数,,,,是成本参数,且;

2.2)设置高斯核函数,其中,且根据高斯核函数和决策函数(1),得到;将决策函数(1)等价的变换为:

          (2)

  2.3)根据式子(2),将变形为:,其中,,

并将决策函数(1)变形为:  (3);

 2.4)在决策函数(3)中,得到的无穷级数的表示形式:    (4);

  通过的无穷级数,得到,并将决策函数(3)中的变形为:

              (5)

使得支持向量仅仅出现在式子里;

2.5)通过采用单项式特征映射,设置式子(5)中的,其中,表示阶的单项式映射,并将式子(5)变形为:

           (6)

2.6)在(6)式中,设置 (7),在每一个中,所有的特征向量被映射到了一个d阶的单项式特征空间;

设置 (7),将式子(6)和(7)式子代入到式子(5)中,将式子(5)变形为:

                            (8);

     再将式子(8)式代入到决策函数(3)中,将决策函数(3)变形为:

      (9),

即得到具有隐私保护的SVM分类器;

三.加密,即利用密钥协商中得到的共享会话密钥、对称加密算法和AES加密算法,对步骤二得到的具有隐私保护的SVM分类器中的参数、、和进行加密,得到密文;

四.生成数字签名,即服务提供方B对包含参数、、和的明文,生成相应的数字签名;

五.发送至客户请求方,即服务提供方B将步骤三中得到的密文和步骤四中得到的明文的数字签名,一起发送给服务请求方A。

六.解密,即服务请求方A接收服务提供方B发送来的密文和数字签名,验证数字签名的正确性;当数字签名正确时,获取步骤一中得到的密钥,然后对密文进行解密得到明文。

在本发明一个较佳实施例中,在步骤四中,使用的数字签名算法是schnorr数字签名算法。

在本发明一个较佳实施例中,所述schnorr数字签名算法具体的方法步骤如下所示:(1)参数选择:让所有用户会确定使用一个素数集合,素数集合有一个素数阶q的g生成器,即G的生成器是g,并且生成器g的阶为q且q是素数,并且所有的用户确定一个加密散列函数,即;(2)标记:求幂运算表示群操作的重复应用;并列表示同余类上的乘法运算或者是群操作的应用;减法表示等价群组上的减法;设置,其表示位字符串上的有限序列;设置和,为同余类模集合,为模整数的乘法群,q是素数,,;(3)密钥生成:从允许的集合G里,选择一个私有签名密钥x和公有的验证密钥;(4)对一个消息进行签名:从一个允许的集合里,选择一个随机数k;设置和,表示连接的作用,表示一个位字符串;设置,则数字签名就是,并且,;(5)验证:设置,,当时,那么数字签名就被认为经过认证了;(6)正确性的证明:如果签名的信息和验证的信息是相等的,则可知,所以;公有的元素是:,私有的元素是:。 

本发明的有益效果是:不仅能够实现SVM分类器中涉及到的隐私保护,而且还可以实现安全地向外发布SVM分类器,该方法具有较高的安全性,并且可以保护SVM分类器的隐私。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:

图1是本发明的基于SVM分类器的隐私保护和数据安全访问的方法的流程示意图;

图2是本发明中所述训练得到具有隐私保护的SVM分类器的流程示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1和图2,本发明实施例包括:

一种基于SVM分类器的隐私保护和数据安全访问的方法,即服务请求方A向服务提供方B请求得到服务提供方B训练的具有隐私保护的SVM分类器,Mengbo Hou等人提出了一个增强的两方的基于身份认证的密钥协商协议,该协议在托管模式的安全性更高,提出的协议,提供了几乎所有的已知的安全属性,尤其是理想的前向保密属性和已知的临时的特定会话的信息保密属性,在这个阶段中,A和B想要在彼此之间建立一个共享的会话密钥,而PKG,则通过使用自己的主人私钥,来负责用户私钥的生成和分发,该协议包含三个阶段,建立阶段,密钥生成阶段,密钥协商阶段;

具体步骤包括:一.密钥协商:A.建立阶段,即在服务提供方B的PKG文件中生成系统的参数和它自己公私钥对:设置p=G,G为素数集合;利用双线性映射获得;在PKG文件中随机的选取两个生成器g和h,且;在PKG文件中设置主人私钥为;设置哈希函数;设置服务请求方A和服务提供方B之间的共享会话密钥为,并设置;设置PKG的公钥是,其中,,;

B.密钥生成阶段,即在服务提供方B的PKG文件中为服务请求方A生成密钥:设置服务请求方A的用户名为,用户身份为(可以是邮箱地址或者是其他的字符串);在PKG文件中随机生成一个,并且输出一个私钥为其中;面向服务请求方A时,设置,面向服务提供方B时,设置;

C.密钥协商阶段,即服务请求方A和服务提供方B,通过隐式的密钥认证,建立一个共享的共享会话密钥,其步骤包括:

    1.1)设置服务请求方A的用户身份为,设置服务提供方B的用户身份为,服务请求方A选择一个并且计算,然后把发送给服务提供方B。

    1.2) 服务提供方B选择一个并且计算,然后把发送给服务请求方A。

    1.3) 服务请求方A计算下面式子:

            

   1.4) 服务提供方B计算下面式子:

            

  由1.3和1.4中的步骤可知:

                          (1)

                           (2)

   且式子(1)和式子(2)是相等的,所以得到:即得到服务请求方A和服务提供方B之间的共享会话密钥;

二.训练得到具有隐私保护的SVM分类器,即服务提供方B利用训练数据集,训练得到一个初始的SVM分类器,然后再对这个分类器进行变换,得到一个具有隐私保护的SVM分类器; Kengpei Lin等人提出了一个新的近似算法,提出的新的近似算法,会对预先训练出来的SVM分类器,进行后处理,以此来保护支持向量的隐私内容,使用近似的方法,得到的SVM分类器,可以在不泄漏支持向量隐私的情况下,发布SVM,而且这个近似的SVM分类器,和原来的SVM分类器有相近的分类精确度;

  步骤包括: 2.1) 服务提供方B首先利用自己的训练数据集,通过训练得到一个初始的SVM分类器,所述初始的SVM分类器是基于高斯核函数的,它的决策函数的形式为:

       (1),

其中 ,,核参数,,偏差变量,为支持向量,是相应的标签,为与支持向量对应的支持变量,表示训练数据集中包含的支持向量的个数,,,,是成本参数,且,在(1)式子中,属性变量都是敏感的,都涉及到隐私,但是他们的类别标签,通常不涉及到隐私,我们的目的就是,破坏决策函数(1)中的支持向量的属性变量,通过一个不可逆的方式;

2.2)在决策函数(1)中,计算了测试样例和一个支持向量之间的距离的二次方,设置高斯核函数,其中,且根据高斯核函数和决策函数(1),得到;将决策函数(1)等价的变换为:

          (2)

  2.3)在式子(2)中有两个包含支持向量的地方,分别是和,根据式子(2),将变形为:,其中,,

并将决策函数(1)变形为:  (3);

 2.4)是一个仅仅和测试样例X相关的一个标量,而这个标量,和训练数据的隐私没有任何的关联,现在,支持向量只出现在求和操作符中的,在决策函数(3)中,得到的无穷级数的表示形式:    (4);

  通过的无穷级数,得到,并将决策函数(3)中的变形为:

              (5)

使得支持向量仅仅出现在式子里;

2.5)通过采用单项式特征映射,设置式子(5)中的,其中,表示阶的单项式映射,并将式子(5)变形为:

           (6)

2.6)在(6)式中,设置 (7),在每一个中,所有的特征向量被映射到了一个d阶的单项式特征空间;

设置 (7),将式子(6)和(7)式子代入到式子(5)中,将式子(5)变形为:

                            (8);

     再将式子(8)式代入到决策函数(3)中,将决策函数(3)变形为:

      (9),

即得到具有隐私保护的SVM分类器;

式子(9)就是基于高斯核函数的SVM分类器,对数据进行分类的决策函数的隐私保护形式,在决策函数的这个形式里面,需要在分类器里保护的数据是,而不是原来决策函数里的支持向量,通过支持向量的线性组合,可以破坏支持向量的隐私内容;

在原来的SVM分类器里,为了分类需要知道支持向量,但是在(9)式中,只需要知道就可以了。支持向量映射成单项式特征后,再通过将单项式特征进行线性组合就可以得到,这样的话,当向外,发布分类器SVM时,所需要发布的参数包括,,,和,在这些发布出去的参数中,不会涉及到隐私数据,即支持向量,因此保护了发布参数方的数据隐私;

三.加密,即利用密钥协商中得到的共享会话密钥、对称加密算法和AES加密算法,对步骤二得到的具有隐私保护的SVM分类器中的参数、、和进行加密,得到密文;

四.生成数字签名,即服务提供方B对包含参数、、和的明文,生成相应的数字签名;

五.发送至客户请求方,即服务提供方B将步骤三中得到的密文和步骤四中得到的明文的数字签名,一起发送给服务请求方A。

六.解密,即服务请求方A接收服务提供方B发送来的密文和数字签名,验证数字签名的正确性;当数字签名正确时,获取步骤一中得到的密钥,然后对密文进行解密得到明文。

在步骤四中,使用的数字签名算法是schnorr数字签名算法,在密码学里,schnorr签名是schnorr签名算法生成的一个数字签名。它的安全性是基于离散对数的难解性,schnorr签名被认为是最简单的数字签名方案,并且在随机预言模型里可被证明是安全的,它的效率很高,可以生成很短的签名。。

在本发明一个较佳实施例中,所述schnorr数字签名算法具体的方法步骤如下所示:(1)参数选择:让所有用户会确定使用一个素数集合,素数集合有一个素数阶q的生成器,并且所有的用户确定一个加密散列函数,即;(2)标记:求幂运算表示群操作的重复应用;并列表示同余类上的乘法运算或者是群操作的应用;减法表示等价群组上的减法;设置,其表示位字符串上的有限序列;设置和,为同余类模集合,为模整数的乘法群,q是素数,,;(3)密钥生成:从允许的集合里,选择一个私有签名密钥x和公有的验证密钥;(4)对一个消息进行签名:从一个允许的集合里,选择一个随机数k;设置和,表示连接的作用,表示一个位字符串;设置,则数字签名就是,并且,,如果,那么数字签名的表示可以调整到40字节;(5)验证:设置,,当时,那么数字签名就被认为经过认证了;(6)正确性的证明:如果签名的信息和验证的信息是相等的,则可知,所以;公有的元素是:,私有的元素是:。 

本实施例的目的目的有两点:一是对初始训练得到的SVM分类器,再次变换,在不损失分类器性能的前提下,对SVM分类器进行隐私保护。最后得到的SVM分类器,可以有效地保护SVM的隐私内容。二是在双方之间建立安全地通信协议。

以往的关于SVM的隐私保护问题都是都是在训练数据集上对SVM进行隐私保护的,而关于对SVM分类模型中的参数,即支持向量,进行隐私保护的问题,还没有被研究到。从而,关于向客户方发布保护隐私,即支持向量的协议也没有被提出来。本发明的目的是,先训练得到具有隐私保护的SVM分类器,然后,再通过安全的协议,向客户请求方,安全地传输SVM的模型参数。

具体地,该协议可以分为四个阶段,第一个阶段包括步骤1,是客户方和服务方之间,进行基于认证的密钥协商,第二个阶段包括步骤2,是服务方根据客户的请求,训练得到相应的具有隐私保护的SVM分类器,第三个阶段包含步骤3、4,第四个阶段包含步骤5、6、7,第三、四个阶段,双方之间进行安全的通信。

在第一个阶段,双方之间通过第1步骤中提出的新的机遇认证的密钥协

商协议(包含三个阶段,建立阶段,密钥生成阶段,密钥协商阶段),在完成该协议是,双方之间得到一个共享的会话密钥,即,在第二个阶段,在这个过程中,服务器方会利用自己的训练数据集,训练得到一个初始的SVM分类器,然后再对这个分类器进行变换,得到一个具有隐私保护的SVM分类器。在第三个阶段,服务方,首先对明文生成数字签名,然后使用第一阶段产生的私钥对明文进行加密,生成密文,之后再将密文和明文的数字签名一起发送给客户方,第四个阶段,客户方首先对密文进行解密,然后再验证信息是否是从服务发发送过来的,若是,就接受,否则就拒绝。

下面对协议框架的正确性和安全性进行分析。

本发明综合使用了一个改进的基于认证的密钥协商协议,改进的SVM隐私保护的算法和增强的一个数字签名协议。关于本发明的协议框架的计算的正确性,和通信的安全性分析问题,就不一一列举了,具体的可以参考上面提到的相关的参考文献,在这里简单的介绍一下,本发明使用到的改进的基于认证的密钥协商协议的正确性的分析,在步骤1中,

   A会计算下面的式子:

                    

     B会计算下面的式子:

                         

   在该协议执行结束的时候,A和B会得到一个相同的会话密钥,因为:

                          (1)

                           (2)

   显然,(1)和(2)是相等的,同样地,所以,我们就可以得到,上面的分析说明,在该密钥协商协议的结束时候,A和B会得到相同的共享会话密钥,从而说明该密钥协商协议是正确的。

本发明基于SVM分类器的隐私保护和数据安全访问的方法的有益效果是:不仅能够实现SVM分类器中涉及到的隐私保护,而且还可以实现安全地向外发布SVM分类器,该方法具有较高的安全性,并且可以保护SVM分类器的隐私。该方法能够广泛应用于,与SVM分类器隐私保护并且要求安全的发布SVM分类器参数的相关的很多应用场景。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号