首页> 中国专利> 混合云存储中支持结果高效排序的对称可搜索加密方法

混合云存储中支持结果高效排序的对称可搜索加密方法

摘要

一种混合云存储系统中支持结果高效排序的对称可搜索加密方法,基于数据所有方、数据检索方、私有云平台、公有云平台的混合云存储系统,包括设计文档预处理、安全外处理包、文档安全存储、安全查询处理、排序密文检索步骤,实现海量文档集安全外包与高效检索的有机统一。本发明的双层安全索引的构建服务于密文检索的高效排序,并能够支持动态索引的增、删、查、改操作;数据用户的检索历史与检索兴趣作为密文搜索排序的“主观特征”参与检索结果的排序计算;通过在文档预处理步骤中增加文档唯一性检验步骤,实现数据重复性删冗机制,确保数据所有方文档集外包的高效性,为提高公有云的存储空间利用率提供技术支持。

著录项

  • 公开/公告号CN104765848A

    专利类型发明专利

  • 公开/公告日2015-07-08

    原文格式PDF

  • 申请/专利权人 中国人民解放军空军航空大学;

    申请/专利号CN201510186116.3

  • 申请日2015-04-17

  • 分类号G06F17/30(20060101);G06F21/62(20130101);

  • 代理机构

  • 代理人

  • 地址 130022 吉林省长春市南关区南湖大路2222号

  • 入库时间 2023-12-18 09:43:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-03

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20171201 终止日期:20190417 申请日:20150417

    专利权的终止

  • 2017-12-01

    授权

    授权

  • 2015-08-05

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150417

    实质审查的生效

  • 2015-07-08

    公开

    公开

说明书

技术领域

本申请涉及信息安全领域,涉及云计算环境中外包数据的可搜索加密机制,具体来说,是在混合云存储系统中提出了一种支持密文搜索结果高效排序的对称可搜索加密方案。

背景技术

随着云计算技术的日臻完善,云存储系统以其建设的低成本、存储的高可靠性、服务的便捷性、管理的高效性、以及应用的多样性诸多典型特征逐步走向成熟并成为用户托管其海量数据的首选方式。然而,数据存储的安全性,包括数据机密性、完整性、可用性、以及用户的隐私安全性,成为制约云存储系统广泛应用的首要因素;此外,云存储系统的可操作性也是制约其推广应用的一个重要方面,云存储系统不仅具有海量的存储空间,方便多用户托管数据至云端,更重要的是,其具有对外输出计算/存储/网络资源的能力,通过最大程度地发挥“云优势”,可以实现数据并行处理的高效性。可搜索加密机制能够实现加密数据的可操作性,即保证云存储系统安全性的前提下,通过关键词查询令牌完成加密数据的搜索操作,由“云”端返回满足查询条件的加密文件集,在本地解密后使用,这样的工作方式实现了“云”端安全存储与高效检索之间的有机统一。

可搜索加密机制可分为对称可搜索加密方法与公钥可搜索加密方法。对称可搜索的突出特点是加解密速度快、操作简单、易实现,不足之处是密钥管理复杂、运算操作简单、应用场景有限;公钥可搜索加密的突出特点是支持复杂的逻辑语句查询、密钥管理操作交由可信的管理机构完成,不足之处是加解密运算普遍涉及双线性对运算,计算过程繁琐、算法复杂度高、存储/带宽开销大。两者均假定云服务器威胁模型具有“诚信但好奇的”典型特征,即云服务器可忠实执行密文搜索协议并完成检索操作,但有能力通过查询项令牌、安全索引、加密文件集、访问历史试图推测、分析并得到用户数据的隐私信息。

参考现有的对称可搜索加密(Symmetric Searchable Encryption,SSE)算法,在密文检索的高效排序方面,典型的评价方式是top-k排序法,其是指搜索结果的前k项中用户查询关联度高的加密文件所占的比率。所以,综合当前可查的学术成果,不难发现,研究学者普遍将注意力投入在如何设计良好的排序方法,进而实现密文检索结果能够按照某种约束条件完成排序操作,方便数据检索方查阅、使用云端返回的文档集。其中涉及到对称可搜索加密机制SSE中的有效排序问题,主要有以下几篇文献/几种方法:

(1)A.Swaminathan,Y.Mao,G.M.Su,H.Gou,A.Varna,S.He,M.Wu,and D.Oard在2007年ACM StoargeSS′07conference发表的学术论文“Conf identiality-preserving Rank-ordered Search”,论文首次提出在远端不可信服务器上完成查询隐私保护的排序搜索结构图,借助词频与文档属性信息,通过保序加密(Order PreservingEncryption)、同态加密(Homomorphic Encryption)的方式实现加密文档与查询语句的相关度运算,输出加密检索结果列表。方案的不足之处有二,一是在加密搜索系统中使用保序加密/同态加密的方法构建内层加密运算模块,增大了计算复杂度,并且保序加密并不能达到良好的“一对多”映射效果,使得加密词频同样存在泄露隐私信息的风险;二是整个支持排序的加密搜索方案并没有典型的算法做支撑,对于加密搜索的全局过程描述并不清晰;

(2)Cong Wang,Ning Cao,Jin Li,Kui Ren,and Wenjing Lou在2010年ICDCS′10conference发表的学术论文“Secure RankedKeyword Search over Encrypted Cloud Data”,论文首次定义并研究加密云数据的安全、高效排序搜索算法,方案构建加密文档集的安全倒排索引,并使用改进的保序加密算法OPM处理隐藏关键词的词频信息,使得方案获得较高的安全等级,能够达到选择明文攻击的不可区分性(IND-CPA)。方案的不足之处在于只是解决单一关键词密文搜索的有效排序问题,并没有解决连接关键词查询语句的排序搜索问题;并且使用改进的保序加密算法OPM隐藏关键词词频项的数值信息,对于文档的元数据信息并没有考虑周全,排序方法的理论依据较为简单,即排序算法只是根据关键词项的词频信息完成相关度运算,输出排序后的加密文档集;

(3)Ning Cao,Cong Wang,Ming Li,Kui Ren,Wenjing Lou在2011年IEEE INFOCOM′11conference发表学术论文“Privacy-preserving Multi-keyword Ranked Search overEncrypted Cloud Data”,提出并验证支持隐私保护的加密云数据连接关键词排序搜索方案MRSE。方案选择使用“一致性匹配”原理尽可能多地获取加密文档集,进一步使用改进的“KNN内积相似度”运算定量评估相关文档的排序值。方案的不足之处在于关键词字典是静态的,当词项数量增加时并不能简单地对词典做动态调整,这一点也限制了MRSE方案不能够实现密文检索结果的动态排序;

(4)Ruixuan Li,Zhiyong Xu,Wanshang Kang,Kin Choong,Cheng-Zheng Xu在2013年ELSEVIER期刊Future GenerationComputer Systems发表学术论文“Efficient Multi-keyword RankedQuery over Encrypted Data in Cloud Computing”,方案首次考虑将关键词访问频率及文档中词项权重作为密文检索结果排序的可靠依据,实现连接关键词中具有较高权重的关键词所对应的加密文档能够以很高的概率置于返回列表的前k项中,云端提供满足数据用户检索需求的文档集。方案不足之处在于排序算法并没有考虑到数据用户的其他反馈信息,数据用户与云端的交互性不强,排序机制并没有强调“以数据用户为中心”的理念;而且方案MKQE没有实现云存储系统中各子安全机制的有效结合。

综上所述,当前的对称可搜索加密算法中对于检索结果排序方面研究只是停留在关键词项在文档中的属性信息,即TF×IDF数值,并没有很好地结合用户的查询需求以及检索特点,检索结果不具有动态可调性;此外,支持有效更新的安全索引构建是一项值得深入探讨的子课题,现有方案较少涉及安全索引的动态、弹性更新;最后,当前的支持结果排序的对称可搜索加密方案没有很好地将云存储系统中的其他安全机制进行有效结合,如重复数据删冗机制、数据持有性证明机制、以及可信删除机制,各安全机制间缺乏有效的融合。

因此,亟需设计一种对称可搜索加密机制,解决如下的技术问题:

(1)如何基于混合云存储系统设计全面、高效、安全、可靠的部署方案,将所述一种混合云存储系统中支持结果高效排序的对称可搜索加密方法应用于混合云存储系统中,通过关键词检索操作可获得所需的相关文档集。

(2)如何实现密文搜索结果的高效排序问题。如何设计合适的文档排序算法,并依托对应的排名计算模块,完成密文搜索结果的高效排序,输出按照一定规则排序并满足数据检索方查询需求的加密文档集,经解密后方可使用。

(3)如何进一步强化混合云存储系统的安全性,在突出强调密文搜索结果高效排序特征的同时,兼顾云存储系统中的重复数据删冗机制,以及安全索引的增、删、查、改操作,使得密文检索结果的高效排序方案能够在支持重复数据删冗的安全云存储系统中可靠运行,进而全面提高云存储系统的可操作性。

发明内容

针对现阶段云计算安全领域中对称可搜索加密机制的高效排序检索问题以及云存储系统中安全机制的有效融合问题,本发明结合倒排索引、Bloom Filter索引、保序加密、收敛加密等关键技术,提出一种混合云存储系统中支持结果高效排序的对称可搜索加密方法。

为达此目的,本发明采用以下技术方案:

一种混合云存储系统中支持结果高效排序的对称可搜索加密方法,包括如下步骤:

文档预处理步骤S110:数据所有方执行文档预处理操作生成外包文档集,对外包文档集中的每一份文档按序进行中文分词,词项正确性判断,位置信息提取,文档编号,文档词项的词频计算,最后生成表征外包文档集的特殊关键词集;

安全外包处理步骤S120:通过外包文档集析出的特殊关键词集,确定文档集对应的安全索引中的词项,计算词项陷门值,计算词项在文档集中的逆文档频率后,确定词项在此文档中的排名值,构建双层安全索引——第一层安全索引为文档集安全倒排索引,第二层安全索引为每份文档的Bloom Filter索引,最后将外包文档集与双层安全索引关联输出;

安全存储步骤S130:外包文档集安全加密,输出密文文档集,在与双层安全索引有效关联后,数据所有方将加密文档集/双层安全索引托管存储在公有云平台中,公有云平台返回安全存储凭证,外包操作完毕;

安全查询处理步骤S140:将数据检索方的查询语句作为输入,在数据所有方共享密钥控制下,进行查询词项陷门值计算操作,并通过查询词项的属性分析,扩展查询词项集,最终输出扩展化查询陷门集;

排序检索步骤S150:将扩展化查询词项陷门集与外包文档集的双层安全索引作为输入,在公有云平台的双层安全索引上执行密文搜索操作,得到包含查询词项陷门值的加密文档集,在充分考虑到词项分数权重值、位置权重值、属性权重值基础之上,输出按照相关度从高至低的密文搜索结果列表,在本地解密后,可对数据做进一步使用。

优选地,所述数据所有方与所述数据检索方已完成身份认证,并获得相应访问权限,共享密钥已通过安全信道实现可靠分发,密钥管理系统基于安全访问机制实现多用户的密钥共享功能。

优选地,文档预处理步骤S110可以包括如下子步骤:

生成外包文档集:数据所有方将需外包至公有云平台中的文档做归档处理,生成此次数据外包的文档集D=(D1,D2,D3...Dm);

中文分词:利用中文分词技术,将外包文档集中的每一份文档按照最小中文词语粒度的分割要求,分词输出表征文档集内容的关键词集;

词项正确性判定:由预先设定的关键词库作为词项正确性判定标准,匹配确定关键词集中各词项的合法性;若存在非法词项,则存储于非法词项库,指导此后中文分词的正确性操作;

词项输出:最终确定关键词集中的词项元素,记为W=(W1,W2,W3,...Wn),并统计特殊关键词及其出现的总次数,所述特殊关键词为关键词集中彼此不相同的词项;

位置信息提取:确定特殊关键词在其对应文档中的位置信息,主要的位置信息包括文档标题、摘要、关键词、正文段首、正文段中、正文断后、结论、文章内容简介诸多位置信息,此步骤用于确定关键词的位置权重值;

文档编号分配:为外包文档集中每一份文档分配唯一的文档编号ID,此文档编号与对应文档建立一一映射关系,确定特殊关键词与文档编号的从属关系;

文档词项的词频计算:计算文档编号为IDi中特殊关键词的出现次数以及各位置信息中特殊关键词的出现频数;

文档集/关键词集输出:输出外包文档集以及与之对应关联的关键词集。

优选地,在生成外包文档集和中文分词之间还可以进行唯一性判断子步骤:将外包至公有云存储平台中的文档集经元数据过滤操作,提取文档的元数据信息,包括文档名称、大小、类型、格式、创建时间、访问权限、所有者签名、以及文档报文摘要(MAC),并将此类信息存储于元数据库,用于文档集元数据提取的优化选择;文档集中每一份文档经收敛加密处理后,生成标识文档唯一性的数字标签,附于该文档信息之后,通过文档标签校验的方式完成外包文档的冗余性检测。

优选地,安全外包处理步骤S120包括如下子步骤:

词项陷门值计算:特殊关键词集W=(W1,W2,W3,...Wn)作为输入,在安全密钥K=(k1,k2,k3...kn)控制下,由单向陷门计算函数f(x)运算后输出词项的陷门值Trpdr(Wi)=f(Wi);

词项逆文档频率计算:计算特殊关键词集中每一词项Wi在外包文档集D=(D1,D2,D3...Dm)中的逆文档频率,具体来说,即按照公式计算数值:>IDFWi=log(ΣiNDi,DiD/ΣkNDk,WiDk),>其中,为外包文档集中文档总数,为包含词项Wi的文档总数;

词项TF×IDF值计算:将特殊关键词Wi在文档Dj中的词频TF值与文档集中的逆文档频率IDF值做乘积运算,得到该词项的分数权重值;

双层安全索引构建:对于特殊关键词集中的每一词项Wi,建立第一层倒排索引,其中倒排列表中的每一项内容是表征对应文档特征的信息,由两部分内容组成,分别是对应项文档编号IDi以及词项的分数权重值Score(Wi,Dj);第二层索引为文档Bloom Filter索引,使用计数型Bloom Filter完成文档Dj中具备位置信息权重关键词的文档索引构建操作;双层索引内容分别在保序加密函数与伪随机函数处理下实现双层安全索引的具体构建;

安全索引输出:双层索引经加密处理后,输出双层安全索引,用于外包文档集的高效检索;

索引/文档关联输出:建立双层安全索引与外包文档集之间的对应关系,即实现安全索引中文档编号与外包文档的一一映射关系,输出关联于外包文档的双层安全索引。

优选地,安全存储步骤S130包括如下子步骤:

外包文档集加密:在密钥KEnc控制下,采用传统对称加密算法并行计算与处理外包文档集D=(D1,D2,D3...Dm),输出加密文档集F=(F1,F2,F3...Fm),值得注意的是,文档集加密操作独立于双层安全索引的构建过程,即文档集加密与双层索引加密不具有关联性,两者之间不可能通过多项式时间算法推导得到;

加密文档集/安全索引关联存储:将外包加密文档集与双层安全索引有效关联后,依托可扩展的、拥有海量存储空间的公有云服务器集群,完成数据所有方外包文档集的安全、可靠托管;

公有云安全存储凭证:公有云平台将外包加密文档集、双层安全索引、数据外包完毕时间、以及数据所有方名称作为安全存储凭证的计算输入量,输出此次数据托管的安全存储凭证;

返回安全存储凭证:公有云平台将此次数据外包凭证返回至数据所有方,文档集安全外包与可信托管任务完毕。

优选地,安全查询处理步骤S140包括如下子步骤:

查询词项输入:数据检索方提出基于关键词的文档检索请求,该查询语句可由单一关键词(single keyword)、连接关键词(conjunctive keyword)、分割关键词(disjunctive keyword))组成,查询语句能够准确表征数据检索方的检索需求;

共享密钥接收与存储:数据检索方与数据所有方进行密钥协商与授权认证,共享密钥通过安全的传递方式传输至数据检索方;

词项属性分析:针对查询关键词的属性信息,获取并确定查询语句中词项的属性特征;

检索历史记录:记录数据检索方的基于关键词查询历史,并通过与历史数据库交互,实现历史数据库的查新比较以及记录更新;

兴趣爱好关联分析:基于机器学习和数据挖掘技术,通过数据检索方的查询历史,关联分析数据用户的兴趣爱好,并完成关联数据库的查新比较与记录更新;

同义/近义词项集扩展:将查询关键词作为输入,通过词项同义/近义扩展,增加查询关键词集合中的关联词项,并通过与同义/近义数据库交互,实现查新比较与记录更新;

查询词项语义扩展:查询关键词作为语义扩展输入,通过潜在语义标引(Latent Semantic Indexing,LSI)方法,扩展查询关键词对应的集合中的关联词项,并通过与语义扩展数据库交互,实现查新比较与记录更新;

查询词项集陷门计算:扩展化查询关键词集以及共享密钥作为输入,在与双层安全索引构建中使用相同的单向陷门计算函数f(x)的运算操作下,输出查询词项的安全陷门集;

陷门元数据提取:提取查询陷门集中词项的元数据,其中元数据是指查询陷门的内容、长度、类型、以及时间的特征信息,并将元数据存储于陷门数据库中;

陷门集内容扩展:经过陷门值计算输出扩展化的查询陷门集,实现了查询陷门值的同义、近义和语义扩展;

陷门集内容整合:通过与陷门数据库交互,完成查询陷门集中各陷门值的有效整合,删除冗余项,确定陷门集中的元素;

查询陷门集输出:最终输出查询词项的安全陷门集,作为在双层安全索引上执行密文搜索操作的输入项内容之一。

优选地,排序检索步骤S150包含如下子步骤:

排序密文搜索输入:数据检索方获得外包文档集的安全访问权限后,将扩展化查询陷门集以及外包文档集的双层安全索引作为排序密文搜索的输入项内容;

查找第二层安全索引:匹配查找第一层安全倒排索引列表中的对应词项的陷门值,并得到包含该查询陷门的文档列表,以及该词项陷门值在文档中的分数权重值;

查找第二层安全索引:确定文档第二层Bloom Filter安全索引中该词项的语义/位置权重值;

查询词项的属性权重值确定:计算扩展化查询词项集中陷门的权重值,定位各查询陷门的排名优先顺序;

排序搜索有效计算:将查询词项的分数权重值、位置权重值和属性权重值作为输入,按照排序计算准则,确定包含该词项陷门的加密文档集中各文档的排名顺序;

输出排序的密文搜索结果:公有云平台返回排序的密文搜索文档结果列表至文档检索方,查询结果在本地解密后方可使用。

优选地,所述安全外包处理步骤和所述安全查询处理步骤由私有云平台完成。

优选地,所述私有云平台与所述公有云平台均由服务器集群组成,所述私有云平台提供安全计算服务,能够达到适应性选择关键词攻击的不可区分性。

本发明的双层安全索引的构建服务于密文检索的高效排序,并能够支持动态索引的增、删、查、改操作;数据用户的检索历史与检索兴趣作为密文搜索排序的“主观特征”参与检索结果的排序计算;通过在文档预处理步骤中增加文档唯一性检验步骤,实现数据重复性删冗机制,确保数据所有方文档集外包的高效性,为提高公有云的存储空间利用率提供技术支持。

附图说明

图1是根据本发明的具体实施例的混合云存储系统中的各方关系图;

图2是根据本发明的具体实施例的混合云存储系统中支持结果排序的对称可搜索加密方法的流程图;

图3是根据本发明的具体实施例的文档预处理步骤的流程图;

图4是根据本发明的具体实施例的安全外包处理步骤的流程示意图;

图5是根据本发明的示范性实施例中的双层安全索引的结构图;

图6是根据本发明的具体实施例的计算与处理步骤的具体流程图;

图7是根据本发明的具体实施例的安全存储步骤的具体流程图;

图8是根据本发明的具体实施例的安全查询处理步骤的具体流程图;

图9是根据本发明的具体实施例的排序检索步骤的具体流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

参见图1,公开了根据本发明的具体实施例的混合云存储系统中的各方关系图,包括

数据所有方T110:

数据所有方拥有海量的文档集(TB~PB数量级)资料,为减少硬件存储设备购买、维护成本、降低本地管理开销,选择文档集资料外包的“云服务”模式,将己方数据托管至公有云存储环境中,享用“云环境”中高效管理、安全托管、即取即用的数据库即服务(Database asa Service,DaaS);

数据检索方T120:

数据检索方提出基于关键词查询的文档检索请求,由“云”服务器执行完毕密文搜索任务后,返回经加密文档与查询陷门相关度排序后的搜索结果列表,在本地解密后进一步使用;

私有云平台T130:

根据数据所有方和数据检索方的不同计算任务与计算复杂度,可分别选择合适的私有云平台,完成大规模复杂计算任务,降低数据用户端的计算、存储、网络开销。具体来说,私有云平台可承担外包数据集加密、安全索引构建、文档/索引关联、以及查询陷门生成任务;

公有云平台T140:

公有云平台承担安全存储、密文搜索、结果排序一系列任务,其可与私有云平台信息交互,完成文档安全外包、返回外包凭证、接收搜索请求、输出排序结果一系列操作,并能够向数据所有方提供外包存储凭证以及向数据检索方提供密文搜索凭证;

通常而言,数据所有方是指政府部门、企业单位、事业公司、个人用户,他们拥有大规模的数据需要外包存储至公有云平台,其中不乏涉及隐私秘密的信息,例如政府文件、企业财政报表、医疗数据记录、以及个人隐私图片等;数据检索方可由数据所有方来充当,即数据所有方也能进行检索,其他数据用户也可向公有云存储平台发出文档查询请求,也能够成为数据所有方。

私有云平台指的是能够满足安全计算服务,能够达到适应性选择关键词攻击的不可区分性(In-dependable In-distinguish-abilityagainst Chosen Keyword Attack,IND2-CKA)的云计算平台,该云平台可以是单独存在,例如由规模较小、可信度高、信誉良好、技术精湛的企业公司完成构建,也可以属于混合的云计算存储平台的一部分,即混合云计算存储平台包括私有云平台和公有云平台,私有云平台实现上述的加密安全计算,整体上实现一种混合的云计算存储平台。混合云计算存储平台的构建则依托国内的互联网巨头公司得以实现,例如阿里云、百度云、腾讯云等。

参见图2,示出了一种混合云存储系统中支持结果高效排序的对称可搜索加密方法的流程图,包括如下步骤:

文档预处理步骤S110:数据所有方执行文档预处理操作生成外包文档集,对外包文档集中的每一份文档按序进行中文分词,词项正确性判断,位置信息提取,文档编号,文档词项的词频计算,最后生成表征外包文档集的特殊关键词集;

安全外包处理步骤S120:通过外包文档集析出的特殊关键词集,确定文档集对应的安全索引中的词项,计算词项陷门值,计算词项在文档集中的逆文档频率后,确定词项在此文档中的排名值,构建双层安全索引——第一层安全索引为文档集安全倒排索引,第二层安全索引为每份文档的Bloom Filter索引,最后将外包文档集与双层安全索引关联输出。

在图1中,安全外包处理步骤S120可以由数据所有方可信的私有云平台中完成的;若在没有私有云平台的存储环境中,则该步骤亦可有数据所有方完成。根据所要处理的数据容量,以及是否有私用云平台来综合选择。

由于私有云平台较公有云平台具有一定数据隐私保护能力,则数据所有方选择将数据计算交由私有云平台执行。利用私有云平台处理数据,可在支持隐私保护的条件下,显著提高数据处理速度,减少数据所有方的本地计算压力。

安全存储步骤S130:外包文档集安全加密,输出密文文档集,在与双层安全索引有效关联后,数据所有方将加密文档集/双层安全索引托管存储在公有云平台中,公有云平台返回安全存储凭证,外包操作完毕。

安全查询处理步骤S140:将数据检索方的查询语句作为输入,在数据所有方共享密钥控制下,进行查询词项陷门值计算操作,并通过查询词项的属性分析,扩展查询词项集,最终输出扩展化查询陷门集。

同安全外包处理步骤S120,安全查询处理步骤S140可以由数据所有方可信的私有云平台中完成的;若在没有私有云平台的存储环境中,则该步骤亦可有数据所有方完成。根据所要处理的数据容量,以及是否有私用云平台来综合选择。通常来说,如果安全外包步骤S120由私有云平台完成,则安全查询处理步骤S140也由私有云平台完成。如果安全外包步骤S120由数据所有方完成,则安全查询处理步骤S140也由数据查询方完成。

排序检索步骤S150:将扩展化查询词项陷门集与外包文档集的双层安全索引作为输入,在公有云平台的双层安全索引上执行密文搜索操作,得到包含查询词项陷门值的加密文档集,在充分考虑到词项分数权重值、位置权重值、属性权重值基础之上,输出按照相关度从高至低的密文搜索结果列表,在本地解密后,可对数据做进一步使用。

如上所述,以上五大步骤依托混合云存储系统得以部署与实施。总的来看,五大步骤可宏观地概括为两大步骤:安全外包与密文搜索。各方实体通过具体的操作方法,实现文档集的加密存储、安全托管、扩展查询、以及排序搜索功能,有效提高了安全云存储系统的可用性。

其中,所述数据所有方与所述数据检索方已完成身份认证,并获得相应访问权限,同时假定共享密钥已通过安全信道实现可靠分发,密钥管理系统基于安全访问机制实现多用户的密钥共享功能。

所述私有云平台与所述公有云平台均由服务器集群组成,拥有强大的海量数据高效并行处理能力以及分布式可扩展存储能力,同时具有“诚实但好奇”特征,即数据处理与存储环境为一种“半可信”环境;此外,所述私有云平台相较于公有云平台,能够在一定程度上满足所述数据所有方/数据检索方隐私保护要求,具体来说,所述私有云平台提供安全计算服务,能够达到适应性选择关键词攻击的不可区分性(In-dependable In-distinguish-ability against ChosenKeyword Attack,IND2-CKA)。

对于文档预处理步骤S110,针对外包文档集的预处理操作,是实现数据安全托管的首要步骤。文档预处理操作通常由数据所有方在本地完成,亦可交由私有云平台并行、高效处理。

进一步优选地,如图3所示,文档预处理步骤S110可以包括如下子步骤:

生成外包文档集:数据所有方将需外包至公有云平台中的文档做归档处理,生成此次数据外包的文档集D=(D1,D2,D3...Dm);

中文分词:利用中文分词技术,将外包文档集中的每一份文档按照最小中文词语粒度的分割要求,分词输出表征文档集内容的关键词集;

词项正确性判定:由预先设定的关键词库作为词项正确性判定标准,匹配确定关键词集中各词项的合法性;若存在非法词项,则存储于非法词项库,指导此后中文分词的正确性操作;

词项输出:最终确定关键词集中的词项元素,记为W=(W1,W2,W3,...Wn),并统计特殊关键词及其出现的总次数,所述特殊关键词为关键词集中彼此不相同的词项;

位置信息提取:确定特殊关键词在其对应文档中的位置信息,主要的位置信息包括文档标题、摘要、关键词、正文段首、正文段中、正文断后、结论(总结)、文章内容简介诸多位置信息,此步骤用于确定关键词的位置权重值;

文档编号分配:为外包文档集中每一份文档分配唯一的文档编号ID,此文档编号与对应文档建立一一映射关系,确定特殊关键词与文档编号的从属关系;

文档词项的词频计算:计算文档编号为IDi中特殊关键词的出现次数(词频计算)以及各位置信息中特殊关键词的出现频数;

文档集/关键词集输出:输出外包文档集以及与之对应关联的关键词集。

进一步优选的,参见图3,在生成外包文档集和中文分词之间还可以进行唯一性判断子步骤,以实现外包的重复数据删冗功能。具体来说:将外包至公有云存储平台中的文档集经元数据过滤操作,提取文档的元数据信息,包括文档名称、大小、类型、格式、创建时间、访问权限、所有者签名、以及文档报文摘要(MAC),并将此类信息存储于元数据库,用于文档集元数据提取的优化选择;文档集中每一份文档经收敛加密处理后,生成标识文档唯一性的数字标签,附于该文档信息之后,通过文档标签校验的方式完成外包文档的冗余性检测。文档标签库的构建可进一步优化文档数字标签的匹配操作,通过数字标签的一致性判定,确定文档集中各元素是否已经在云端托管存储,进而有效提高云端的空间存储利用率,进而实现对称可搜索加密机制与重复数据删冗安全机制的有效融合。

安全外包处理步骤S120是实现文档集安全索引构建的核心环节,基于安全索引的支持隐私保护的密文搜索相较于密文线性搜索方法而言,在排序搜索、查询效率、准确率方面会有突出的优势。

进一步优选地,图5示出了一种示例性的双层安全索引的详细结构图。如图4所示,安全外包处理步骤S120可以包括如下子步骤:

词项陷门值计算:特殊关键词集W=(W1,W2,W3,...Wn)作为输入,在安全密钥K=(k1,k2,k3...kn)控制下,由单向陷门计算函数f(x)运算后输出词项的陷门值Trpdr(Wi)=f(Wi);

词项逆文档频率计算:计算特殊关键词集中每一词项Wi在外包文档集D=(D1,D2,D3...Dm)中的逆文档频率,具体来说,即按照公式计算数值:>IDFWi=log(ΣiNDi,DiD/ΣkNDk,WiDk),>其中,为外包文档集中文档总数,为包含词项Wi的文档总数;

词项TF×IDF值计算:将特殊关键词Wi在文档Dj中的词频TF值与文档集中的逆文档频率IDF值做乘积运算,得到该词项的分数权重值,即>Score(Wi,Dj)=[(1+lnTFWi,Dj)·ln(1+IDFWi)]/|Dj|;>

双层安全索引构建:对于特殊关键词集中的每一词项Wi,建立第一层倒排索引,其中倒排列表(倒排列表是倒排索引中的一个子部分,其功能是记录倒排项的具体属性信息,包括位置信息、词频信息、文档编号等。)中的每一项内容是表征对应文档特征的信息,由两部分内容组成,分别是对应项文档编号IDi以及词项的分数权重值Score(Wi,Dj);第二层索引为文档Bloom Filter索引,使用计数型Bloom Filter完成文档Dj中具备位置信息权重关键词的文档索引构建操作;双层索引内容分别在保序加密函数与伪随机函数处理下实现双层安全索引的具体构建;

安全索引输出:双层索引经加密处理后,输出双层安全索引,用于外包文档集的高效检索;

索引/文档关联输出:建立双层安全索引与外包文档集之间的对应关系,即实现安全索引中文档编号与外包文档的一一映射关系,输出关联于外包文档的双层安全索引。

值得注意的是,通过构建安全索引库,能够进一步实现索引的低成本动态更新,即基于安全索引构建历史的索引库能够在无需重新构建外包文档集的安全索引的基础之上支持索引词条的查找、增加、删除操作,索引处理高效、简单、易行。

图6中示例性的示出了,安全外包处理步骤S120以及安全查询处理步骤S140中的双层安全索引计算/查询陷门计算在私有云平台上计算的过程。

双层安全索引计算/查询陷门计算:数据所有方/数据检索方将复杂的数据计算与处理任务分类与打包,外包至所选择信任的私有云平台,进而完成双层安全索引的构建以及基于关键词查询陷门的生成;

私有云平台处理:依托具有强大数据并行处理能力且支持数据所有方/数据检索方数据隐私保护的私有云平台,在私有云服务器集群中完成安全索引构建与查询陷门生成操作;

平台结果处理输出:将私有云平台的数据处理结果打包,分别将双层安全索引与查询陷门集回传至数据用户(数据所有方/数据检索方),并同时将私有云平台中的隐私数据删除,发送隐私数据处理与删除凭证至数据用户;

在该操作步骤中,私有云平台具有提供海量数据并行处理能力,能够高效处理复杂的加密运算以及生成双层安全索引/查询陷门集;此外,私有云平台还具有数据隐私保护能力,能够在完成数据运算操作之后,及时可信删除相关的用户数据,并发送数据处理与数据删除凭证至数据用户。

图7示例性的示出了安全存储步骤S130的详细过程:

安全存储步骤S130包括如下子步骤:

外包文档集加密:在密钥KEnc控制下,采用传统对称加密算法并行计算与处理外包文档集D=(D1,D2,D3...Dm),输出加密文档集F=(F1,F2,F3...Fm),值得注意的是,文档集加密操作独立于双层安全索引的构建过程,即文档集加密与双层索引加密不具有关联性,两者之间不可能通过多项式时间算法推导得到;

加密文档集/安全索引关联存储:将外包加密文档集与双层安全索引有效关联后,依托可扩展的、拥有海量存储空间的公有云服务器集群,完成数据所有方外包文档集的安全、可靠托管;

公有云安全存储凭证:公有云平台将外包加密文档集、双层安全索引、数据外包完毕时间、以及数据所有方名称作为安全存储凭证的计算输入量,输出此次数据托管的安全存储凭证;

返回安全存储凭证:公有云平台将此次数据外包凭证返回至数据所有方,文档集安全外包与可信托管任务完毕。

图8示例性的示出了安全查询处理步骤S140的详细过程:

安全查询处理步骤S140包括如下子步骤:

查询词项输入:数据检索方提出基于关键词的文档检索请求,该查询语句可由单一关键词(single keyword)、连接关键词(conjunctive keyword)、分割关键词(disjunctive keyword))组成,查询语句能够准确表征数据检索方的检索需求;

共享密钥接收与存储:数据检索方与数据所有方进行密钥协商与授权认证,共享密钥通过安全的传递方式传输至数据检索方;

词项属性分析:针对查询关键词的属性信息,获取并确定查询语句中词项的属性特征;

检索历史记录:记录数据检索方的基于关键词查询历史,并通过与历史数据库交互,实现历史数据库的查新比较以及记录更新;

兴趣爱好关联分析:基于机器学习和数据挖掘技术,通过数据检索方的查询历史,关联分析数据用户的兴趣爱好,并完成关联数据库的查新比较与记录更新;

同义/近义词项集扩展:将查询关键词作为输入,通过词项同义/近义扩展,增加查询关键词集合中的关联词项,并通过与同义/近义数据库交互,实现查新比较与记录更新;

查询词项语义扩展:查询关键词作为语义扩展输入,通过潜在语义标引(Latent Semantic Indexing,LSI)方法,扩展查询关键词对应的集合中的关联词项,并通过与语义扩展数据库交互,实现查新比较与记录更新;

查询词项集陷门计算:扩展化查询关键词集以及共享密钥作为输入,在与双层安全索引构建中使用相同的单向陷门计算函数f(x)的运算操作下,输出查询词项的安全陷门集;

陷门元数据提取:提取查询陷门集中词项的元数据,其中元数据是指查询陷门的内容、长度、类型、以及时间一系列特征信息,并将元数据存储于陷门数据库中;

陷门集内容扩展:经过陷门值计算输出扩展化的查询陷门集,实现了查询陷门值的同义、近义和语义扩展;

陷门集内容整合:通过与陷门数据库交互,完成查询陷门集中各陷门值的有效整合,删除冗余项,确定陷门集中的元素;

查询陷门集输出:最终输出查询词项的安全陷门集,作为在双层安全索引上执行密文搜索操作的输入项内容之一。

如前所述,安全查询处理步骤S140也可以由私有云平台完成。

图9示例性的示出了排序检索步骤S150的详细过程:

排序检索步骤S150包含如下子步骤:

排序密文搜索输入:数据检索方获得外包文档集的安全访问权限后,将扩展化查询陷门集以及外包文档集的双层安全索引作为排序密文搜索的输入项内容;

查找第二层安全索引:匹配查找第一层安全倒排索引列表中的对应词项的陷门值,并得到包含该查询陷门的文档列表(文档编号的形式),以及该词项陷门值在文档中的分数权重值;

查找第二层安全索引:确定文档第二层Bloom Filter安全索引中该词项的语义/位置权重值;

查询词项的属性权重值确定:计算扩展化查询词项集中陷门的权重值,定位各查询陷门的排名优先顺序;

排序搜索有效计算:将查询词项的分数权重值、位置权重值和属性权重值作为输入,按照排序计算准则,确定包含该词项陷门的加密文档集中各文档的排名顺序;

输出排序的密文搜索结果:公有云平台返回排序的密文搜索文档结果列表至文档检索方,查询结果在本地解密后方可使用。

本领域技术人员应当知道,词项陷门值与陷门值的权重值不一样:词项陷门值是指关键词作为输入,在陷门函数运算之后,输出的加密形式的词项,陷门值即为输出值;陷门值的权重值是指陷门值在整个加密文档中的信息重要程度,其份量是通过权重计算公式得以计算衡量的。

该步骤完成密文搜索结果的高效排序任务,是双层安全索引构建与查询陷门集生成的现实应用,直接用来检验所设计方案的可用性,通过数据检索方的查询满意度客观衡量排序密文检索方案的优越性。

综上,本发明具有如下优点:

1.基于倒排索引与Bloom Filter索引构建双层、高效、动态的安全索引结构,提供外包文档集的“客观特征”,并作为安全排序搜索的依据之一;

2.查询处理能够完成检索历史记录、兴趣爱好关联分析、查询词项同义/近义/语义扩展操作,提供数据用户的“主观特征”,并作为安全排序搜索的依据之一;

3.本发明同时兼容重复数据删冗操作,即在文档预处理过程中完成外包文档的唯一性检测,在源端避免相同文档的重复外包加密上传操作,提高安全云存储系统的存储利用率,实现云存储系统中对称可搜索加密机制与重复数据删冗机制的有效融合。

显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号