首页> 中国专利> 一种语义理解的密文空间关键字检索方法及系统

一种语义理解的密文空间关键字检索方法及系统

摘要

本发明公开了一种语义理解的空间关键字密文检索方法及系统,包括密钥模块、语义信息提取模块、加密索引构建模块、陷门生成模块和查询模块。通过提取空间对象和用户查询的语义特征,使用户可以在密文上查询到符合自己查询意图并且距离近的空间对象。此发明采用的密文索引构建方式提高了密文空间关键字检索的精度,同时满足了用户针对距离和文本的查询需求。此外,本方案的密文查询算法在保证了空间对象数据以及用户检索信息的安全性和隐私性的同时提高了查询效率。

著录项

  • 公开/公告号CN112257455A

    专利类型发明专利

  • 公开/公告日2021-01-22

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN202011135390.5

  • 申请日2020-10-21

  • 分类号G06F40/30(20200101);G06F16/31(20190101);G06F16/33(20190101);G06F21/60(20130101);G06F21/62(20130101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人陈翠兰

  • 地址 710071 陕西省西安市雁塔区太白南路2号

  • 入库时间 2023-06-19 09:38:30

说明书

技术领域

本发明涉及可搜索加密技术领域,具体为一种语义理解的密文空间关键字检索方法及系统。

背景技术

空间关键字检索涉及大量的空间对象数据,其查询过程需要耗费大量计算开销。此时,数据拥有者往往选择将空间对象数据外包至云服务器,让云服务器来进行存储和计算。然而,由于数据拥有者丧失了对外包数据的直接控制,数据安全性和隐私性无法得到保障。尤其是空间对象数据中包含位置坐标等敏感信息,对空间对象数据进行加密必不可少。

传统的空间关键字查询算法只针对明文数据,用户无法直接查询云服务器中存储的密文数据。其次,传统的空间关键字查询算法也无法提取用户检索的关键字的语义信息,导致无法获取用户查询意图,查询精确度不高。

钱志虎在其发表的论文“基于语义理解的空间关键字查询”(苏州大学.2018)中提出了一种基于语义理解的空间关键字查询方法。该方法在传统的空间关键字查询基础上加入了对空间对象文本描述的语义信息提取。其具体方法为,针对文本语义,利用隐含狄利克雷分布主题模型(LDA模型)提取文本语义特征。但该方法只支持明文查询,无法保护数据拥有者的隐私。

西安电子科技大学在其申请的专利文献“单一用户环境下基于细粒度排序的数据密文查询方法”中公开了一种单一用户环境下基于细粒度排序的数据密文查询方法,该方法存在的不足之处是:无法提取数据使用者查询中的语义信息,导致搜索准确率受限。且该方案中的文档索引是与字典同样长度的向量。其维数较大,导致计算开销大,查询效率低。

发明内容

针对现有技术中存在的问题,本发明提供一种语义理解的密文空间关键字检索方法,该方法在利用可搜索加密算法和自然语言处理模型,实现对密文空间对象文本和距离的混合查询,提高查询精度和效率。

本发明是通过以下技术方案来实现:

一种语义理解的密文空间关键字检索方法,包括以下步骤:

步骤1、生成AES密钥,以及可搜索加密算法密钥;

步骤2、提取空间对象文本描述的文本-主题概率分布向量,以及每个词语在主题上的词语-主题概率分布向量,根据文本-主题概率分布向量确定出文本集-主题概率分布向量,根据文本-主题概率分布向量和词语-主题概率分布向量确定词语在文本集上的词语-文本集概率分布向量;

步骤3、根据空间对象的文本-主题概率分布向量和对应空间位置坐标,给每个空间对象构建明文索引,并对明文索引进行加密,形成密文索引;

步骤4、根据步骤2中得到的文本集-主题概率分布向量、词语-主题概率分布向量以及词语-文本集概率分布向量,提取查询语句中关键字的查询-主题概率分布向量,将数据使用者的空间位置坐标与查询-主题概率分布向量结合生成查询向量,采用可搜索加密算法密钥对查询向量进行加密,得到查询陷门;

步骤5、根据查询陷门和密文索引确定空间对象与查询语句之间的混合相似度并排序,将排序靠前的k个密文索引对应的空间对象的加密数据发送给数据使用者,数据使用者利用AES密钥对其解密。

优选的,步骤2利用自然语言处理模型提取每个空间对象的文本描述在各个主题上的文本-主题概率分布向量V

优选的,步骤2中确定词语-文本集概率分布向量的方法如下:

数据拥有者将所有对象文本描述的文本-主题概率分布向量V

数据拥有者根据文本集-主题概率分布向量P

优选的,步骤3中构建密文索引的方法如下:

将空间对象位置坐标添加在文本-主题概率分布向量

优选的,所述扩充后的明文索引

分割规则如下:若可搜索加密算法密钥SK中的二进制向量S的第j位为0,

加密过程如下:用可搜索加密算法密钥SK中的{M

优选的,步骤4中所述查询语句中关键字的查询-主题概率分布向量Q

其中,P

优选的,步骤4中所述查询向量Q的加密方法如下,

首选对查询向量Q的维度进行扩充,得到扩充后的查询向量

分割规则如下:若可搜索加密算法密钥SK中的二进制向量S的第i位为1,

加密过程如下:用可搜索加密算法密钥SK中的{M

优选的,步骤5中混合相似度的计算方法如下:

其中:

优选的,所述密文数据,采用AES密钥对各个空间对象的名称、地理位置坐标和文本描述数据进行AES加密形成加密数据。

一种语义理解的密文空间关键字检索方法的系统,包括密钥模块、语义信息提取模块、加密索引构建模块、陷门生成模块和查询模块;

密钥模块,用于数据拥有者生成AES密钥和可搜索加密算法密钥,并将可搜索加密算法密钥发送至数据使用者;

语义信息提取模块,利用自然语言处理模型提取每个空间对象文本在各个主题下出现的文本-主题概率分布向量,以及每个词语在各个主题上出现的词语-主题概率分布向量,并根据文本-主题概率分布向量计算出文本集-主题概率分布向量,再根据文本集-主题概率分布向量和词语-主题概率分布向量确定各个词语在文本集中出现的词语-文本集概率分布向量;

加密索引构建模块,用于数据拥有者根据空间对象的文本-主题概率分布向量和空间位置坐标为每个空间对象构建明文索引,并利用可搜索加密算法对明文索引进行加密,同时将每个空间对象的数据进行AES加密,最后将加密形成的密文索引和密文数据发送给云服务器;

陷门生成模块,用于数据使用者根据文本集-主题概率分布向量、词语-主题概率分布向量以及词语-文本集概率分布向量,提取查询语句的查询-主题概率分布向量Q

查询模块,用于云服务器对查询陷门和各个空间对象的密文索引进行混合相似度计算并进行排序,将排序前k个对象的加密文件发送给数据使用者。与现有技术相比,本发明具有以下有益的技术效果:

本发明提供的一种语义理解的密文空间关键字检索方法,根据空间对象的文本-主题概率分布向量和对应空间位置坐标利用可搜索加密算法构建密文索引,保证空间对象文本描述和位置坐标的安全性和隐私性,将数据使用者的空间位置坐标与查询-主题概率分布向量结合生成查询向量,并对其加密生成查询陷门,从而保护查询信息。整体方案达到了外包数据隐私保护的要求,采用文本的主题概率分布构建空间对象索引,与现有技术基于字典实现关键字密文检索相比,具有计算开销小,查询准确率高且支持语义感知的优点。通过提取空间对象文本描述和用户查询语句的语义特征,使用户可以在密文上查询到符合自己查询意图并且距离近的空间对象,提高了密文空间关键字检索的效率,保证了空间文本数据以及用户检索信息的安全性和隐私性,并提高了查询效率。

附图说明

图1为本发明检索方法的流程图;

图2为本发明空间对象索引生成流程图;

图3为本发明查询陷门生成流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。

参阅图1,一种语义理解的密文空间关键字检索方法,包括以下步骤:

步骤1、数据拥有者生成AES密钥sk

AES密钥sk

可搜索加密算法密钥SK包含随机生成的二进制向量S、可逆矩阵M

步骤2、数据拥有者采用属于自然语言处理模型的LDA主题模型来提取空间对象文本描述中的语义特征,得到每个空间对象文本描述对应的文本-主题概率分布向量V

参阅图2,具体过程如下:

S2.1数据拥有者对每个空间对象的文本描述进行预处理,首先将文本中标点符号、特殊字符以及无含义词去除,再对单词进行词干提取,最后将文本描述向量化;

S2.2数据拥有者将预处理后的文本用于训练LDA(LatentDirichletAllocation)主题模型,LDA主题模型输出每个空间对象的文本描述在各个主题上的概率分布向量(文本-主题概率分布向量)V

S2.3数据拥有者以文本-主题概率分布向量V

S2.4数据拥有者将所有对象文本描述的主题概率分布向量V

S2.5数据拥有者根据主题在文本集出现的概率向量P

P

步骤3、根据空间对象的文本-主题概率分布向量V

具体的,将空间对象位置坐标添加在主题概率分布向量V

具体过程如下(以第i个空间对象为例):

S3.1数据拥有者将第i个空间对象o

S3.2对明文索引D

S3.3数据拥有者利用可搜索加密算法密钥SK将空间对象的数据向量

分割规则如下:若S的第j位为0,

加密过程如下:数据拥有者用可搜索加密算法密钥SK中的{M

S3.5数据拥有者利用AES密钥对各个空间对象的名称、地理位置坐标和文本描述数据进行AES加密,形成加密数据;

S3.6数据拥有者将加密数据和密文索引上传到云服务器上。

S3.7数据拥有者将词语-主题概率分布向量、文本集-主题概率分布向量以及词语-文本集概率分布向量发送至数据使用者,作为后续计算中的辅助向量。

步骤4、数据使用者利用LDA主题模型的训练结果(即辅助向量)提取查询语句中的语义特征,得到查询语句中关键字在各个主题上的出现的概率向量(查询-主题概率分布向量)Q

参阅图3,具体过程如下:

S4.1根据词语在文本集上的词语-文本集概率分布向量P

其中,P

S4.2数据使用者将关键字的查询-主题概率分布向量Q

S4.3数据使用者将查询向量Q扩展至n+4维,扩展后的查询向量记为

S4.4数据使用者根据自身查询偏好(侧重空间距离或侧重文本相似度)设定查询权重δ,从而调整查询结果。

S4.5数据使用者利用可搜索加密算法的密钥SK中的二进制向量S将查询向量

其分割规则如下:若S的第j位为1,

S4.6数据使用者用可搜索加密算法的密钥SK中的可逆矩阵{M

步骤5、云服务器将空间对象的密文索引与查询陷门进行内积计算,并把计算结果最大的k个密文索引对应的空间对象的加密数据发送给数据使用者。具体来说,云服务器根据查询陷门T和密文索引I确定空间对象与查询语句之间的混合相似度,并按照从大到小对各个密文索引的混合相似度进行排序,将排名的前k个密文索引对应的空间对象加密数据返回给数据使用者,数据使用者利用AES密钥sk

计算索引混合相似度的计算公式如下:

其中,

一种语义理解的密文空间关键字检索系统,包括依次连接的密钥模块、语义信息提取模块、加密索引构建模块、陷门生成模块和查询模块。

密钥模块,数据拥有者生成AES密钥sk

语义信息提取模块,利用自然语言处理模型提取每个空间对象文本在各个主题下出现的概率(文本-主题概率分布向量)V

加密索引构建模块,用于数据拥有者根据空间对象的文本-主题概率分布向量和空间位置坐标为每个空间对象构建明文索引,并利用可搜索加密算法对明文索引进行加密,同时将每个空间对象的数据进行AES加密,最后将加密形成的密文索引和密文数据发送给云服务器;

陷门生成模块,用于数据使用者根据文本集-主题概率分布向量、词语-主题概率分布向量以及词语-文本集概率分布向量,提取查询语句的查询-主题概率分布向量Q

查询模块,用于云服务器在查询模块中使用查询陷门对空间对象的密文索引进行混合相似度计算,在对相似度进行排序后,将前k个对象的加密文件发送给数据使用者,由数据使用者对接收到的密文数据进行解密。

本发明提供的一种语义理解的密文空间关键字检索方法,数据拥有者在将对空间数据及其索引外包至云服务器之前,对其进行加密,保证空间对象文本描述和位置坐标的安全性和隐私性。数据使用者在发送查询语句之前通过加密生成查询陷门,从而保护查询信息。整体方案达到了外包数据隐私保护的要求。

其次,本发明利用LDA主题模型提取空间对象和查询语句中的语义信息,并将语义信息与位置坐标结合,获取支持混合查询的空间对象的密文索引和查询陷门,返回给用户符合其查询意图且靠近其位置的空间对象。采用主题概率分布构建空间对象的密文索引,与现有技术基于字典实现关键字密文检索相比,具有计算开销小,查询效率高、支持语义感知的优点。

本发明可用于在云存储背景下用户对云服务器中的空间对象的密文索引进行具有语义感知功能的混合查询,同时满足用户针对距离和文本的查询需求,在保护数据安全性和隐私性的情况下,返回的结果可以在完全符合用户的搜索意图和靠近用户所在位置上进行调节。

以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号