技术领域
本发明属于网络安全技术领域,尤其涉及一种支持隐私保护的论文查重方法及系统。
背景技术
论文查重是当下非常普遍的需求,论文查重系统也非常多,但是当下许多论文查重网站没有做到对论文的隐私保护,不能保证学术成果的隐私性,一旦数据被泄露,将会造成个人成果的损失,同时也助长了剽窃他人成果的不良之风,所以该严重问题有待被解决。同时汉明距离也被广泛应用到许多领域,例如临近重复检测和模式识别,汉明距离检索问题也因此得到了很多关注。在现有的技术中,还没有基于汉明距离的高效安全的范围检索算法,与本发明最接近的研究是Ren等人在2009年提出的基于编辑距离的相似关键字检索,但其方法是采用枚举的方式,存在存储空间开销大,查询关键字长度有限,范围有限的问题。如何做到在进行高效的论文查重的同时保护数据的隐私性是当下研究的难点问题之一。
综上所述,现有技术存在的问题是:无法同时保证论文查重的隐私性与高效性。难点在于:大量论文数据汇聚在一起进行查询的时候,如何能保证论文数据的安全隐私性;另一方面,在大型数据库背景下,如何做到高效的检索。已有的技术一方面是算法的安全性不够,容易泄露一些数据信息,另一方面算法计算在大规模数据量的情况下很难做到高效检索。
发明内容
针对现有技术存在的问题,本发明提供了一种支持隐私保护的论文查重方法。
本发明是这样实现的,一种支持隐私保护的论文查重方法对存储在数据库中的数据进行预处理,本发明提出了将汉明距离转化为数值范围查询的基础方法,同时此方法也产生了假阳率;为了进一步优化假阳率,本发明提出了四种优化方法,分别为多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法;然后将数值范围检索转化为联合关键字检索,生成关键字信息,进而转化为布尔检索;最后,构建安全高效索引用于查询者检索。在进行汉明距离检索时,只需要生成相应的查询信息,再基于安全索引进行检索,并将结果返回给用户。
一种支持隐私保护的论文查重方法,包括以下步骤:
S1预处理待检索数据,将文本数据转化为二进制字符串;
S2获取待检索数据与数据库中任一数据的汉明距离,通过汉明距离,生成关键字信息集合,具体包括:
S21将汉明距离转化为数值范围,并优化假阳率,然后通过数值范围生成第一关键字信息;
S22将汉明距离转化为联合关键字,生成第二关键字信息;
S23通过第一关键字信息和第二关键字信息,生成关键字信息集合;
S3构建基于平衡二叉树的安全索引,其中,每个节点均使用布隆过滤器;
S4通过关键字信息集合,基于安全索引进行检索,并输出检索结果。
进一步的,在步骤S2中,将汉明距离转化为数值范围的具体步骤包括:
记二进制信息数据集为S={s
预设汉明距离查询阈值r,给定两个字符串s
对于满足HD(s
|HD(s
进一步的,在步骤S2中,优化假阳率的方法包括多基准查询法,具体包括:
对于满足HD(s
同时满足该m个范围条件时,HD(s
进一步的,在步骤S2中,优化假阳率的方法包括多切分查询法,具体包括:
将字符串s
得到
并且,c越大,
得到限制条件:
将限制条件转化为范围条件:
其中,x
得到2
同时满足2
进一步的,在步骤S2中,优化假阳率的方法还包括分类查询法,具体包括:
预设汉明距离查询阈值r和类包含率p
根据类包含率设定类范围条件:[HD
其中,p
每个类都存在一个基准字符串s
每个待检索数据s
产生类的范围条件:HD(s
进一步的,在步骤S2中,通过数值范围生成关键字信息的步骤具体包括:
根据条件HD(s
生成数值范围条件:HD(s
得到数值范围条件后,将数值范围条件转化为关键字条件,枚举出每个数值范围条件中的值,生成关键字集合
待检索数据s
进一步的,在步骤S2中,将汉明距离转化为联合关键字的步骤具体包括:
将每个数据的f位按照预先随机产生的位置组合生成新的e个子字符串,其中e>r;
如果HD(s
每个数据s
待检索数据s
进一步的,构建基于平衡二叉树的安全索引,每个节点使用布隆过滤器,具体包括:
将n个数形成的关键字集合
然后将n个数一分为二,一半数据的关键字信息映射到一个新的布隆过滤器中,一半数据的关键字信息映射到另一个新的布隆过滤器中,这两个新的布隆过滤器作为根节点的左节点和右节点;
然后分别以这两个新的布隆过滤器作为新的基点,再生成以这两个布隆过滤器为父节点的左右孩子节点,以此类推,直到每个布隆过滤器中只存储一个数的关键字信息,则该布隆过滤器就作为叶子节点。
进一步的,通过关键字信息集合,基于安全索引进行检索,并输出检索结果,具体包括:
获取关键字集合
如果存在
然后分别对所述根节点的左右孩子节点进行查询;
如果不满足
如果满足
以此类推,直到没有路径可走,则输出结果集。
本发明的另一目的在于提供一种支持隐私保护的论文查重系统,包括:
安全索引模块,基于平衡二叉树,每个节点使用布隆过滤器;
预处理模块,用于对待检索数据进行预处理;
转化模块,用于将汉明距离转化为数值范围和联合关键字;
生成模块,根据数值范围和联合关键字生成关键字信息;
检索模块;
输出模块,输出检索结果。
本发明的优点及积极效果为:为了保护数据的隐私性,将汉明距离范围查询转化为关键字检索,既避开了直接进行汉明距离范围查询问题,同时也保护了数据的隐私性。本文中提出的多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法这四种优化方法可以极大的降低假阳率,大大的提高正确率。本文中运用的布隆过滤器可以快速安全的进行布尔检索,极大的提高了查询效率,同时,平衡二叉树型的索引结构可以充分发挥高效的检索效果,检索时间复杂度为O(|R|log n),R为结果集合。最后,本方法可以抵抗选择性明文攻击,有效地保护了文档信息的隐私与安全。
附图说明
图1是本发明方法在不同数据集下的平均假阳率,参数r=5,f=128。
图2是本发明方法在不同数据集下的平均查询时间,参数r=5,f=128。
图3是本发明方法在不同数据集下的构建索引的大小,参数r=5,f=128。
图4是本发明方法在不同数据集下的构建索引的时间,参数r=5,f=128。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
本发明实施例提供的支持隐私保护的论文查重方法包括以下步骤:
S101:使用多基准方法、多切分方法、分类法和联合子字符串法生成对应的关键字信息;
S102:使用关键字信息构建安全索引;
S103:用户在进行汉明距离检索时,生成对应的查询信息,基于索引执行检索步骤,最终把结果返回给用户。
本发明实施例提供的支持隐私保护的论文查重方法具体包括以下步骤:
记二进制信息数据集为S={s
将汉明距离范围查询转化为数值范围查询。预先设定一个汉明距离查询阈值r,给定两个字符串s
反之可推得,如果存在|HD(s
但是满足该条件的数据不一定存在HD(s
基于基础方法存在假阳性,本发明提出了四种假阳率优化方法,分别为多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法,具体如下:
多基准查询法:
在基础方法中每个数据s
如果存在m个基准字符串
多切分查询法:
经过证明分析可得|HD(s
将字符串均切c次,则可得到关系式
则可产生一个限制条件:
集合
需要同时满足该2
本发明提出既可以优化假阳率又可以提高筛选效率的分类查询法。
给定预先设定的两个值,查询阈值r,以及类包含率p
每个类都存在一个基准s
产生类过程如下所述,从首个数据开始,作为第一条基准,即产生了第一个类,判断第二条数据是否满足范围条件HD(s
此方法可根据多基准方法和多切分方法进行进一步扩展,每个类中可含有多个基准,即含有多个范围条件。
数据集中的每个数据s
每个数据根据选中的这些类,每个类都生成数值范围条件:HD(s
给定一个查询数据s
联合子字符串查询法:
将每个数据的f位按照预先随机产生的位置组合生成新的e个子字符串,其中e>r,如果HD(s
每个数据s
构建隐私保护索引:构建基于平衡二叉树的安全索引,每个节点使用布隆过滤器。将n个数形成的关键字集合
然后将n个数一分为二,一半数据的关键字信息映射到一个新的布隆过滤器中,一半数据的关键字信息映射到另一个新的布隆过滤器中,这两个新的布隆过滤器作为根节点的左节点和右节点,然后分别以这两个新的布隆过滤器作为新的基点,再生成以这两个布隆过滤器为父节点的左右孩子节点,以此类推,直到每个布隆过滤器中只存储一个数的关键字信息,则该布隆过滤器就作为叶子节点。
执行查询:给定一个查询字符串s
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
机译: 用于分离至少一种气体和至少一种lquiquido混合物的混合物,该混合物以主要包含lecquido的重馏分和主要包含气体的轻馏分的分离。进料系统,用于预处理至少一种气体和l的混合物至少一种用于分离的馏分,馏分主要包含重馏分和轻馏分,主要馏分包含气体,进气系统和系统EMA或进气系统的操作方法
机译: 在支持小小区环境的无线接入系统中支持位置隐私保护的方法和装置
机译: 管理论文以支持内容管理系统的方法和系统