首页> 中国专利> 一种基于模糊搜索多选项的智能提取方法及系统

一种基于模糊搜索多选项的智能提取方法及系统

摘要

本发明提出了一种基于模糊搜索多选项的智能提取方法及系统,涉及知识管理领域。一种基于模糊搜索多选项的智能提取方法包括:接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取;通过对提取的数据进行数据预处理,关键词向量生成,位置敏感哈希映射完成对索引树的构建;将关键词向量进行词义拓展构造词义模糊集,并插入构建的索引树中;确定构建的索引树中多个提取对象的对应关系,查询与模糊搜索多选项对应的提取对象。其能够解决现有多选项模糊搜索方法中存在的应用范围较窄的技术问题。此外本发明还提出了一种基于模糊搜索多选项的智能提取系统。

著录项

  • 公开/公告号CN113849538A

    专利类型发明专利

  • 公开/公告日2021-12-28

    原文格式PDF

  • 申请/专利号CN202111052353.2

  • 申请日2021-09-08

  • 分类号G06F16/2458(20190101);G06F16/22(20190101);

  • 代理机构51308 成都鱼爪智云知识产权代理有限公司;

  • 代理人张丽

  • 地址 511492 广东省广州市番禺区东环街番禺大道北555号番禺节能科技园内街天安总部中心1号楼601房

  • 入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及知识管理领域,具体而言,涉及一种基于模糊搜索多选项的智能提取方法及系统。

背景技术

目前,业内常用的现有技术是这样的:随着人们在云端存储数据的不断普及,人们把越来越多的数据存储到云端的同时,其数据的安全性与可靠性就受到了前所未有的关注程度。虽然利用加密技术将文件加密存储于云端可有效的保证数据的保密性,但是通过这种方式用户的数据丧失了许多的可操作性,例如,对密文文件进行关键字检索。为了能够提供密文搜索方法,大量的可搜索加密方式应运而生。对加密数据进行高效多关键字模糊搜索是云存储数据外包的理想目标,目前已经提出了各种方案来处理密文搜索这个问题,福州大学提出了云存储安全中基于通配符的可搜索加密方法,支持至多两个通配符的关键词模糊匹配密文检索,但不支持多关键词搜索和同义词的模糊匹配;电子科技大学提出了一种云存储中基于KCB树和布隆过滤器的高效密文检索方法,实现了关键词的高效检索并降低了加密索引在服务器上的存储开销,但这种方法没有实现关键词的模糊匹配,不支持关键词的同义词扩展搜索。大多数现有技术着重于多关键字精确匹配或单关键字模糊搜索,在已实现的多关键字模糊搜索技术中,还只支持基于词形的模糊匹配,对于拼写错误的搜索有效,但不能解决同义词的模糊检索。

可搜索加密技术是一种密码学原语,它可以在保护数据隐私的情况下完成密文数据的搜索。但是,传统的可搜索加密方案支持精确的关键词搜索,当搜索的关键词出现偏差时,这些方案将失去作用,所以模糊关键词搜索很大程度上增强了方案的可用性。现在的模糊搜索方案分为单关键词模糊搜索方案和多关键词模糊搜索方案,单关键词模糊搜索方案仅能完成用户输入单关键词的查询请求,当用户输入多个关键词时,方案搜索的精确度将会大幅度降低,并且搜索结果会耗费巨大的存储开销,导致单关键词模糊搜索方案实用性较低。而现存的多关键词模糊搜索方案搜索原理是:当用户想要搜索包含多个关键词的明文文件时,用户计算多个关键词的陷门集合,云服务器根据用户提交的陷门集合在云端搜索密文文件,倘若密文文件与陷门集合匹配,则表明搜索成功,返回该密文文件,用户通过密钥解密密文文件,得到明文文件;这些方案可以完成用户输入多关键词的查询请求,但是实现步骤复杂,搜索效率低下,或者仅能完成简单的模糊多关键词查询请求,应用范围较窄,且需要存储关键词陷门集合,导致开销较大。

发明内容

本发明的目的在于提供一种基于模糊搜索多选项的智能提取方法,其能够解决现有多选项模糊搜索方法中存在的应用范围较窄的技术问题。

本发明的另一目的在于提供一种基于模糊搜索多选项的智能提取系统,其能够运行一种基于模糊搜索多选项的智能提取方法。

本发明的实施例是这样实现的:

第一方面,本申请实施例提供一种基于模糊搜索多选项的智能提取方法,其包括接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取;通过对提取的数据进行数据预处理,关键词向量生成,位置敏感哈希映射完成对索引树的构建;将关键词向量进行词义拓展构造词义模糊集,并插入构建的索引树中;确定构建的索引树中多个提取对象的对应关系,查询与模糊搜索多选项对应的提取对象。

在本发明的一些实施例中,上述接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取包括:计算关键词字符串的熵,并判断关键词字符串的熵是否大于预设的熵阈值,当关键词字符串的熵大于熵阈值时,确定关键词字符串为模糊性数据。

在本发明的一些实施例中,上述还包括:采用布隆过滤器结构建立关键词字符串的安全索引,支持数据动态接收。

在本发明的一些实施例中,上述通过对提取的数据进行数据预处理,关键词向量生成,位置敏感哈希映射完成对索引树的构建包括:数据预处理阶段提取数据中的关键词字符串,计算关键词字符串的词频-逆文本频率,通过词形还原算法根据上下文分析关键词字符串的词性,并对关键词字符串进行简化。

在本发明的一些实施例中,上述还包括:关键词向量生成阶段依据VSM模型,使用关键词向量作为文件索引,同时使用位置敏感哈希函数对输入的关键词向量进行映射完成明文索引树的构建。

在本发明的一些实施例中,上述将关键词向量进行词义拓展构造词义模糊集,并插入构建的索引树中包括:通过构造的词义模糊集,将支持词义关键词向量转化为精确关键词向量。

在本发明的一些实施例中,上述确定构建的索引树中多个提取对象的对应关系,查询与模糊搜索多选项对应的提取对象包括:通过查询向量与索引向量之间的对应关系进行内积运算实现对多个提取对象搜索结果的排序,完成半可信的情况下对多个提取对象的搜索。

第二方面,本申请实施例提供一种基于模糊搜索多选项的智能提取系统,其包括接收模块,用于接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取;

生成模块,用于通过对提取的数据进行数据预处理,关键词向量生成,位置敏感哈希映射完成对索引树的构建;

构建模块,用于将关键词向量进行词义拓展构造词义模糊集,并插入构建的索引树中;

搜索模块,用于确定构建的索引树中多个提取对象的对应关系,查询与模糊搜索多选项对应的提取对象。

在本发明的一些实施例中,上述包括:用于存储计算机指令的至少一个存储器;与上述存储器通讯的至少一个处理器,其中当上述至少一个处理器执行上述计算机指令时,上述至少一个处理器使上述系统执行:接收模块、生成模块、构建模块及搜索模块。

第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如一种基于模糊搜索多选项的智能提取方法中任一项的方法。

相对于现有技术,本发明的实施例至少具有如下优点或有益效果:

通过将关键词哈希值集合与词义拓展构造词义模糊集进行比较,即判断关键词哈希值集合是否为词义拓展构造词义模糊集的子集,再判断关键词哈希值与词义拓展构造词义模糊集的差中0的个数是否大于或等于词义拓展构造词义模糊集当前系数的长度的一半,既可以完成关键词缺失的提取请求又可以完成关键词反转错误的提取请求,避免了现有技术中通过使用关键词陷门集合与密文文件进行匹配带来的缺陷,有效地拓宽了搜索方法的应用范围,同时节省了本地的存储开销。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种基于模糊搜索多选项的智能提取方法步骤示意图;

图2为本发明实施例提供的一种基于模糊搜索多选项的智能提取方法详细步骤示意图;

图3为本发明实施例提供的一种基于模糊搜索多选项的智能提取系统模块示意图;

图4为本发明实施例提供的一种电子设备。

图标:10-接收模块;20-生成模块;30-构建模块;40-搜索模块;101-存储器;102-处理器;103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1,图1为本发明实施例提供的一种基于模糊搜索多选项的智能提取方法步骤示意图,其如下所示:

步骤S100,接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取;

在一些实施方式中,当用户通过客户端发送提取请求时,接收提取请求,并提取请求中的关键词字符串。具体的,关键词字符串为用户输入的搜索关键字\词,如“电脑主机可玩的游戏”、“可以购物的软件”、“可以社交的软件”等。

步骤S110,通过对提取的数据进行数据预处理,关键词向量生成,位置敏感哈希映射完成对索引树的构建;

在一些实施方式中,将关键词向量中构造的所有的索引向量组织成一棵索引树,构造的具体过程为:对于每一个文件,存储相应的文件标识符和布隆索引向量,如果文件个数为偶数个,为每一对叶子结点生成一个父亲结点,存储一个m位的向量,如果文件个数为奇数个,前2个叶子结点构造父亲结点的方式与m位的向量相同,最后一个结点与叶子的父亲结点构造一个父亲结点;重复以上过程,直到生成一个根结点,即索引树。

步骤S120,将关键词向量进行词义拓展构造词义模糊集,并插入构建的索引树中;

在一些实施方式中,词义模糊集中的所有文件都由数据所有者使用加密算法进行加密,加密后形成加密文件集合C,数据所有者需要对词义模糊集中的文件提取关键字集合,并构建关键词的同义词模糊集;其次,通过基于局部敏感哈希函数族的BloomFilter和knn算法为词义模糊集构建索引并进行加密处理,将加密后的索引与密文文件集合一起上传;然后,在通过关键词搜索云服务器端的密文时,客户端会按照与加密关键词索引相同的方式生成关键词陷门向量,并发送给服务器,服务器收到陷门信息后,与云服务器端的索引信息进行匹配,返回给授权用户匹配到最相关的密文集;最后,授权用户将接受到的密文文件解密获取搜索的相关文件。

步骤S130,确定构建的索引树中多个提取对象的对应关系,查询与模糊搜索多选项对应的提取对象。

在一些实施方式中,在关键词向量中随机挑选N个关键词作为查询关键词,并将其中至少两个个关键词中的任意一个字母替换为其他字符来模拟拼写错误;加密提取请求的构建与文件索引向量的生成过程类似,只是在映射阶段得到的N-2个位置被设置为1而不再是关键词的权重,同样的也使用KNN加密算法将查询向量加密得到矩阵形式。

实施例2

请参阅图2,图2为本发明实施例提供的一种基于模糊搜索多选项的智能提取方法详细步骤示意图,其如下所示:

步骤S200,计算关键词字符串的熵,并判断关键词字符串的熵是否大于预设的熵阈值,当关键词字符串的熵大于熵阈值时,确定关键词字符串为模糊性数据。

步骤S210,采用布隆过滤器结构建立关键词字符串的安全索引,支持数据动态接收。

步骤S220,数据预处理阶段提取数据中的关键词字符串,计算关键词字符串的词频-逆文本频率,通过词形还原算法根据上下文分析关键词字符串的词性,并对关键词字符串进行简化。

步骤S230,关键词向量生成阶段依据VSM模型,使用关键词向量作为文件索引,同时使用位置敏感哈希函数对输入的关键词向量进行映射完成明文索引树的构建。

步骤S240,通过构造的词义模糊集,将支持词义关键词向量转化为精确关键词向量。

步骤S250,通过查询向量与索引向量之间的对应关系进行内积运算实现对多个提取对象搜索结果的排序,完成半可信的情况下对多个提取对象的搜索。

在一些实施方式中,在生成模糊性关键词字符串后,可以在第三方网站(如百度、谷歌等上抓取各个模糊性关键词字符串对应的模糊搜索对象。另外,由于第三方网站上的模糊搜索对象也存在不准确或者不能满足用户需求的问题,所以,对抓取到的模糊搜索对象的去噪处理,以便得到更准确的模糊搜索对象。最终,建立各个模糊性关键词字符串与经过去噪处理后的模糊搜索对象的对应关系。

实际应用中,对抓取到的模糊搜索对象的去噪处理是一个复杂的过程,可以结合多种去噪方法对抓取到的模糊搜索对象进行处理。可以在第三方网页抓取的过程中,结合网页的上下文,计算出了一批转义风险较大的模糊搜索对象的名称集合,并构建模糊搜索对象的名称黑名单,从而去掉关联性较小的模糊搜索对象。另外,由于搜索结果的文本长度一般较小,所以,还可以通过控制模糊搜索对象的文本长度的方法,去掉一部分关联性较小的模糊搜索对象。另外,还可以利用LDA主题模型、或者基于主题信息等方式对第三方网页抓取的模糊搜索对象进行去噪处理。

实施例3

请参阅图3,图3为本发明实施例提供的一种基于模糊搜索多选项的智能提取系统模块示意图,其如下所示:

接收模块10,用于接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取;

生成模块20,用于通过对提取的数据进行数据预处理,关键词向量生成,位置敏感哈希映射完成对索引树的构建;

构建模块30,用于将关键词向量进行词义拓展构造词义模糊集,并插入构建的索引树中;

搜索模块40,用于确定构建的索引树中多个提取对象的对应关系,查询与模糊搜索多选项对应的提取对象。

如图4所示,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。

还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中,存储器101可以是但不限于,随机存取存储器101(Random Access Memory,RAM),只读存储器101(Read Only Memory,ROM),可编程只读存储器101(ProgrammableRead-Only Memory,PROM),可擦除只读存储器101(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。

处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器102(Central Processing Unit,CPU)、网络处理器102(Network Processor,NP)等;还可以是数字信号处理器102(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中,应该理解到,所揭露的方法及系统和方法,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

另一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器101(ROM,Read-Only Memory)、随机存取存储器101(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本申请实施例提供的一种基于模糊搜索多选项的智能提取方法及系统,通过将关键词哈希值集合与词义拓展构造词义模糊集进行比较,即判断关键词哈希值集合是否为词义拓展构造词义模糊集的子集,再判断关键词哈希值与词义拓展构造词义模糊集的差中0的个数是否大于或等于词义拓展构造词义模糊集当前系数的长度的一半,既可以完成关键词缺失的提取请求又可以完成关键词反转错误的提取请求,避免了现有技术中通过使用关键词陷门集合与密文文件进行匹配带来的缺陷,有效地拓宽了搜索方法的应用范围,同时节省了本地的存储开销。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号