首页> 中国专利> 一种索引文件的录入和基于该索引文件的检索方法

一种索引文件的录入和基于该索引文件的检索方法

摘要

本发明所提供的一种索引文件的录入方法,包括步骤:A、解析出目标文档的内容,对解析出的内容进行分词处理,生成不同的各个词语;B、解析出目标文档的权限信息,对解析出的权限信息进行分词处理,生成具有权限信息唯一性的格式;C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目标文档的标识,并存储至索引文件。对应还提供一种基于上述方法录入的索引文件的检索方法,采用对权限信息的分词确保其唯一性,在检索过程中不用拆分检索请求,也无需进行二次检索,便同时满足文档检索结果与权限检索结果,避免在文档还原过程中因全文检索命中率的问题至权限不可用,提高检索文档检索命中率。

著录项

  • 公开/公告号CN104376067A

    专利类型发明专利

  • 公开/公告日2015-02-25

    原文格式PDF

  • 申请/专利权人 北京海泰方圆科技有限公司;

    申请/专利号CN201410642110.8

  • 发明设计人 管延军;蒋红宇;蔡景彪;

    申请日2014-11-13

  • 分类号G06F17/30(20060101);

  • 代理机构北京华夏正合知识产权代理事务所(普通合伙);

  • 代理人韩登营;张焕亮

  • 地址 100094 北京市海淀区东北旺西路8号中关村软件园9号楼国际软件大厦E座一层、二层

  • 入库时间 2023-12-17 04:06:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-20

    授权

    授权

  • 2016-02-03

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20141113

    著录事项变更

  • 2015-03-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141113

    实质审查的生效

  • 2015-02-25

    公开

    公开

说明书

技术领域

本发明涉及信息安全技术领域,特别涉及一种索引文件的录入和 基于该索引文件的检索方法。

背景技术

现有基于权限的索引技术通常采用的技术为将权限信息存入数 据库或索引文件,将所接收的权限与在先存入的进行比较。其中,常 用方法包括:完全解偶的二次权限数据筛选,与三次库表检索结果与 摘要的合并。具体包括以下步骤:带权限的全文检索请求;把检索请 求拆分成两部分:全文检索、库表权限检索;合并全文检索结果与库 表权限检索;返回全文检索请求的结果集。采用上述方法的不足在于: 三次数据的处理,导致时间的大幅度延长。

另外,还可采用在库表中首次权限检索,利用库表中预绑定的全 文检索引擎文档唯一标识与要查询的关键词进行二次检索。具体包括 以下步骤:在全文中新建文档时把文档在全文检索引擎中的ID记录 到数据库中;收到带权限的全文检索请求;把检索请求拆分成两部分: 库表权限检索、全文检索;利用库表权限检索结果与要检索的关键字 进行全文检索;返回全文检索请求的结果集。采用上述方法的不足在 于:两次检索提高了检索效率,但是还是进行了二次检索;并且全文 检索引擎中的ID发生变化时要追加到数据库表中,而全文检索引擎 中的ID会经常发生变动,追加的数据分析会延长文档加入全文检索 引擎的时间,而且检索时对文档ID进行了预分析。

发明内容

有鉴于此,本发明的主要目的在于,提供一种索引文件的录入和 基于该索引文件的检索方法,采用对权限信息的进行分词,在检索过 程中实现100%命中权限信息。

其中,索引文件的录入方法包括步骤:

A、解析出目标文档的内容,对解析出的内容进行分词处理,生 成不同的各个词语;

B、解析出目标文档的权限信息,对解析出的权限信息进行分词 处理,生成具有权限信息唯一性的格式;

C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目 标文档的标识,并存储至索引文件。

由上,采用对权限信息的分词确保其唯一性,在检索过程中实现 100%命中权限信息。并且,无需索引文件绑定到数据库,当索引文 件变化时数据库不会做任何变化,当数据库发生变化时只要把原数据 同步到新数据库就能做到恢复。同时不用因检索引擎的同一文件ID 的变化至数据库中表数据量的增加。

可选的,步骤A所述解析前还包括:

依据目标文档实体的后缀名选择对应的文档解析器。

由上,实现对于文档内容的正确分词。

可选的,步骤A还包括:判断所生成的词语在句子中是否属于最 大单元,若否则将以最大单元进行分词,所述最大单元包括组成单一 词组的最长字符。

由上,实现对于分词的正确性,避免遗漏关键词。

可选的,所述目标文档权限信息包括通用唯一识别码、全局唯一 标识符和/或特定字符串。

由上,确保权限信息的唯一性。

可选的,步骤B所述分词处理的步骤包括:

B1、以一定字符长度且以分隔符结尾为分词依据,判断所述权限 信息在所述字符长度内具有权限信息唯一性的格式时,以所述字符长 度对权限信息进行分词。

由上,首先以一定字符长度且以分隔符结尾为分词依据可以避免 对于不定长度的权限信息的限制,其次,在规定长度内,判断出唯一 性格式即可分词,快速高效。

可选的,步骤B还包括:判断所述权限信息在所述字符长度内不 具有权限信息唯一性的格式时,将所述字符长度增加一字符长度,返 回步骤B所述分词处理的步骤。

由上,实现对于文档权限信息的正确分词,由于字符长度以及非 特殊字符的标点符号可调,因此,采用相同规则对权限信息进行分词 后,保证各文档权限信息的唯一性,在后续检索过程中,便可以实现 权限的100%命中。

可选的,所述分隔符包括非字符的标点符号。

可选的,步骤C之后还包括步骤:将目标文档的至少下述一元数 据信息加载所述代表其属于所述目标文档的标识,并存储至索引文 件:

目标文档的创建时间、大小、类型。

对应的,本发明还提供一种基于上述方法录入的索引文件的检索 方法包括步骤:

A、解析出用户的权限信息,对解析出的权限信息进行分词处理;

B、解析出用户所录入的内容,对解析出的内容进行分词处理, 生成不同的各个词语;

C、将步骤A和步骤B的分词结果采用并且的逻辑关系运算,以 索引文件中已存的信息中是否与步骤A和步骤B分词处理的结果相 同为依据,进行检索。

由上,不用拆分检索请求,也无需进行二次检索,便同时满足文 档检索结果与权限检索结果,避免在文档还原过程中因全文检索命中 率的问题至权限不可用,提高检索文档检索命中率。

附图说明

图1为索引文件录入的流程图;

图2为对目标文档的文档内容进行分词化处理的流程图;

图3为对目标文档的权限进行分词处理的流程图;

图4为基于所录入索引文件的检索方法的流程图。

具体实施方式

本发明所提供的索引文件的录入和基于该索引文件的检索方法, 将权限信息进行分词处理,使其分词结果符合权限信息的唯一性,以 实现在检索过程中实现100%命中权限信息,避免在文档还原过程中 因全文检索命中率的问题至权限不可用。

如图1所示,索引文件的录入具体包括以下步骤:

步骤S10:对目标文档的文档内容进行分词及解析处理,并将解 析结果与目标文档进行关联后,存储至索引文件。

如图2所示,具体的,本步骤包括以下步骤:

步骤S101:对目标文档进行解析,以获取目标文档的全部内容。

首先获取目标文档实体,依据目标文档实体的后缀名(例如*.doc、 *.txt、*.ppt、*.xls)获取文档解析器,利用文档解析器获取出文档的 全部文字内容。

当无法获取后缀名或后缀名为空字符时,直接结束步骤S10。

步骤S102:对所获取的目标文档的内容进行分词。

利用分词器对所获取的目标文档内容进行分词,所述分词器利用 词典的原理将全文分成词汇表。其中,分词器是成熟的技术,本发明 采用现有的分词器。预先设定不同词库,例如名词库,语句库,等价 词库,否定词库,停止词库等。所述等价词库例如PC等缩写词等价 于个人计算机等标准词,否定词库包括有敏感词等,停止词库包括 “啊、吧、的”等常用于结尾的词。

针对一句话,首先依据停止词库拆分为不同词或短句,其次判断 拆分后词或短句是否还有敏感词,若含有敏感词则将其进行隐藏,而 后依照等价词库将拆分后词或短句进行标准化,最终依据名词库,语 句库进行最终分词。

进一步的,分词之后,判断所分词语在句子中是否属于最大单元, 若是则不再处理,否则按最大单元进行分词。所述最大单元指组成单 一词组的最长字符。举例来说,目标文档中包含本文第一句话“本发 明所提供的基于权限信息的录入和检索方法”,句中“本”、“发明” 均作为一单独词被分开,分词后,判断“本”在句子中是否属于最大 单元,其判断方法为判断将“本”和“发明”连在一起是否构成一个 词,若构成一个词,则“本发明”在句子中属于最大单元。

步骤S103:将分词结果与目标文档进行关联,存储至索引文件。

若一篇目标文档分词分出100个不同的词,本步骤分别将上述100 词依据各个词在文中的位置顺序加载一特定标识,存储至索引文件。 所述索引文件可以是一数据库或服务器等存储装置或存储区域。进一 步的,还将后文所述的目标文档的标题、权限信息以及其他信息(目 标文档的创建时间、大小、类型等元数据信息)加载所述特定标识, 即同一篇文档的文档内容、标题、权限信息以及其他信息等绑定在一 起,共同录入索引文件,由此确保一篇文档数据的完整性。进一步的, 在索引文件中,文档内容、权限信息以及其他信息分别存储于不同的 域。由此可避免将所有数据存储于一处,在更改时增加时间。在还原 文档时,即可依据同一文档的特定标识,将属于该文档的全部数据集 成到一起,从而提高效率。对于索引文件信息的添加过程与现有技术 相同,不再赘述。

步骤S20:对目标文档的权限信息进行分词处理,将分词结果与 所述目标文档进行关联后,存储至所述索引文件。

具体的,如图3所示,本步骤中包括以下步骤:

步骤S201:获取对目标文档有查看权限对象的唯一标识,即目标 文档的权限信息。

所述具有查看权限的对象包括用户、角色、组织机构代码证或级 别等,所述权限信息加载于目标文档的固定位置,对于权限信息的获 取属于现有技术,不再赘述。提取目标文档的权限信息,即提取出所 述对目标文档有查看权限对象的唯一标识,所述唯一标识包括:通用 唯一识别码(UUID,Universally Unique Identifier)、全局唯一标识符 (GUID,Globally Unique Identifier)和/或其他字符串。

步骤S202:设置权限分词器,依据所述权限分词器对目标文档的 权限信息进行权限分词。

权限分词器对于权限信息的分割方式为:

首先,拆分分词目标,本实施例中,可采用固定一定字符长度(例 如19个字符串)且以为分隔符结尾分词依据,对权限信息进行拆分。 所述分隔符包括非字符的标点符号。

下面以UUID为例进行说明,UUID的格式包括: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxx(其规律为8-4-4-4-12)和 xxxxxxxx-xxxx-xxxx-xxxxxxxxxxxxxxxx(其规律为8-4-4-16),其中每 个x是0-9或a-f范围内的一个十六进制的数字。按一定字符长度 且以为分隔符结尾对截取UUID进行分词,分词结果为 xxxxxxxx-xxxx-xxxx-。

其次,判断权限信息在上述字符长度内是否存在区别于文档正文 和后文所述的其他信息的规律。所述规律参照现有UUID、GUID或 其他常用的设置权限信息的固定格式,预存于权限分词器中。

权限分词器判断在设定的字符长度内存在所述规律,则以该分隔 符为截止,将所述分隔符前的字符从权限信息中分离出来。若不存在, 则将上述固定的字符长度+1(调整为20个字符串),在调整后的字 符长度内继续寻找,若仍然不存在,在再将字符长度+1(调整为21 个字符串),直至寻找到所述规律。否则确认为权限信息分词失败。

举例来说,寻找所述规律可通过正则表达式实现,例一: ([a~zA~Z0~9]{8}_[a~zA~Z0~9]{4}_[a~zA~Z0~9]{4}_[a~zA~Z0~9]{4} _[a~zA~Z0~9]{12}[,\\w.!~@#$%^&]?)+;

例一中[a~zA~Z0~9]{8}表示连续出现8个字符,[a~zA~Z0~9]{4} 表示连续出现4个字符,[a~zA~Z0~9]{12}表示连续出现12个字符, 上述字符包括字母a~z、字母A~Z以及数字0~9的组合;

[,\\w.!~@#$%^&]?表示可以“,.!~@#$%^&”这些非字符的标点 符号匹配包括下划线或空白符在内的任何单个字符;

()+表示匹配模式是贪婪的。贪婪模式则尽可能多的匹配所搜索的 字符串。

例二:([a~zA~Z0~9]{32}[,\\w\\.!~@#$%^&]?)+;

第二种数据类型中([a~zA~Z0~9]{32}表示连续出现32个字符,上 述字符包括字母a~z、字母A~Z以及数字0~9的组合。

[,\\w\\.!~@#$%^&]?)+表示可以“,.!~@#$%^&”这些非字符的标 点符号匹配包括下划线或空白符在内的任何单词字符;

预存的寻找规律的表达式很多,本实施例仅给出2个实施例,本 申请重在保护对于权限分词整体的保护,而并非在于具体的某一个权 限分词的结构。

步骤S203:将分词结果加载所述特定标识,存储至所述索引文件。

对于一篇目标文档,将该文档分词后的权限信息加载与步骤S103 相同的特定标识后存储至索引文件。

另外,当目标文档权限信息需要变更时,仅需利用目标文档的所 述特定标识查找出索引文件中的该目标文档的权限信息,进而仅对所 述权限信息进行修改即可,操作便利,维护简单。

步骤S30:将目标文档的其他信息录入索引文件。

具体的,目标文档的其他信息包括其创建时间、大小、类型等元 数据信息。同样的,对于同一篇目标文档,将该文档的其他信息加载 与步骤S103相同的特定标识后存储至索引文件。

由于目标文档的文档内容,文档标题、权限信息以及其他信息采 用相同的特定标识,因此上述步骤S10~S30实质将三者绑定在一起, 共同录入索引文件。至此,目标文档的相关索引文件的录入所含步骤 结束。

如图4所示,基于录入索引文件的检索具体包括以下步骤:

步骤S40:检索权限信息。

通过验证用户所输入的密码登陆或USB-KEY等方式进行身份确 认。进一步的,确认用户身份后,还需确认用户身份权重,当用户身 份权重最高时,其拥有权限最多,即该用户同时拥有低于其身份权重 的其他用户的权限信息。

身份确认后即可获取用户所拥有的权限信息。权限分词器采用与 上述步骤S20的权限分词相同的原理,将所获取的用户所拥有的各权 限信息进行分词处理。

权限分词器将各个权限信息的分词结果采用“或者”的逻辑关系。

以索引文件中已存的权限信息中是否与步骤S40所分词的权限信 息相同为依据进行检索,检索结果为相同,则检索成功。

由上,可检索出所有满足该权限的所有文档。

步骤S50:检索文档内容。

检索权限信息后,用户输入需检索的关键词语或词句。

文档内容分词器在所述索引文件中对用户输入的关键词语或词 句进行检索。具体的,文档内容分词首先对检索内容中的关键词或词 句进行分词处理,分词依据步骤S10中对目标文档的分词原理相同, 对分词的结果在在所述索引文件中进行对比检索。

本步骤中,当分词结果不唯一或对词句分出多个词时,文档内容 查询器对各分词结果采用“或者”的逻辑关系。

步骤S60:检索其他信息。

直接将用户所录入的目标文档的创建时间、大小、类型等元数据 信息等其他信息与步骤S30所录入的目标文档其他信息进行对比检 索。

步骤S70:依据步骤S40~步骤S60各查询器对比检索的结果,将 文档进行还原。

对于步骤S40~步骤S60的三类查询器所检索的结果采用“并且” 的逻辑关系,由于三类的特定标识相同,故将索引文件中加载有该特 定标识的相关数据组织到一起,即可快速还原出目标文档。对于文档 内容的还原,可直接依据分词时各词在文中的位置进行还原。进一步 的,当符合条件的文档为多个时,依据步骤S50中所检索出的关键词 在文档中出现的频率,对各文档进行排列。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明。 总之,凡在本发明的精神和原则之内,所作的任何修改、等同替换、 改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号