首页> 中国专利> 一种静默化数据处理方法及处理系统

一种静默化数据处理方法及处理系统

摘要

本发明实施例公开了一种静默化数据处理方法及处理系统包括步骤S1、识别静默化数据;步骤S2、对静默化数据进行分词处理,得到索引信息,建立索引信息与信息坐标之间的信息对;步骤S3、将信息对转换为倒排索引,得到倒排索引信息;步骤S4、根据倒排索引信息中的索引信息构建前缀树,最后将前缀树存入索引数据库内。本发明实施例所述的静默化数据处理方法及处理系统增加了用于储存冷数据、长期固化数据的数据结转库,设置静默化规则,以识别冷数据,将满足静默化规则的数据存入数据结转库中,从而分担业务数据库的压力,实现数据分流,提高查询业务数据的效率,实现业务数据库的轻量运行,高效处理增删改查等各类用户操作。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-26

    公开

    发明专利申请公布

说明书

技术领域

本发明实施例涉及数据处理技术领域,具体涉及一种静默化数据处理方法及处理系统。

背景技术

随着时间的推移,结构化数据库中积存大量历史数据,这类历史数据中大部分数据是属于热度低的历史数据,不会再进行修改、编辑等,但这类数据还需要提供备查功能,当数据储存量超过一定年限,比如10年,查询数据时会出现很严重的卡顿问题,严重降低查询效率,而且还会占用大量的系统资源。在这样的情况下,低热度的静默化历史数据影响热数据、新数据的增、删、改、查的效率,针对这种情况需要一种解决办法。

发明内容

为此,本发明实施例提供一种静默化数据处理方法及处理系统,以解决现有技术中由于历史数据占用常规数据库空间而导致的影响热数据、新数据的增删改查效率的问题。

为了实现上述目的,本发明实施例提供如下技术方案:

一种静默化数据处理方法,包括以下步骤:

步骤S1、识别数据库中处于静默化状态的数据,得到静默化数据;

步骤S2、对静默化数据进行分词处理,得到索引信息,建立索引信息与静默化数据所在信息的信息坐标之间的信息对;

步骤S3、将所述信息对转换为倒排索引,得到倒排索引信息;

步骤S4、根据倒排索引信息中的索引信息构建前缀树,所述倒排索引信息的信息坐标设在索引信息位于前缀树中两位最小单位信息之间的键中,若在前缀树的相同层级中出现至少两个相同的索引信息,则将至少两个相同的索引信息的节点合并为共用节点,最后将前缀树存入索引数据库内。

进一步的,所述静默化数据的识别方法包括时间筛选与条件筛选;所述时间筛选内设有筛选时间,设置筛选时间后,数据的存储时间位于筛选时间之前的数据均为静默化数据;所述条件筛选内设有筛选条件,设置筛选条件后,若已储存的数据满足筛选条件,则该数据为静默化数据。

进一步的,所述信息对的建立方法包括:为经过分词处理后的索引信息添加其对应的静默化数据的信息坐标,得到单坐标信息对;将具有相同索引信息的单坐标信息对合并,合并方法为索引信息不变,多个单坐标信息对的信息坐标合并,得到一个具有单索引信息多信息坐标的信息对。

进一步的,所述倒排索引的转换方法为将信息对中的信息坐标与索引信息转换位置。

进一步的,所述前缀树的构建方法为将倒排索引信息中的索引信息拆分为有序排列的最小单位信息,然后根据最小单位信息的排列顺序依次设置在前缀树中的不同层级的节点中,所述前缀树的第一层级节点设为前缀树的属性节点,所述前缀树的第二层级节点设为首位最小单位信息的节点,最小单位信息的排序每靠后一位,则其在前缀树中的节点至少向下移动一个层级,若不同索引信息中出现相同层级且相同最小单位信息时,则将两个最小单位信息的节点进行合并,得到共用节点,指向共用节点的两个前节点均与共用节点之间建立键。

进一步的所述倒排索引信息的信息坐标设置在前缀树中所述倒排索引信息中索引信息的最后两位最小单位信息之间的键中。

进一步的,所述信息坐标添加区分标签。

一种使用静默化数据处理方法的静默化数据处理系统包括:数据库、索引数据库及数据处理模块,所述数据处理模块用于识别数据库中处于静默化状态的数据,得到静默化数据,对静默化数据进行分词处理,得到索引信息,建立索引信息与静默化数据所在信息的信息坐标之间的信息对,将所述信息对转换为倒排索引,得到倒排索引信息,根据倒排索引信息中的索引信息构建前缀树,所述倒排索引信息的信息坐标设在索引信息位于前缀树中最后两位最小单位信息之间的键中,若在前缀树的相同层级中出现相同的两个索引信息,则将两个索引信息的节点合并为共用节点,最后将前缀树存入索引数据库内。

进一步的,还包括历史结转库,所述数据处理模块在识别出静默化数据后,进行分词处理之前将静默化数据从数据库转移到历史结转库。

进一步的,所述数据处理模块包括数据识别子模块、分词子模块、倒排索引子模块及前缀树子模块;所述数据识别子模块用于识别数据库中的静默化数据;所述分词子模块用于对静默化数据进行分词处理,得到索引信息,并建立索引信息与其对应静默化数据的信息坐标之间的信息对;所述倒排索引子模块用于对信息对转换倒排索引,得到倒排索引信息;所述前缀树子模块用于根据倒排索引信息中的索引信息建立前缀树,并将倒排索引信息中的信息坐标设在索引信息位于前缀树中最后两位最小单位信息之间的键中,若在前缀树的相同层级中出现相同的两个索引信息,则将两个索引信息的节点合并为共用节点,最后将前缀树存入索引数据库内。

本发明实施例具有如下优点:

本发明实施例所述的静默化数据处理方法及处理系统增加了用于储存冷数据、长期固化数据的数据结转库,设置静默化规则,以识别冷数据,将满足静默化规则的数据存入数据结转库中,从而分担业务数据库的压力,实现数据分流,提高查询业务数据的效率,实现业务数据库的轻量运行,高效处理增删改查等各类用户操作,而且数据结转库和历史数据库可实现互做备份的功能。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种静默化数据处理方法的方法流程图;

图2为图1中步骤S1的进一步展开流程图;

图3为图1中步骤S2的进一步展开流程图;

图4为图1中步骤S2-S3的实施例展示图;

图5为图1中步骤S4的实施例展示图;

图6为本发明实施例提供的一种静默化数据处理系统的模块结构图;

图7为本发明另一个实施例提供的一种静默化数据处理系统的模块结构图;

图8为本发明实施例提供的一种静默化数据处理系统中数据处理模块的模块结构图。

图中:

1、数据库;2、索引数据库;3、数据处理模块;4、历史结转库;5、数据识别子模块;6、分词子模块;7、倒排索引子模块;8、前缀树子模块。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例所述的一种静默化数据处理方法及处理系统包括:

步骤S1、识别数据库中处于静默化状态的数据,得到静默化数据;

步骤S2、对静默化数据进行分词处理,得到索引信息,建立索引信息与静默化数据所在信息的信息坐标之间的信息对;

步骤S3、将所述信息对转换为倒排索引,得到倒排索引信息;

步骤S4、根据倒排索引信息中的索引信息构建前缀树,所述倒排索引信息的信息坐标设在索引信息位于前缀树中两位最小单位信息之间的键中,若在前缀树的相同层级中出现至少两个相同的索引信息,则将至少两个相同的索引信息的节点合并为共用节点,最后将前缀树存入索引数据库内。

下面结合实施例具体说明上述各个步骤中的技术方案,其中:

步骤S1中,如图2所示,所述静默化数据的识别方法包括时间筛选与条件筛选:

所述时间筛选内设有筛选时间,设置筛选时间后,数据最终存储时间位于筛选时间之前的数据均为静默化状态的数据。可设置筛选时间的更新间隔,如更新间隔为1年,筛选时间为12月31日,则系统时间从最近一次的12月31日起每经过1年,筛选时间就更新一次,以更新时最近的12月31日为准,实现筛选时间的自动更新。

所述条件筛选内设有筛选条件,设置筛选条件后,对已储存的数据进行条件筛选,筛选条件为数据的属性条件或状态条件,属性条件如是否被人工标记、是否被第三方机构或者其他系统调阅、是否属于特定主体的数据等;状态条件如办结、完成等工作流状态的信息。若已储存的数据满足筛选条件,则该数据为静默化数据,所述筛选条件中属性条件与状态条件之间的逻辑规则可进行设置,如“与”、“非”、“或”等,进行多条件筛选。

步骤S2中,如图3所示,对静默化数据进行分词处理,得到索引信息,建立索引信息与静默化数据所在信息的信息坐标之间的信息对。所述分词处理的方法如申请人中控技术(西安)有限公司于申请日2018 .02 .01申请的一种建立分词索引库的方法和装置(发明专利申请号为201810102258 .0)公开的技术方法。本实施例中索引信息为json数据,存储数据是索引信息对应的文本信息坐标。静默化数据包括文本数据及文本数据的属性信息,属性信息包括办文标题、发起人、审批人、类别、正文、摘要、签批意见、紧急程度、备注等string内容进行分词处理。

所述信息对的建立方法包括对经过分词处理后的索引信息与其对应的静默化数据的信息坐标之间建立信息对,得到单坐标信息对。然后将至少两个具有相同索引信息的单坐标信息对合并,合并方法为索引信息不变,多个单坐标信息对的信息坐标合并,得到多坐标信息对。其中所述信息坐标包括文章坐标与该文章中的字符坐标。具体的,如图4所示,如表达morning这个单词在第001文章中的51号、62号字符出现,以及在第004文章中第88号、第1023号字符出现,建立的第一信息对分别为(“001:{51}”—“morning”)、(“001:{62}”—“morning”)、(“004:{88}”—“morning”)及(“004:{1023}”—“morning”),将4个第一信息对合并,得到第二信息对(“001:{51,62}”、“004:{88,1023}”—“morning”)。

步骤S3、将所述信息对转换为倒排索引,得到倒排索引信息。所述倒排索引的转换方法为将信息对中的信息坐标与索引信息转换位置,如上例中,将信息对(“001:{51,62}”、“004:{88,1023}”—“morning”)转换为信息对(“morning”—“001:{51,62}”、“004:{88,1023}”)。

步骤S4、根据倒排索引信息中的索引信息构建前缀树,所述倒排索引信息的信息坐标设在索引信息位于前缀树中最后两位最小单位信息之间的键中若在前缀树的相同层级中出现相同的两个索引信息,则将两个索引信息的节点合并为共用节点,最后将前缀树存入索引数据库内。所述前缀树又名字典树、单词查找树、Trie树,其是一种多路树形结构,为哈希树的变种,其由节点与键组成,键连接上下两个相邻层级中且具有逻辑关系的两个节点,是一种用于快速检索的多叉树结构。

本发明中前缀树的构建方法为将倒排索引信息中的索引信息拆分为有序排列的最小单位信息,最小单位信息的排列顺序为在索引信息中最小单位信息从前到后的排列顺序,如汉子词组拆分为按顺序排列的字,即将“今天”拆分为“今”、“天”,“今”排在“天”的前面;又如将英文单词拆分为按顺序排列的字母,即“mop”拆分为“m”、“o”、“p”,3个字母的排列顺序依次为“m”、“o”、“p”。然后根据最小单位信息的排列顺序将全部的最小单位信息依次设置在前缀树中的不同层级的节点中,即排序在前的最小单位信息设置在高层级,排序在后的最小单位信息设置在低层级。所述前缀树的第一层级节点设为前缀树的识别信息、位置信息等属性信息,排序在首位的最小单位信息设置在前缀树的第二层级节点中,排序在之后位置的最小单位信息依次类推,排序每靠后一位,则其在前缀树中至少向下一个层级,然后根据最小单位信息的排列顺序建立各个最小单位信息之间的键,其中对不同索引信息的处于前缀树中相同层级且相同最小单位信息的两个节点进行合并,合并的节点为共用节点,指向共用节点的两个前节点均与共用节点之间建立键。

所述倒排索引信息的信息坐标设置在前缀树中两位最小单位信息之间的键中,引用最小单位信息的同时还会引用键中储存的信息坐标,若引用了3个最小单位信息,则引用两个键中的信息坐标,最终得到倒排索引信息的信息坐标。这种方法能够得到最为简单的前缀树,查询索引信息的同时还可获得索引信息的信息坐标,再根据信息坐标调取对应的全部信息。

由于会出现镶嵌的索引信息,如索引信息分别为m、mo、mot、moth,四个索引信息中均具有相同的最小单位信息,因此为了区分四个索引信息的信息坐标,在索引信息位于前缀树中的最后两位最小单位信息之间的键内,即m的信息坐标储存在第一层级与第二层级的节点之间的键内,mo的信息坐标储存在第二层级与第三层级的节点之间的键内,mot的信息坐标储存在第三层级与第四层级的节点之间的键内,moth的信息坐标储存在第四层级与第五层级之间的键内。

若出现不同磁头、相同词尾的两个索引信息时,如stop与top,将两个索引信息的信息坐标均存入最后两位最小单位信息的键内,即信息坐标存入节点o与节点p之间的键内,并为存入的信息坐标添加区分标签,当引用stop或top时,识别区分标签,从而得到索引信息的信息坐标。所述区分标签为两个索引信息中相区别的最小单位信息,或者为全部索引信息。

如图5所示,多个索引信息分别为mop、 moth、 pop、 star、stop、top,mop的信息坐标为0,moth的信息坐标为1,pop的信息坐标为2,star的信息坐标为3,stop的信息坐标为4,top的信息坐标为5,即倒排索引信息分别为mop-0、moth-1、pop-2、star-3、stop-4、top-5,其中索引信息的首字母包括2个m、1个p、2个s、1个t,则前缀树建立如下:

第一层级节点分别与节点m、节点p、节点s、节点t建立键;

第二层级节点m与第三层级节点o建立键,第三层级节点o分别与第四层级节点p、第四层级节点t建立键,第四层级节点t与第五层级节点h建立键,其中第二层级节点m与第三层级节点o均为公用节点,倒排索引信息“mop-0”的位置信息0设在第二层级节点o与第三层级节点p之间的键内,倒排索引信息“moth-1”的位置信息1设在第三层级节点t与第四层级节点h之间的键内。

所述第二层级节点p与第三层级节点o之间建立键,所述第三层级节点o均为公用节点,第三层级节点o与第四层级节点p建立键,倒排索引信息“pop-2”的位置信息2设在第二层级节点o与第三层级节点p之间的键内。

所述第二层级节点s与第三层级节点t建立键,所述第三层级节点t分别与第四层级节点a、第四层级节点o建立键,第四层级节点a与第五层级节点r建立键,第四层级节点o与第五层级节点p建立键,其中第二层级节点s与第三层级节点t为公用节点。倒排索引信息“star-3”的位置信息3设在第三层级节点a与第四层级节点r之间的键内,倒排索引信息“stop-4”的位置信息4设在第三层级节点o与第四层级节点p之间的键内。

所述第二层级节点t与第三层级节点o建立键,第三层级节点o与第四层级节点p建立键。倒排索引信息“top-5”的位置信息4设在第二层级节点o与第三层级节点p之间的键内。

所述前缀树中位于第二层的节点内设有查询数属性,用于记录该节点的查询次数,若查询索引信息时,索引信息中首位最小单位信息与该节点内的最小单位信息相同,则查询数属性+1。系统会根据查询数属性对系统匹配顺序进行排序,查询数属性越高,说明该节点中最小单位信息的查询几率更高,更容易匹配到用户要查询的内容,这种动态匹配顺序可使系统更加精准的查询到用户所要检索的内容,提高系统匹配内容的效率,节省系统资源。查询数属性可定期清零,使系统匹配顺序为近期高概率查询的内容为先,清零后系统匹配顺序为默认顺序。

如图6所示,一种使用静默化数据处理方法的静默化数据处理系统包括:数据库1、索引数据库2及数据处理模块3,所述数据处理模块3用于识别数据库1中处于静默化状态的数据,得到静默化数据,对静默化数据进行分词处理,得到索引信息,建立索引信息与静默化数据所在信息的信息坐标之间的信息对,将所述信息对转换为倒排索引,得到倒排索引信息,根据倒排索引信息中的索引信息构建前缀树,所述倒排索引信息的信息坐标设在索引信息位于前缀树中最后两位最小单位信息之间的键中,若在前缀树的相同层级中出现相同的两个索引信息,则将两个索引信息的节点合并为共用节点,最后将前缀树存入索引数据库2内。

如图7所示,所述静默化数据处理系统还包括历史结转库4,所述数据处理模块3在识别出静默化数据后,进行分词处理之前将静默化数据从数据库1转移到历史结转库4。

如图8所示,所述数据处理模块3包括数据识别子模块5、分词子模块6、倒排索引子模块7及前缀树子模块8;所述数据识别子模块5用于识别数据库1中的静默化数据;所述分词子模块6用于对静默化数据进行分词处理,得到索引信息,并建立索引信息与其对应静默化数据的信息坐标之间的信息对;所述倒排索引子模块7用于对信息对转换倒排索引,得到倒排索引信息;所述前缀树子模块8用于根据倒排索引信息中的索引信息建立前缀树,并将倒排索引信息中的信息坐标设在索引信息位于前缀树中最后两位最小单位信息之间的键中,若在前缀树的相同层级中出现相同的两个索引信息,则将两个索引信息的节点合并为共用节点,最后将前缀树存入索引数据库2内。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号