首页> 中国专利> 索引结构、非结构化数据的检索方法、装置和设备

索引结构、非结构化数据的检索方法、装置和设备

摘要

本发明示例性实施例提供一种索引结构、非结构化数据的检索方法、装置和设备,针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;基于所述索引结构对所述具体业务场景的非结构化数据进行分类;根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。本发明能够提升非结构化数据的检索性能。

著录项

说明书

技术领域

本发明示例性实施例涉及数据处理技术领域,尤其涉及一种索引结构、非结构化数据的检索方法、装置和设备。

背景技术

随着业务种类的逐渐繁多和业务的不断发展,对业务搜索筛选的粒度越来越细,统计维度也随之越来越多,在实际业务场景中,针对于各类不同业务上存在的各种排序需求、搜索时限需求等,现有的搜索方式受到较大的局限性。

针对现在种类繁多的业务,不同业务的索引类型又不尽相同,使用动态的索引增加的索引字段会杂然无章,且一线开发人员在一定程度上对非结构化数据的了解也不全面,指定的索引类型也不全面,更不容易进行管理,不适当的指定和管理反而会降低非结构化数据的性能,对于保存业务数据的系统而言,目前还没有能够解决上述问题的方法或装置出现。

发明内容

有鉴于此,本发明示例性实施例的目的在于提出一种索引结构、非结构化数据的检索方法、装置和设备,以解决目前的保险系统中多业务场景下的非结构化数据搜索性能较低的问题。

基于上述目的,第一方面,本发明示例性实施例提供了一种索引结构,应用于非结构化数据的高可用搜索,所述索引结构包括以下信息中的一种要素:

系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;

其中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息。

结合上述说明,在本发明实施例另一种可能的实施方式中,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。

第二方面,本发明示例性实施例还提供了一种非结构化数据的检索方法,包括:

针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;

基于所述索引结构对所述具体业务场景的非结构化数据进行分类;

根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。

结合上述说明,在本发明实施例另一种可能的实施方式中,所述基于所述索引结构对所述具体业务场景的非结构化数据进行分类,包括:

对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;

每一所述母类和所述子类均为横向和纵向可扩展的。

结合上述说明,在本发明实施例另一种可能的实施方式中,所述方法还包括:

确定待检索的非结构化数据的横向分类和纵向分类;

在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置。

结合上述说明,在本发明实施例另一种可能的实施方式中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。

第三方面,本发明示例性实施例还提供了一种非结构化数据的检索装置,其特征在于,包括:

构建模块,用于针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;

分类模块,用于基于所述索引结构对所述具体业务场景的非结构化数据进行分类;

检索模块,用于根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。

上述的装置,所述分类模块,还用于:

对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;其中,每一所述母类和所述子类均为横向和纵向可扩展的。

上述的装置,所述装置还包括:

第一确定模块,用于确定待检索的非结构化数据的横向分类和纵向分类;

第二确定模块,用于在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置;

所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。

第四方面,本发明示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的非结构化数据的检索方法。

从上面所述可以看出,本发明示例性实施例提供的索引结构、非结构化数据的检索方法、装置和设备,通过构建一种多具体业务场景下的索引结构,该索引结构包括横向与纵向的各种母类和子类,而且随着业务的不断增多,索引结构也可随之更加丰富,因此,在不需要进行全量检索的前提下,本发明多业务高可用搜用解决方案能够无限接近实时搜索,大幅提升了非结构化数据的搜索性能。

附图说明

为了更清楚地说明本发明示例性实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明示例性实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明示例性实施例索引结构示意图;

图2为本发明示例性实施例非结构化数据的检索方法流程基本示意图;

图3为本发明示例性实施例非结构化数据的检索装置基本结构示意图;

图4为本发明示例性实施例的设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

需要说明的是,除非另外定义,本发明示例性实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明示例性实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

在保险系统的底层分布式存储系统或云存储系统(如内容云)中,一般地,在根权限下存在多个租户,每一租户对应于多个桶用于存储各类数据对象,所述租户可对应于保险系统中的某一类大部门,所述桶可对应于保险系统中的中级部门,所述桶中又可包括有多个类型的应用数据或者各种类型的子系统存储数据,每一个部门可认为是一个具体的业务场景。

本发明涉及一种索引结构、非结构化数据的检索方法、装置和设备,其主要运用于保险系统具体场景的非结构化数据的存储与检索场景中,其基本思想是:通过构建一种多具体业务场景下的索引结构,该索引结构包括横向与纵向的各种母类和子类,而且随着业务的不断增多,索引结构也可随之更加丰富,因此,在不需要进行全量检索的前提下,本发明多业务高可用搜用解决方案能够无限接近实时搜索,大幅提升了非结构化数据的搜索性能。

本实施例可适用于带有索引模块的智能型终端中以进行非结构化数据的搜索的情况中,该方法可以由索引检索的装置来执行,其中该装置可以由软件和/或硬件来实现,一般地可集成于移动终端中,或者终端中的中心控制模块来控制,如图1所示,为本发明示例性实施例的索引结构的示意图,其应用于非结构化数据的高可用搜索,所述索引结构包括以下信息中的一种要素:

系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;

其中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息。

结合图1所示,所述内容云索引结构为在保险系统的云存储时建立的索引结构,非结构化数据一般为文本信息、图片信息、视频信息等,系统生成的索引信息及文件识别信息是由系统生成的,比如文件名、分片文件名、存储位置、文件类型、文件大小等;应用方自定义业务信息是根据应用系统情况进行定义的,比如证件号、业务流水号、借记卡号、医保卡号、疾病种类等;操作员轨迹信息对操作员进行轨迹跟踪,比如操作员工号、操作员操作动作等。

结合图1所示,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。

本发明示例性实施例的一种实施方式中,所述索引结构中的各要素的排序并非是一成不变的,而是可变化的,而在搜索时提供给用户的索引结构的要素排序可根据用户的偏好进行设定,进一步地,索引结构根据业务可以进行二次划分,针对具体的场景业务可以再次划分为基础使用类、投保类、理赔类、影像采集类、双录类、轨迹类、分公司类等,该涉及模型可以随着业务的不断扩大,动态进行横向和纵向扩展。

本发明示例性实施例还提供一种非结构化数据的检索方法,结合图2所示,为本发明的方法基本流程示意图,这一过程包括:

在步骤210中,针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;

结合图1所示,在保险系统中,非结构化数据一般为文本信息、图片信息、视频信息等,系统生成的索引信息及文件识别信息是由系统生成的,比如文件名、分片文件名、存储位置、文件类型、文件大小等;应用方自定义业务信息是根据应用系统情况进行定义的,比如证件号、业务流水号、借记卡号、医保卡号、疾病种类等;操作员轨迹信息对操作员进行轨迹跟踪,比如操作员工号、操作员操作动作等。

在步骤220中,基于所述索引结构对所述具体业务场景的非结构化数据进行分类;

在存储时,将非结构化数据的文件名按照索引结构中的要素进行命名,则可按照该要素对已有的以及将要存储的非结构化数据进行分类。

所述具体业务场景,包括抽保类、理赔类等在保险系统内的业务场景。

在步骤230中,根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。

本发明示例性实施例的一种实施方式中,以针对投保类的无纸化投保的具体业务场景为例,可以根据无纸化的索引信息指定系统字段或者自定义业务字段进行搜索,即在投保类的分类后的非结构化数据的相应存储位置进行搜索。

本发明示例性实施例的一种更具体的实施方式中,还包括:根据自定义的业务信息,各业务系统进行个性化的数据统计;如可以根据系统数据,指定单个字段或者多个字段进行按年、月、日进行统计;还可以根据创建时间、更新时间统计近期的业务量;可以根据文件大小统计占用存储的使用空间等。

根据操作员轨迹信息,可以跟踪操作员信息,责任到人。如可以根据操作员的操作记录操作员操作的哪个数据、如何操作的、操作的时间、操作是否成功等等,将责任到人。

本发明的方法,分类后的索引结构使得非结构化数据不需要全量检索,只需要根据划分进行近实时的搜索,达到最优性能,因此能够大幅提升非结构化数据的搜索性能。

本发明示例性实施例的一种实施方式中,所述基于所述索引结构对所述具体业务场景的非结构化数据进行分类,包括:

对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;

每一所述母类和所述子类均为横向和纵向可扩展的。

结合图1所示,本发明的第一母类可以为基础使用类、投保类、理赔类、影像采集类、双录类、轨迹类以及分公司类等,随着具体业务场景的扩展或增加,该行的母类可以随之扩展,所述纵向分类及子类包括,例如所述基础使用类的母类之下,包括cms为开头的若干子类,其中的每一子类在横向上是可以扩展的,且在纵向上也是可以扩展的,每一个子类也可作为母类具有若干个子类。

本发明的方法,可以实现索引信息的动态扩展,在提升检索性能的基础上,个性化定制索引,个性化进行数据统计分析,实现高可用的性能,亦可在此基础上对场景优化进行反哺。

本发明示例性实施例的一种实施方式中,所述方法还包括:确定待检索的非结构化数据的横向分类和纵向分类;在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置。

在进行非结构化的数据搜索时,可首先确定非结构化数据的横向分类和纵向分类,然后在此分类基础上,结合输入的关键字信息,例如关键字信息为“x-cms-sys-id”,则可以根据该关键字信息快速确定待检索的非结构数据的存储位置,以实现数据定位,快速进行查找。

本发明示例性实施例的实施方式中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展,具体地,对于要求的排序和横向或纵向拓展,请参考图1所示。

可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。

图3为本发明实施例提供的一种非结构化数据的检索装置的结构示意图,该装置可由软件和/或硬件实现,一般地集成于智能终端中,可通过非结构化数据的检索方法来实现。如图所示,本实施例可以以上述实施例为基础,提供了一种非结构化数据的检索装置,其主要包括了构建模块310、分类模块320以及检索模块330。

其中的构建模块310,用于针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;

其中的分类模块320,用于基于所述索引结构对所述具体业务场景的非结构化数据进行分类;

其中的检索模块330,用于根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。

上述的装置,所述分类模块320还用于:

对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;其中,每一所述母类和所述子类均为横向和纵向可扩展的。

上述的装置,所述装置还包括:

第一确定模块,用于确定待检索的非结构化数据的横向分类和纵向分类;

第二确定模块,用于在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置;

所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。

上述实施例中提供的非结构化数据的检索装置可执行本发明中任意实施例中所提供的非结构化数据的检索方法,具备执行该方法相应的功能模块和有益效果,未在上述实施例中详细描述的技术细节,可参见本发明任意实施例中所提供的非结构化数据的检索方法。

本说明书实施例中涉及的技术载体,例如可以包括近场通信(Near FieldCommunication,NFC)、WIFI、3G/4G/5G、POS机刷卡技术、二维码扫码技术、条形码扫码技术、蓝牙、红外、短消息(Short Message Service,SMS)、多媒体消息(Multimedia MessageService,MMS)等。

本说明书实施例中所述生物识别所涉及的生物特征,例如可以包括眼部特征、声纹、指纹、掌纹、心跳、脉搏、染色体、DNA、人牙咬痕等。其中眼纹可以包括虹膜、巩膜等生物特征。

需要说明的是,本发明示例性实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明示例性实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本发明示例性实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行本发明实施例的非结构化数据的检索方法。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序及程序本身的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息,以用于执行本发明实施例的上述技术方案。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明示例性实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本发明示例性实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明示例性实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明示例性实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明示例性实施例。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。

本发明示例性实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明示例性实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号