首页> 中国专利> 文本的处理方法及装置、文本的处理系统

文本的处理方法及装置、文本的处理系统

摘要

本发明公开了一种文本的处理方法及装置、文本的处理系统。其中,该方法包括:接收待处理的文本;扫描文本,使用分片策略将文本进行分片存储,获取至少一个分片文件,其中,分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件;加载索引文件,基于索引文件中的索引信息进行文件定位,得到对应的文件内容;采用多线程对定位得到的每个文件内容分别进行分区解析。本发明解决了现有技术中采用断点解析技术来扫描文件信息,定位出现故障的工作点,并将扫描结果持久化至数据库,由于扫描入库过程会频繁的操作该数据库,导致系统吞吐量差的技术问题。

著录项

  • 公开/公告号CN112749125A

    专利类型发明专利

  • 公开/公告日2021-05-04

    原文格式PDF

  • 申请/专利权人 北京明朝万达科技股份有限公司;

    申请/专利号CN202110045135.X

  • 发明设计人 王淇;赵晶;王志海;喻波;安鹏;

    申请日2021-01-13

  • 分类号G06F16/11(20190101);G06F16/13(20190101);G06F16/172(20190101);

  • 代理机构11240 北京康信知识产权代理有限责任公司;

  • 代理人周春枚

  • 地址 100142 北京市海淀区阜外亮甲店1号恩济西园产业园16号楼B座

  • 入库时间 2023-06-19 10:51:07

说明书

技术领域

本发明涉及数据处理技术领域,具体而言,涉及一种文本的处理方法及装置、文本的处理系统。

背景技术

断点解析技术核心功能可概述为在系统故障恢复后,通过一些技术手段使得恢复的系统能快速定位得到故障前的工作点,并以此工作点为起始点继续工作;即,针对由于程序故障等原因造成文件解析中断,故障恢复后可快速定位中断位置并从此位置开始继续文件解析,而不是从头开始,从而实现系统的高可用度。然而,目前市面上的类似技术的实现都是基于数据库持久化,将扫描的文件信息持久化至数据库,故障恢复后通过读取数据库来获取故障前的工作点,进而继续工作;这种方式需要扫描信息入库,频繁的操作数据库,海量数据会造成性能下降,进而影响系统的整体吞吐量。

针对上述现有技术中采用断点解析技术来扫描文件信息,定位出现故障的工作点,并将扫描结果持久化至数据库,由于扫描入库过程会频繁的操作该数据库,导致系统吞吐量差的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本的处理方法及装置、文本的处理系统,以至少解决现有技术中采用断点解析技术来扫描文件信息,定位出现故障的工作点,并将扫描结果持久化至数据库,由于扫描入库过程会频繁的操作该数据库,导致系统吞吐量差的技术问题。

根据本发明实施例的一个方面,提供了一种文本的处理方法,包括:接收待处理的文本;扫描所述文本,使用分片策略将所述文本进行分片存储,获取至少一个分片文件,其中,所述分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件;加载所述索引文件,基于所述索引文件中的索引信息进行文件定位,得到对应的文件内容;采用多线程对定位得到的每个文件内容分别进行分区解析。

可选的,在扫描所述文本之前,该文本的处理方法还包括:接收到下发的配置文件,其中,所述配置文件包括:用于确定所述分片策略的分片策略文件、用于确定所述索引文件的策略文件分片策略。

可选地,从配置中心获取所述配置文件,并定期更新所述配置文件中的配置信息。

可选地,所述索引文件至少包括如下两个字段:用于定位所述文件内容的存储地址的初始位置和偏移量,其中,所述文件内容至少包括如下两个字段:索引码和数据元信息。

根据本发明实施例的另外一个方面,还提供了一种文本的处理装置,包括:接收单元,用于接收待处理的文本;扫描单元,用于扫描所述文本,使用分片策略将所述文本进行分片存储,获取至少一个分片文件,其中,所述分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件;获取单元,用于加载所述索引文件,基于所述索引文件中的索引信息进行文件定位,得到对应的文件内容;解析单元,用于采用多线程对定位得到的每个文件内容分别进行分区解析。

可选地,该文本的处理装置还包括:所述接收单元,用于在扫描所述文本之前,接收到下发的配置文件,其中,所述配置文件包括:用于确定所述分片策略的分片策略文件、用于确定所述索引文件的策略文件分片策略。

可选地,从配置中心获取所述配置文件,并定期更新所述配置文件中的配置信息。

可选地,所述索引文件至少包括如下两个字段:用于定位所述文件内容的存储地址的初始位置和偏移量,其中,所述文件内容至少包括如下两个字段:索引码和数据元信息。

根据本发明实施例的另外一个方面,还提供了一种文本的处理系统,包括:控制子系统,用于提供配置文件,其中,所述配置文件,其中,所述配置文件包括:用于确定所述分片策略的分片策略文件、用于确定所述索引文件的策略文件分片策略;文件扫描子系统,与所述控制子系统通信,用于扫描待处理的文本,使用所述分片策略将所述文本进行分片存储,获取至少一个分片文件,其中,所述分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件;文件解析子系统,用于加载所述索引文件,基于所述索引文件中的索引信息进行文件定位,得到对应的文件内容,并采用多线程对定位得到的每个文件内容分别进行分区解析。

可选地,该文本的处理系统还包括:配置中心,分别于所述控制子系统、所述文件扫描子系统和所述文件解析子系统具有通信关系,用于接收并存储所述控制子系统下发的所述配置文件,并提供所述配置文件给所述文件扫描子系统和所述文件解析子系统。

可选地,该文本的处理系统还包括:文件服务器,与所述文件扫描子系统通信,用于将制定目录下的所述文件发送给所述文件扫描子系统。

根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机存储介质所在设备执行上述中任一项所述的文本的处理方法。

根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述中任一项所述的文本的处理方法。

在本发明实施例中,采用接收待处理的文本;扫描文本,使用分片策略将文本进行分片存储,获取至少一个分片文件,其中,分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件;加载索引文件,基于索引文件中的索引信息进行文件定位,得到对应的文件内容;采用多线程对定位得到的每个文件内容分别进行分区解析,通过本发明实施例提供的文本的处理方法,实现了通过引入索引文件,以加快文件信息定位的目的,达到了提高系统吞吐量的技术效果,进而解决了现有技术中采用断点解析技术来扫描文件信息,定位出现故障的工作点,并将扫描结果持久化至数据库,由于扫描入库过程会频繁的操作该数据库,导致系统吞吐量差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的文本的处理方法的流程图;

图2是根据本发明实施例的文本的处理系统的示意图;

图3是根据本发明实施例的扫描文件的示意图;

图4是根据本发明实施例的文件解析的示意图;

图5是根据本发明实施例的文本的处理方法的示意图;

图6是根据本发明实施例的文本的处理装置的示意图;

图7是根据本发明实施例的文本的处理系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例,提供了一种文本的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的文本的处理方法的流程图,如图1所示,该文本的处理方法包括如下步骤:

步骤S102,接收待处理的文本。

在该实施例中,可以先接收待处理的文本。

步骤S104,扫描文本,使用分片策略将文本进行分片存储,获取至少一个分片文件,其中,分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件。

在该实施例中,可以对接收到的待处理的文本进行扫描,并对扫描结果采用分片策略进行分片存储,接着获取至少一个分片文件。

步骤S106,加载索引文件,基于索引文件中的索引信息进行文件定位,得到对应的文件内容。

在该实施例中,可以加载索引文件,并基于索引文件中共的索引信息进行文件定位,以得到对应的文件内容。

步骤S108,采用多线程对定位得到的每个文件内容分别进行分区解析。

在该实施例中,可以采用多线程对定位得到的每个文件内容进行分区解析。

由上可知,在本发明实施例中,可以接收待处理的文本;扫描文本,使用分片策略将文本进行分片存储,获取至少一个分片文件,其中,分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件;加载索引文件,基于索引文件中的索引信息进行文件定位,得到对应的文件内容;采用多线程对定位得到的每个文件内容分别进行分区解析,实现了通过引入索引文件,以加快文件信息定位的目的,达到了提高系统吞吐量的技术效果。

因此,通过本发明实施例提供的文本的处理方法,解决了现有技术中采用断点解析技术来扫描文件信息,定位出现故障的工作点,并将扫描结果持久化至数据库,由于扫描入库过程会频繁的操作该数据库,导致系统吞吐量差的技术问题。

图2是根据本发明实施例的文本的处理系统的示意图,如图2所示,该系统主要由三个子系统工作协作完成,分别为:控制台子系统、文件扫描子系统、文件解析子系统;文件服务器与文件扫描子系统通信,文件扫描子系统可以根据控制台子系统下发的索引分片策略对读取的文件信息进行分片存储并维护索引文件;控制台子系统可以提供系统配置(例如,策略信息、动作类型、扫描索引文件分配策略)参数下发以及后台管理可视化界面;文件解析子系统可根据分片策略读取索引文件,并根据索引定位具体的文件信息,进而得到源文件进行解析,将命中敏感策略的文件信息上报至控制台。

这里的索引分片是将一个大的索引文件根据某种策略拆分成若干个小的索引文件,便于维护,可以提高数据检索效率。

在一种可选的实施例中,在扫描文本之前,该文本的处理方法还可以包括:接收到下发的配置文件,其中,配置文件包括:用于确定分片策略的分片策略文件、用于确定索引文件的策略文件分片策略。

在该实施例中,控制台子系统可以向配置中心下发配置文件,例如,用于确定分片策略文件、索引文件的策略文件分片策略、系统配置信息。

即,在本发明实施例中,用户可通过控制台下发系统配置信息、策略信息、索引文件分片策略等参数至配置中心。

在一种可选的实施例中,从配置中心获取配置文件,并定期更新配置文件中的配置信息。

在该实施例中,各个子系统与配置中心可以交互获取参数信息;例如,文件扫描子系统可以从配置中心获取系统配置信息、索引文件分片策略,文件解析子系统可以从配置中心获取系统配置信息以及策略信息;即,在本发明实施例中,各个子系统(如,文件扫描子系统、文件解析子系统)可以从配置中心获取相应的配置信息并进行更新。

在一种可选的实施例中,索引文件至少包括如下两个字段:用于定位文件内容的存储地址的初始位置和偏移量,其中,文件内容至少包括如下两个字段:索引码和数据元信息。

在该实施例中,文件扫描子系统可以依据控制台下发的分片策略,对扫描的文件进行分片存储并维护相应的索引信息,索引文件主要包含两个字段:偏移量offset、数据文件中存储该条记录的起始位置position;数据文件主要包含两个字段:索引码offset、数据元信息datainfo。

图3是根据本发明实施例的扫描文件的示意图,如图3所示,文件服务器在指定目标下获取文件信息,并将获取的文件下发至文件扫描子系统;文件扫描子系统可以依据分片策略将文件信息写入数据文件并维护相应索引信息,接着可通过控制台向配置中心下发策略信息、索引文件分片策略、系统配置信息。

图4是根据本发明实施例的文件解析的示意图,如图4所示,在从基于索引文件搜索到数据文件后,会将数据文件发送至文件解析子系统,文件解析子系会判断是否命中处理,所示则上报控制台。最终,文件解析子系统通过加载索引文件快速定位文件信息,实现多线程进行分区解析,提高系统的整体吞吐量。

图5是根据本发明实施例的文本的处理方法的示意图,如图5所示,数据防泄漏DLP控制台中的DLP后台管理系统会向配置中心下发策略信息、索引文件分片策略、系统配置信息;系统配置中心会将接收到的信息下发至文件扫描子系统,文件扫描子系统可根据控制台洗发的索引分片策略对读取的文件信息进行分片存储并维护索引文件。

通过本发明实施例提供的文本的处理方法,有效解决了现有技术中海量文件进行扫描解析所带来的性能瓶颈问题,提出了一种扫描解析过程中由于程序故障等多种原因造成解析中断,以及故障恢复后快速定位断点的解决方案。相对于传统文件扫描解析的性能瓶颈,利用本发明实施例提供的文本的处理方法采用分区扫描策略大大增强了系统的整体吞吐量;并且引入了索引文件,加快文件信息定位,实现了快速扫描;在系统解析过程中崩溃时,重启后可通过偏移量参数继续解析,实现断点解析。

实施例2

根据本发明实施例的另外一个方面,还提供了一种文本的处理装置,图6是根据本发明实施例的文本的处理装置的示意图,如图6所示,该文本的处理装置可以包括:接收单元61,扫描单元63,获取单元65以及解析单元67。下面对该文本的处理装置进行说明。

接收单元61,用于接收待处理的文本。

扫描单元63,用于扫描文本,使用分片策略将文本进行分片存储,获取至少一个分片文件,其中,分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件。

获取单元65,用于加载索引文件,基于索引文件中的索引信息进行文件定位,得到对应的文件内容。

解析单元67,用于采用多线程对定位得到的每个文件内容分别进行分区解析。

此处需要说明的是,上述接收单元61,扫描单元63,获取单元65以及解析单元67对应于实施例1中的步骤S102至S108,上述单元与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

由上可知,在本申请上述实施例中,可以利用接收单元接收待处理的文本;然后利用扫描单元扫描文本,使用分片策略将文本进行分片存储,获取至少一个分片文件,其中,分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件;接着利用获取单元加载索引文件,基于索引文件中的索引信息进行文件定位,得到对应的文件内容;以及利用解析单元采用多线程对定位得到的每个文件内容分别进行分区解析。通过本发明实施例提供的文本的处理装置,实现了通过引入索引文件,以加快文件信息定位的目的,达到了提高系统吞吐量的技术效果,解决了现有技术中采用断点解析技术来扫描文件信息,定位出现故障的工作点,并将扫描结果持久化至数据库,由于扫描入库过程会频繁的操作该数据库,导致系统吞吐量差的技术问题。

在一种可选的实施例中,该文本的处理装置还包括:接收单元,用于在扫描文本之前,接收到下发的配置文件,其中,配置文件包括:用于确定分片策略的分片策略文件、用于确定索引文件的策略文件分片策略。

在一种可选的实施例中,从配置中心获取配置文件,并定期更新配置文件中的配置信息。

在一种可选的实施例中,索引文件至少包括如下两个字段:用于定位文件内容的存储地址的初始位置和偏移量,其中,文件内容至少包括如下两个字段:索引码和数据元信息。

实施例3

根据本发明实施例的另外一个方面,还提供了一种文本的处理系统,图7是根据本发明实施例的文本的处理系统的示意图,如图7所示,该文本的处理系统包括:

控制子系统71,用于提供配置文件,其中,配置文件,其中,配置文件包括:用于确定分片策略的分片策略文件、用于确定索引文件的策略文件分片策略。

文件扫描子系统73,与控制子系统通信,用于扫描待处理的文本,使用分片策略将文本进行分片存储,获取至少一个分片文件,其中,分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件。

文件解析子系统75,用于加载索引文件,基于索引文件中的索引信息进行文件定位,得到对应的文件内容,并采用多线程对定位得到的每个文件内容分别进行分区解析。

通过本发明实施例提供的文本的处理系统,可以利用控制子系统提供配置文件,其中,配置文件,其中,配置文件包括:用于确定分片策略的分片策略文件、用于确定索引文件的策略文件分片策略;然后利用与控制子系统通信的文件扫描子系统扫描待处理的文本,使用分片策略将文本进行分片存储,获取至少一个分片文件,其中,分片文件包括:多个分片内容、由每个分片内容的索引信息构成的索引文件;并利用文件解析子系统加载索引文件,基于索引文件中的索引信息进行文件定位,得到对应的文件内容,并采用多线程对定位得到的每个文件内容分别进行分区解析,实现了通过引入索引文件,以加快文件信息定位的目的,达到了提高系统吞吐量的技术效果,解决了现有技术中采用断点解析技术来扫描文件信息,定位出现故障的工作点,并将扫描结果持久化至数据库,由于扫描入库过程会频繁的操作该数据库,导致系统吞吐量差的技术问题。

在一种可选的实施例中,该文本的处理系统还包括:配置中心,分别于控制子系统、文件扫描子系统和文件解析子系统具有通信关系,用于接收并存储控制子系统下发的配置文件,并提供配置文件给文件扫描子系统和文件解析子系统。

在一种可选的实施例中,该文本的处理系统还包括:文件服务器,与文件扫描子系统通信,用于将制定目录下的文件发送给文件扫描子系统。

实施例4

根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序被处理器运行时控制计算机存储介质所在设备执行上述中任一项的文本的处理方法。

实施例5

根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行计算机程序,其中,计算机程序运行时执行上述中任一项的文本的处理方法。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号