首页> 中国专利> 用于促进数据发现的系统和方法

用于促进数据发现的系统和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种用于促进在网络上的数据发现的系统，其中，网络具有一个或多个数据存储装置。系统可包括配置成选择至少第一文件集和第二文件集的爬虫程序，第一文件集和第二文件集中的每个存储在一个或多个数据存储装置至少之一中。系统也可包括配置成获得第一文件集的副本的数据获取器程序，数据获取器程序还配置成阻止获得第二文件集的副本。系统也可包括实现爬虫程序和数据获取器程序中的一个或多个程序的一个或多个功能的电路硬件。

著录项

公开/公告号CN102741803A

专利类型发明专利
公开/公告日2012-10-17

原文格式PDF
申请/专利权人 EMC公司;
展开▼

申请/专利号CN201080063921.2
发明设计人 A.S.蒙德;C.特里富纳斯;M.苏哈卡;
展开▼

申请日2010-10-12
分类号G06F7/00;G06F17/30;
代理机构中国专利代理(香港)有限公司;
代理人汤春龙
地址美国麻萨诸塞州
入库时间 2023-12-18 07:02:10

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-03

授权

授权
2012-12-12

实质审查的生效 IPC(主分类):G06F7/00 申请日:20101012

实质审查的生效
2012-10-17

公开

公开

说明书

相关申请交叉引用

本国际专利申请根据PCT实施细则4.10和PCT第8条款要求具有2009年12月15日在美国专利商标局提出的题为“用于促进数据发现的系统和方法”(SYSTEMS AND METHODS FOR FACILITATING DATA DISCOVERY)的美国专利申请12/638067的优先权，并且该申请通过引用结合于本文中。

背景技术

本发明涉及数据发现，诸如法律数据发现。组织今天面临着与数据发现有关的各种挑战。增大的数字化内容、由于管制要求原因的数据保留、生产率工具的流行、在通信网络上数据的可用性及其它因素已推动在组织中数据量的快速增长。响应快速数据增长，许多组织已通过各种数据存储装置扩展数据存储，并且已利用各种供应商提供的各种工具执行各种数据发现任务来实现数据发现。通常情况下，在工具与执行的任务之间的时标差和速度不匹配可导致诸如错失的数据和响应数据发现请求时的等待时间等问题。

一般而言，数据发现可涉及诸如识别、收集、挑选、处理、分析、检查、生产和保存等任务。通常情况下，这些任务可由不同供应商提供的不同工具执行。例如，识别和收集的任务可由识别收集工具执行，并且处理的任务可由耦合到识别收集工具的单独处理工具执行。由于识别和收集可比处理快得多地执行，因此，识别收集工具可不必要收集太多数据，使得处理工具可能不能及时地处理所有收集的数据。因此，相当大部分的所收集数据可未经处理而被丢弃。因此，一些重要的数据可能得不到适当地分析和保存。另外，如果工具的用户期望数据发现工具以与数据收集速度一致的速度响应数据发现请求，则用户可体验到在处理工具处的延迟造成的相当大等待时间。

在一些布置中，可需要数据在一些数据发现工具之间手动传送。手动进程可造成在工具中和在数据发现进程中相当大的错误量。

发明内容

本发明的一实施例涉及一种用于促进在网络上数据发现的系统，其中，网络具有一个或多个数据存储装置。系统可包括配置成选择至少第一文件集和第二文件集的爬虫程序，第一文件集和第二文件集中的每个存储在一个或多个数据存储装置至少之一中。系统也可包括配置成获得第一文件集的副本的数据获取器程序，数据获取器程序还配置成阻止获得第二文件集的副本。系统也可包括实现爬虫程序和数据获取器程序中的一个或多个程序的一个或多个功能的电路硬件。

以上发明内容仅涉及本文中公开的本发明的许多实施例之一，并且无意限制在本文中权利要求书中陈述的本发明的范围。下面将在本发明的详细描述中结合附图更详细地描述本发明的这些和其它特征。

附图简述

在附图中，以示例方式而不是限制方式示出本发明的实施例，并且附图中，相似的标号表示类似的元件，以及其中：

图1A示出的图示显示根据本发明的一个或多个实施例，用于促进数据发现的系统和系统的示例操作环境。

图1B示出的框图显示根据本发明的一个或多个实施例，用于促进数据发现的系统的一些组件。

图2A示出的图示显示根据本发明的一个或多个实施例，用于促进数据发现的布置。

图2B示出的表格显示根据本发明的一个或多个实施例，用于触发在促进数据发现时数据发现任务之间另外协调的条件。

具体实施方式

将参照如附图所示的本发明的几个实施例，详细描述本发明。在下面的说明中，为提供本发明的详尽理解而陈述了多个特定的细节。然而，本领域的技术人员将明白，可在这些特定细节中的一些或所有细节不存在的情况下实践本发明。在其它实例中，未详细描述熟知的进程步骤和/或结构，以免不必要地混淆本发明。

在本文中下面描述各种实施例，包括方法和技术。应记住的是，本发明可能也包括制品，制品包括在其上存储用于执行发明技术的实施例的计算机可读指令的计算机可读媒体。计算机可读媒体例如可包括用于存储计算机可读代码的半导体、磁性、光-磁、光学或其它形式的计算机可读媒体。此外，本发明也包括用于实践本发明的实施例的设备。此类设备可包括执行与本发明的实施例有关的任务的电路，专用的和/或可编程的。此类设备的示例包括在适当编程时的专用计算装置和/或通用计算机，并且可包括计算机/计算装置和适用于与本发明的实施例有关的各种任务的专用/可编程电路的组合。

本发明的一个或多个实施例涉及一种用于在具有一个或多个数据存储装置的网络上促进数据发现的系统。系统可包括用于扫描文件批(或集)以识别相关数据和/或识别数据存储在哪里的爬虫程序。例如，文件批(或集)可包括第一文件集、第二文件集、第三文件集和第四文件集。第一文件集、第二文件集、第三文件集和第四文件集中的每个可存储在网络上一个或多个数据存储装置至少之一中。

系统也可包括数据获取器程序。数据获取器程序可获得第一文件集的副本、第二文件集的副本和第三文件集的副本以便随后处理。为调节与不同数据发现任务相关联的速度，在爬虫程序的扫描速度可比数据获取器程序的获取速度快得多的条件下，数据获取器程序可提供“反压力”或阻力(例如，针对爬虫程序)以阻止获得第四文件集的副本。反压力在一个或多个条件得以满足时可由数据获取器程序应用。例如，反压力条件可以是在第一文件集(的副本)、第二文件集(的副本)和/或第三文件集(的副本)中文件的数量超过文件数量阈值。有利的是，可根据数据获取器程序的获取速度适当地调谐爬虫程序的扫描速度，使得文件/数据的丢弃可得以防止。

系统也可包括处理程序。处理程序可在数据获取器程序获取的第一文件集的副本和第二文件集的副本上执行一个或多个服务。例如，一个或多个服务可包括提取数据和/或使用数据生成哈希码。为调节与不同数据发现任务相关联的速度，在数据获取器程序的获取速度可比处理程序的处理速度快得多的条件下，处理程序可提供“反压力”或阻力(例如，针对数据获取器程序)以阻止在第三文件集的副本上执行任何服务。在一个或多个条件得以满足时可由处理程序提供反压力。例如，反压力条件可以是与第一文件集(的副本)和/或第二文件集(的副本)中的一个或多个文件相关联的一个或多个文件格式不属于预确定的文件格式集。有利的是，可根据处理程序的处理速度适当地调谐数据获取程序的获取速度，使得文件/数据的丢弃可得以防止。

系统也可包括搜索索引程序。搜索索引程序可使用第一文件集的副本生成至少一个搜索索引。为调节与不同数据发现任务相关联的速度，在处理程序的处理速度可比搜索索引程序的搜索索引生成速度快得多的条件下，搜索索引程序可提供“反压力”或阻力(例如，针对处理程序)以阻止从第二文件集的副本生成任何搜索索引。可在一个或多个条件得以满足时由搜索索引程序提供反压力。例如，反压力条件可以是在第一文件集中索引的文本量超过文本量阈值。有利的是，可根据搜索索引程序的搜索索引生成速度适当地调谐处理程序的处理速度，使得文件/数据的丢弃可得以防止。

系统也可包括可实现爬虫程序、数据获取器程序、处理程序和搜索索引程序的一个或多个程序的一个或多个功能的电路硬件。系统也可包括存储一个或多个程序的计算机可读媒体。

通过调节与各种数据发现任务相关联的速度，系统可有效地防止在执行数据发现时的等待时间和数据丢弃。

参照下面的图形和讨论，可更好地理解本发明的特征和优点。

图1A示出的图示显示根据本发明的一个或多个实施例，用于促进数据发现的系统100和系统100的示例操作环境。系统100可执行和/或促进数据发现任务，诸如识别、收集、挑选、处理、分析和检查中的一个或多个。与现有技术布置不同，系统100可以通过任务的协调速度以集成的方式执行和/或促进多个数据发现任务。如图1A的示例中所示，系统100可与网络102耦合以便促进在网络102上的数据发现，其可包括各种数据源，如一个或多个文件系统104、一个或多个电子邮件存储库106、一个或多个膝上型计算机108、一个或多个台式计算机110、一个或多个企业内容管理存储库112、一个或多个企业搜索门户(portal)114和/或负载/导入源116(例如，压缩盘、USB驱动器等)所示。

系统100也可通过网络120(例如宽域网)与各种终端装置耦合，使得经授权的用户可访问系统100以操作和/或维护系统100。用户可包括信息技术(IT)用户192(诸如企业系统工程师)和法律用户194(诸如涉及特定法律案例的律师和律师助理)。

系统100也可与诸如文件系统182等一个或多个文件系统耦合以便保存数据。IT用户196可从文件系统182检索数据以便根据特定要求生成特定报告。

系统100也可与诸如生产伙伴184等一个或多个生产伙伴耦合。系统100可将数据和元数据(例如，以XML格式)导出到生产伙伴184。另外或备选，生产伙伴184可从文件系统182和/或其它文件系统导入数据和元数据。使用数据和元数据，生产伙伴184可生成报告和/或文档以供法律用户198使用。同时，生产伙伴184也可以是数据源，使得生产伙伴184生成的报告和文档可提供到系统100以便执行相关数据发现任务。

系统100可包括用于以集成且协调的方式执行和/或促进数据发现任务的各种软件和硬件组件。系统100可包括诸如计算机可读媒体124等计算机可读媒体以便存储软件组件。系统100也可包括诸如电路硬件122等电路以便实现与软件组件相关联的功能。计算机可读媒体124和电路硬件122可在系统100的相同外壳内实现。参照图1B的示例讨论系统100的一些组件。

图1B示出的框图显示根据本发明的一个或多个实施例，用于促进数据发现的系统100的一些组件。系统100可包括各种功能模块/程序，诸如作业管理器132、一个或多个爬虫134(或爬虫程序134)、队列管理器136、一个或多个服务配置文件138、数据获取器程序140、判定引擎158、一个或多个服务提供商142(或处理程序142)及存储器管理程序144。可在图1的示例中所示计算机可读媒体124中存储功能模块/程序。

作业管理器132可执行作业调度、爬行管理和故障转移(failover)管理中的一个或多个。作业调度可涉及允许用户开始/停止/监视数据处理和/或数据发现作业。作业管理器132可通过命令行接口(CLI)和/或图形用户接口(GUI)接受用户输入。为开始作业，作业管理器132可在适当的节点中产生爬虫。为停止/监视作业，作业管理器132可与队列管理器136交互。

作业管理器132可定期或基于日历调度作业。这些作业的主要任务可以是通过利用一个或多个爬虫134识别文件/对象的位置，选择文件/对象，和/或在选定的文件/对象上执行各种操作，穿行文件分层结构(本地或远程)。

通过利用队列管理器136管理的集中队列集，可执行要处理的文件的分布。队列管理器136可在作业管理器132中实现，耦合到作业管理器132和/或在节点中实现。队列管理器136可在执行文件处理的单独服务提供商142中分布文件/负载。

一个或多个爬虫134可包括文件/电子邮件爬虫168、元数据爬虫、Centera^TM爬虫、搜索结果逻辑、数据库结果逻辑等中的一个或多个。

根据本发明的一个或多个实施例，爬虫可包括逻辑以执行枚举源数据集的任务以及应用如确定作为适合候选的对象(或文件)以便处理所需的任何过滤器/策略。爬虫可根据一个或多个NFS(网络文件系统)和CIFS(共同因特网文件系统)协议扫描文件。爬虫随后可将适合对象(或文件)的列表与需要在适合对象上应用为服务项目的服务配置文件(在例如爬虫中实现或在判定引擎158中实现的逻辑确定的服务配置文件138之中)一起馈入队列管理器136。根据本发明的一个或多个实施例的爬虫可配置成仅扫描元数据而不访问内容数据，并且可有利地以比本领域熟知的常规“爬虫”更有效地操作。此外，根据本发明的爬虫可根据元数据将非结构化数据(或包含非结构化数据的文件)分类。

爬虫可在选定对象上执行例如一个或多个以下操作：在对象(文件)级文件系统的数据完整性、近线(nearline)、编目(经常称为浅或基本分类)及深度剖析。近线可涉及对象(文件)到另一位置(通常在一个或多个文件系统内的某一位置中)的复制。编目可涉及提取在远程文件系统处存在的选定文档/文件的用户/环境参数，并创建文档的独特指纹。深度剖析可涉及在基于关键字、基于正规表达式或基于语义的规则集的基础上分析对象(文件)。

爬虫可由作业管理器132(或在作业管理器132中实现或耦合到作业管理器132的调度器)启动；爬虫可由作业管理器132(或调度器)停止，或者可基于调度规范自行终止。就节点故障而言，爬虫可从队列管理器136获得重新启动点。爬虫能够关于队列管理器136正在其中运行的节点是不可知的。

在一个或多个实施例中，在爬虫扫描文件集时，爬虫可创建一个或多个检查点。检查点可提供与爬虫执行的扫描相关联的状态信息，使得爬虫可在例如由数据存储装置的关闭造成扫描中断后从适当的检查点重新开始扫描。

可根据数量和/或量(volume)或存储库调整(例如，增大或降低)爬虫134的数量。

一个或多个服务配置文件138可包括基本分类、深度分类、数据完整性、数据库恢复、搜索索引恢复、动作(例如，移动、复制和/或删除)等的一项或多项。服务配置文件可定义一个或多个服务或命令(orders)及一个或多个服务提供商142为要处理的数据提供的服务的组合。可通过服务配置文件混合和匹配多个服务。如果指定服务配置文件要求深度分类，则数据获取器140可获得选定文件的副本。如果指定服务配置文件只要求基本分类而不要求深度分类，则可不需要数据获取器140获得选定文件的副本。

一个或多个服务提供商142可配置成在处理数据/文件中执行元数据填充、(基本)元数据的创建、数据库填充、基于规则的内容提取、透明迁移、策略分类、动作(例如，移动，复制和/或删除)等的一项或多项。例如，服务提供商142可包括哈希和元数据提取程序162、基本元数据创建程序166、搜索索引程序164等。

系统100也可包括诸如鉴定模块146和策略引擎152等控制路径模块/程序。

鉴定模块146可配置成鉴定用户(利用NFS或CIFS接口)和应用服务器(利用API)。鉴定模块146可在连接建立时间期间鉴定用户。鉴定模块146可执行用户ID和预定义安全性ID到用户名称中的映射。鉴定模块146可通过链接和调用诸如在NIS服务器150(例如用于UNIX系统的网络信息服务服务器150，)中，或者在活动目录服务器148(例如，用于系统)中的库来执行鉴定。库可采用用户名和密码证书，并且尝试针对一个或多个鉴定服务鉴定用户。

策略引擎152可包括将策略存储到LDAP存储库154(轻量级目录访问协议存储库154或LDAP 154)中以及管理策略的管理部分。

策略引擎152也可包括策略实施模块。例如，策略引擎152可包括一个或多个以下实施模块：访问控制实施器(ACE)模块、剖析规则模块、搜索策略模块等。

ACE模块可配置成实施访问控制权、文件保留策略、WORM(一次性写入多次读取)等的一项或多项。ACE模块可与CIFS、API(应用接口)等对接(interface)。

剖析规则模块可采用在LDAP 154中的文档剖析规则(由策略引擎152管理)，以便从文档提取相关信息。这些剖析规则可基于关键字、正规表达式、布尔逻辑和高级内容分析至少之一。也可提供具有完全内容提取的选择。

搜索策略模块可执行查找以识别特定用户是否应查看搜索查询的搜索结果。搜索策略模块可与搜索引擎对接。

策略引擎152的实现可基于一个或多个概念，诸如基于内容的信息的分类、与不同策略群组相关联的动作(或服务)等。

系统100可采用规则以识别和分类企业/组织中的内容数据。规则可以是连同指定的一个或多个动作(或服务)的任意正规表达式。每个规则能够指派有一个名称。不同的规则集可适用于不同的对象集。能够利用策略引擎152(或规则引擎)指定的动作(或服务)可包括关键字值对。

策略引擎152可配置成将数据分类到不同桶中。分类对识别需要管制合规性(regulatory compliance)的内容可有用。例如，规则可以是：带有“社保号”或“SSN”或“xxx-xxx-xxxx”的内容的任何文档(其中，x是数字[0, 9])应归类为HIPAA(健康保险便携性和责任法案)。此规则可格式化为正规表达式，并且可指定动作(或服务)以在元数据中将群组映射到适当管制策略。

规则可存储在LDAP 154中。剖析器引擎可在剖析任何文件前下载一个或多个规则。随后可将文件的内容与指定规则匹配，并且可指派适当的成员关系。

策略引擎152也可在元数据中定义策略群组(包括一个或多个规则)。策略群组可表示存储适用于给定策略群组的实施规则的摘要。例如，HIPAA可对应于带有特定于组织的刚性(rigid)ACL(访问控制列表)的7年实施，并且SEC(证券交易委员会)可具有带宽松删除要求的5年实施。此外，这些管制要求可随时间更改。因此，每个对象的元数据存储它属于的策略群组，但属于此群组的结果保持在LDAP 154中的策略编组信息中。

实施模块(例如，ACE模块、剖析规则模块和搜索策略模块)咨询要求，并且在适当的时间在对象上采取适当的动作。

系统100也可包括诸如系统服务模块、系统日志模块、错误传播模块156(用于跨节点传播错误信息)等内务模块。

图2A示出的图示显示根据本发明的一个或多个实施例，用于促进数据发现的系统的布置200。布置200可包括在图1A-1B的示例中所示系统100的一个或多个组件和/或类似于系统100的组件的组件。布置200也可包括与组件相关联的功能和动作。在一个或多个实施例中，布置200可包括文件爬虫202、数据获取器204、文件处理程序206和搜索索引程序208以执行数据发现任务。例如，文件爬虫202、数据获取器204、文件处理程序206及搜索索引程序208可分别表示在图1B的示例中示出的文件/电子邮件爬虫168、数据获取器140、一个或多个服务提供商142(诸如哈希和元数据提取程序162和/或基本元数据创建程序166)及搜索索引程序164。在一个或多个实施例中，组件可按顺序在相同的数据/文件批(或集)上操作。在一个或多个实施例中，组件可同时在不同的数据/文件批(或集)上操作。不同的文件批可包括相同量的文件或不同量的文件。例如，第一文件集可包括第一数量的文件，并且第二文件集可包括与第一数量的文件不同的第二数量的文件。批的大小可以是动态的。例如，第一数量的文件可随时间更改。

为调节操作速度以克服速度不匹配造成的潜在问题，一个或多个组件可向执行一个或多个以前任务的一个或多个以前组件提供“反压力”(或阻力)。例如，爬虫202可选择要处理的多个文件集/批(包括一个或多个文件的每个文件集/批)，但数据获取器204可阻止和/或延迟获得选定文件的一个或多个文件的副本，如应用到图2A的示例中爬虫202的反压力214所示。有利的是，可协调爬虫202和数据获取器204的操作速度，并且速度不匹配造成的文件的潜在丢弃和/或潜在等待时间可得以阻止。

如图2A的示例所示，爬虫202可选择要处理的至少批1(或第一文件集)、批2(或第二文件集)、批3(或第三文件集)及批4(或第四文件集)。批1、批2、批3和批4中的每个可存储在一个或多个数据源250中，数据源可例如包括在图1A的示例中示出的网络102上的一个或多个数据源和/或数据存储装置。数据获取器204可获得批1的副本、批2的副本和批3的副本以便随后处理。然而，数据获取器204可阻止和/或延迟获得批4的副本，例如，直至数据获取器204和/或执行随后数据发现动作的一个或多个之后组件准备好，和/或具有足够的容量以执行负责的数据发现动作。在一个或多个实施例中，数据获取器204可在数据获取器204准备好获得下一文件集、批4的复本时通知文件爬虫202，由此允许文件爬虫202相应地调整扫描/爬行速度。

又例如，文件处理程序206可阻止和/或延迟对数据获取器204获得的文件的一个或多个副本的处理，如应用到图2A的示例中数据获取器204的反压力216所示，以便协调数据获取器204和文件处理程序206的速度，由此防止潜在的文件丢弃和/或潜在等待时间。如图2A的示例所示，虽然数据获取器204可已获得批1、批2和批3中每个的副本，但文件处理系统206可只处理批1的副本和批2的副本。文件处理程序206可阻止和/或延迟批3的副本的处理，直至文件处理程序206和/或执行随后数据发现动作的一个或多个之后组件准备好和/或具有足够的容量以执行负责的任务。在一个或多个实施例中，文件处理系统206可在文件处理系统206准备好在批3的副本上执行一个或多个服务时通知数据获取器204，由此允许数据获取器204相应地调整数据获取速度和/或允许数据获取器204及时提供批3的副本到文件处理程序206以便处理。

在一个或多个实施例中，文件处理程序206可从批1的副本和批2的副本提取元数据以促进随后的搜索索引。在一个或多个实施例中，文件处理程序206可利用批1的副本和批2的副本中文件的内容生成哈希码。哈希码可用于识别文件，使得即使具有相同内容的文件具有不同文件名和/或不同元数据，这些文件也可由相同哈希码识别。因此，可阻止在相同内容数据上的数据发现动作的重复。有利的是，数据发现效率可得到相当大的改进，和/或与执行数据发现相关联的成本可得以降低。

又例如，搜索索引程序208可如应用到文件处理程序208的反压力218所示，阻止和/或延迟使用已由文件处理程序206处理的一个或多个文件生成任何搜索索引，以便协调文件处理程序206和搜索索引程序208的速度，以防止潜在的文件丢弃和/或潜在等待时间。如图2A的示例所示，虽然文件处理程序206已处理批1的副本和批2的副本，但搜索索引程序208可阻止和/或延迟使用批2的副本生成任何搜索索引，直至搜索索引程序208(和/或执行随后数据发现动作的一个或多个之后组件)准备好和/或具有足够的容量执行负责的任务。在一个或多个实施例中，在搜索索引程序208准备好使用批2的副本生成搜索索引时，搜索索引程序208可通知文件处理程序206，由此允许文件处理程序206相应地调整文件处理速度和/或允许文件处理程序206及时提供批2的副本以搜索索引程序208以便进行搜索索引。

通过包含“反压力”或阻力，布置200允许文件爬虫202、数据获取器204、文件处理程序206和搜索索引程序208以协调的方式操作。有利的是，在数据发现任务之间可无文件丢弃或有极少几个文件丢弃，并且用户的数据发现需要可得以满足而用户不会体验到相当大的等待时间。

图2B示出的表格显示条件的示例，在促进根据本发明的一个或多个实施例的数据发现时在这些条件下提供“反压力”或阻力。

如图2B的示例所示，与文件爬虫202相关联的反压力的条件可包括条件222，该条件可包括长的文件路径。例如，参照图2A的示例，文件爬虫202可在与批3的一个或多个文件相关联的一个或多个文件路径长度超过文件路径长度阈值时阻止扫描批4。另外或备选，条件222可包括一个或多个长的文件路径。例如，文件爬虫202可在与批3的一个或多个文件相关联的一个或多个文件管理器长度(filer length)超过文件管理器长度阈值时阻止扫描批4。可预确定每个阈值，或者可根据执行数据发现任务时涉及的组件的状态来动态更新每个阈值。

如也在图2B的示例中所示，与数据获取器204相关联的反压力的条件可包括条件224、小文件和/或许多文件。例如，参照图2A的示例，数据获取器204可在与批1、批2和/或批3的一个或多个文件相关联的一个或多个文件大小比文件大小阈值更小时阻止获得批4的副本。又例如，数据获取器204可在与批4的一个或多个文件相关联的一个或多个文件大小比文件大小阈值更小时阻止获得批4的副本。又例如，数据获取器204可在批1、批2和/或批3的一个或多个文件量超过文件数量阈值时阻止获得批4的副本。又例如，数据获取器204可在批4的文件量超过文件数量阈值时阻止获得批4的副本。

也如图2B的示例所示，与文件处理程序206相关联的反压力的条件可包括条件226，困难的文件格式。例如，参照图2A的示例，文件处理程序206可在与批1和/或批2的多个文件之一相关联的一个或多个文件格式不属于易识别的文件格式的预确定集时阻止在批3的副本上执行任何服务。又例如，文件处理程序206可在与批3的多个文件之一相关联的一个或多个文件格式不属于易识别的文件格式的预确定集时阻止在批3的副本上执行任何服务。

也如图2B的示例所示，与搜索索引程序208相关联的反压力的条件可包括条件228，索引的文本量。例如，参照图2A的示例，搜索索引程序208可在批1中索引的文本量超过文本量阈值时阻止从批2的副本生成任何搜索索引。又例如，搜索索引程序208可在批2中索引的文本量超过文本量阈值时阻止从批2的副本生成任何搜索索引。

如从前面所述能够理解的一样，本发明的实施例可包括用于促进/执行数据发现的集成系统，并且可包含在数据发现工作流中的“反压力”以防止潜在的速度不匹配问题。因此，可以协调的方式执行各种数据发现任务。有利的是，可在数据发现任务之间不丢弃文件或丢弃极少文件/数据，并且用户的数据发现需要可得到有效满足而用户不会体验到相当大的等待时间；可要求更少的存储空间以创建所有收集数据的副本(例如，为法律处理而收集的数据)；由于集成系统在性质上是适应性的，带有很少的手动步骤，因此需要少得多的时间进行数据发现；由于收集、处理、分析、检查和生产可全部在单个集成系统上执行，因此，端对端审计(audit)和监管链更准确得多；并且数据的用户需要在仅一个工具上培训，使得对于用户，学习得以简化。

本发明的实施例可利用文件的内容数据生成哈希码，并且可利用哈希码识别文件，使得即使具有相同内容的文件具有不同文件名和/或不同元数据，这些文件也可由相同哈希码识别。因此，可阻止在相同内容数据上的数据发现动作的重复。有利的是，数据发现效率可得到相当大的改进，和/或与执行数据发现相关联的成本可得以降低。

本发明的实施例可包含用于至少提供与爬虫执行的扫描相关联的状态信息的检查点。爬虫可在例如数据源(例如，数据存储装置)的关闭造成的扫描中断后从检查点重新开始扫描，而不重复扫描以前已扫描的数据。有利的是，数据发现效率和/或成本可得以优化。

虽然已根据多个实施例描述了本发明，但存在落入本发明的范围内的变化、置换和等效方案。也应注意的是，存在实现本发明的方法和设备的许多备选方式。此外，本发明的实施例可在其它应用中找到效用。摘要部分在本文中为方便起见而提供，并且由于字数限制原因，相应地为阅读方便而编写，以及不应该用于限制权利要求书的范围。因此，预期以下随附权利要求书将理解为包括落入本发明的真正精神和范围内的所有此类变化、置换和等效方案。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于促进数据发现的系统和方法 [P] . 中国专利： CN102741803B . 2016.08.03
2. 用于自动数据发现服务的系统和方法 [P] . 中国专利： CN102959533A . 2013-03-06
3. Systems and methods for facilitating data discovery [P] . 美国专利： US9135261B2 . 2015-09-15

机译：促进数据发现的系统和方法
4. SYSTEMS AND METHODS FOR FACILITATING DATA DISCOVERY [P] . 欧洲知识产权局专利： EP2510431A4 . 2014-02-05

机译：促进数据发现的系统和方法
5. SYSTEMS AND METHODS FOR FACILITATING DATA DISCOVERY [P] . 欧洲知识产权局专利： EP2510431A1 . 2012-10-17

机译：促进数据发现的系统和方法