首页> 中国专利> 使用数据流分析进行数据分类

使用数据流分析进行数据分类

摘要

本文描述了一种用于利用数据流分析来执行关于源数据集和所生成的导出数据集的数据分类的系统和方法。根据所执行的动作和导出数据集,使用自适应算法来计算字段的流置信度。根据相关联的置信度和流置信度来计算针对特定标签的相关联的导出置信度。当相关联的导出置信度大于或等于第一阈值时,将特定标签复制到导出数据集。在一些实施例中,当相关联的导出置信度小于或等于第二阈值时,不将特定标签复制到导出数据集。否则,要采取的动作被标识。接收对该动作的响应,并且根据所接收的响应来修改自适应算法。

著录项

  • 公开/公告号CN112602074A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 微软技术许可有限责任公司;

    申请/专利号CN201980055926.1

  • 申请日2019-06-25

  • 分类号G06F16/00(20060101);G06K9/62(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人黄倩

  • 地址 美国华盛顿州

  • 入库时间 2023-06-19 10:25:58

说明书

背景技术

诸如公司、政府等的大型组织可能存储越来越多的数据。在一些示例中,数据存储每天可以摄取和处理数百万个文件。该数据的存储和/或使用可以由例如可以是自我施加(例如,公司政策)和/或外部施加(例如,由一个或多个政府实体控制)的(多个)要求来管理。为了符合这些(多个)要求,可以基于一个或多个分类模式(schema)对数据的至少一些(多个)部分进行分类。

发明内容

本文描述了一种利用数据流分析来执行数据分类的系统,包括:处理系统,其包括处理器和存储器,存储器具有存储在其上的计算机可执行指令,计算机可执行指令当由处理器执行时,使处理系统:接收将数据存储在一个或多个字段中的源数据集,字段中的至少一个字段具有一个或多个标签,每个标签具有相关联的置信度;通过对源数据集执行动作来生成导出数据集;针对一个或多个字段中的具有至少一个标签的每个字段:根据所执行的动作和所生成的导出数据集,使用自适应算法来计算针对特定字段的流置信度;针对与特定字段相关联的每个标签,根据相关联的置信度和流置信度,计算针对特定标签的相关联的导出置信度;针对与特定字段相关联的每个标签:当相关联的导出置信度大于或等于第一阈值时,将特定标签复制到导出数据集;当相关联的导出置信度小于第一阈值并且大于第二阈值时:标识针对导出数据集关于特定标签要采取的动作;接收对针对导出数据集关于特定标签要采取的动作的响应;以及根据所接收的响应修改自适应算法。

提供本发明内容以简化形式介绍一些概念,这些概念将在下面的具体实施方式中进一步被描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。

附图说明

图1是图示利用数据流分析来执行数据分类的系统的功能框图。

图2是图示数据分类部件的功能框图。

图3和图4是图示利用数据流分析来执行数据分类的方法的流程图。

图5和图6是图示利用数据流分析来执行数据分类的方法的流程图。

图7是图示示例性计算系统的功能框图。

具体实施方式

现在参考附图描述与使用数据流分析执行数据分类有关的各种技术,其中贯穿全文,相同的附图标记用于指代相同的元件。在下面的描述中,出于解释的目的,阐述了许多具体细节以便提供对一个或多个方面的透彻理解。然而,明显的是,可以在没有这些具体细节的情况下实践这些方面。在其他实例中,以框图形式示出了公知的结构和设备,以便于描述一个或多个方面。此外,应当理解,被描述为由某些系统部件实施的功能可以由多个部件执行。类似地,例如,部件可以被配置为执行被描述为由多个部件执行的功能。

本主题公开支持各种产品和过程,其执行或被配置为执行关于使用数据流分析来执行数据分类的各种动作。以下是一个或多个示例性系统和方法。

本主题公开的各方面涉及对已经对其执行了(多个)数据处理操作的数据进行分类的技术问题。与解决该问题相关联的技术特征涉及接收将数据存储在(多个)字段中的源数据集,字段中的至少一个字段具有(多个)标签,每个标签具有相关联的置信度。通过对源数据集执行(多个)动作来生成导出数据集。针对(多个)字段中的具有至少一个标签的每个字段:根据所执行的动作和所生成的导出数据集,使用自适应算法来计算针对特定字段的流置信度;针对与特定字段相关联的每个标签,根据相关联的置信度和流置信度,计算针对特定标签的相关联的导出置信度;针对与特定字段相关联的每个标签:当相关联的导出置信度大于或等于第一阈值时,将特定标签复制到导出数据集;当相关联的导出置信度小于或等于第二阈值时,不将特定标签复制到导出数据集;当相关联的导出置信度小于第一阈值并且大于第二阈值时:标识针对导出数据集关于特定标签要采取的动作;接收对针对导出数据集关于特定标签要采取的动作的响应(例如,由人类审阅者审阅);以及根据所接收的响应修改自适应算法。因此,这些技术特征的各方面表现出以下技术效果:减少人类审阅者为了对数据进行分类所花费的时间、减少与(多个)要求相关联的合规成本、和/或减少不符合(多个)要求的可能性。

此外,术语“或”旨在意指包含性“或”而不是排他性“或”。即,除非另外指定或从上下文中清楚得知,否则短语“X采用A或B”旨在意指任何自然的包含性排列。即,以下任何一种实例都满足短语“X采用A或B”:X采用A;X采用B;或者X采用A和B两者。此外,本申请和所附权利要求中使用的冠词“一”和“一个”通常应当被解释为意指“一个或多个”,除非另外指定或从上下文中清楚得知针对单数形式。

如本文中所使用的,术语“部件”和“系统”以及其各种形式(例如,部件、系统、子系统等)旨在指代计算机相关实体,或者是硬件、或者是硬件和软件的组合、或者是软件、或者是执行中的软件。例如,部件可以是但不限于在处理器上运行的进程、处理器、对象、实例、可执行文件、执行的线程、程序和/或计算机。作为说明,在计算机上运行的应用和计算机都可以是部件。一个或多个部件可以驻留在进程和/或执行的线程内,并且部件可以被本地化在一个计算机上和/或分布在两个以上的计算机之间。此外,如本文中所使用的,术语“示例性”旨在意指用作某物的图示或示例,而并非旨在表示偏好。

对于诸如公司、政府等的实体,遵守关于数据的存储和/或使用的(多个)政府法规和/或(多个)业务要求可能是困难的。为了遵守这些(多个)法规和/或(多个)要求,可以使用一个或多个模式对数据的全部或(多个)部分进行分类。例如,可以将数据归类为是否对欧盟通用数据保护条例(GDPR)敏感。

通常需要对(多个)新创建的资源(诸如,(多个)表、(多个)文件等)进行分类和标记。即使(多个)新创建的资源是从已经被分类和标记的(多个)其他资源导出的,也可能需要分类和标记。对数据执行(多个)处理操作进一步使遵守这些(多个)法规和/或(多个)要求更加复杂。在一些实施例中,(多个)处理操作可以导致一些或所有(多个)分类从源数据集流到从源数据集导出的数据集。例如,从源数据集复制一部分(例如,列)可以导致复制与该字段相关联的(多个)分类。然而,在一些实施例中,(多个)处理操作可以导致一些分类或没有(多个)分类从源数据集适当地流到导出数据集。例如,在某些情况下(例如,基于(多个)法规和/或(多个)要求),对来自源数据集的字段(例如,列)执行哈希操作导致与该字段相关联的(多个)分类未流到导出数据集(例如,由处理操作移除的GDPR敏感信息)。

本文描述了一种用于使用数据流分析来执行数据分类的系统和方法。如所指出的,数据的重要部分(例如,导出数据集)可以是已经被分类的其他数据(例如,(多个)源数据集)的转换的结果。在一些实施例中,当以高程度的置信度知道数据的世系(lineage)时,可以由自适应算法利用它来自动地从源数据的分类确定导出数据的分类(例如,不涉及人类劳动)。然而,由于(多个)合规要求、(多个)法规和/或相关联的(多个)风险,在一些实施例中,当由自适应算法计算的置信度不大于或等于第一阈值或者小于或等于第二阈值时,自适应算法可以标识要采取的(多个)动作(例如,人类输入)以确认或拒绝自动生成的(多个)分类。对(多个)动作的(多个)响应可以被用来修改自适应算法。

参考图1,图示了利用数据流分析来执行数据分类的系统100。系统100可以通过使用自适应算法计算(多个)字段的流置信度,来对已经在其上执行了(多个)数据处理操作的数据进行分类。与(多个)字段相关联的(多个)标签可以是被复制的、不被复制的和/或被标识关于(多个)特定标签要采取的动作。在一些实施例中,每个标签可以具有相关联的置信度(例如,在0(无置信度)到1(完整置信度)范围内的数值)。可以根据所接收的关于所标识的要采取的动作的响应来修改自适应算法。(多个)标签可以被用来搜索和标识与(多个)标签数据集内的(多个)特定标签和/或(多个)特定记录相对应的数据。

系统100包括数据分类部件110,数据分类部件110接收关于源数据集120的信息和关于导出数据集130的信息。导出数据集130是使用(多个)处理操作140从源数据集120生成的。在一些实施例中,单个源数据集120被采用到所生成的导出数据集130。在一些实施例中,可以基于多个源数据集120的全部或部分来生成导出数据集130。

在一些实施例中,数据分类部件110可以接收关于(多个)处理操作140的信息。在一些实施例中,信息可以包括(多个)流提示,流提示描述由(多个)处理操作140关于源数据集120采取的(多个)动作。例如,(多个)处理操作140可以包括一个或多个(多个)数据库操作(例如,SQL操作,诸如选择、联接、插入、删除)、(多个)算术运算、(多个)逻辑运算和/或(多个)按位运算)。

源数据集120和导出数据集130存储数据的汇集(collection)。在一些实施例中,源数据集120和/或导出数据集130包括关系数据库,关系数据库包括(多个)列(例如,(多个)属性、(多个)字段)和(多个)行(例如(多个)记录)的一个或多个表(例如,(多个)关系)。(多个)关系可以逻辑地将表彼此连接。在一些实施例中,源数据集120和/或导出数据集130包括面向对象数据结构、分层数据结构和/或根据(多个)模式存储数据的网络数据结构。

在一些实施例中,源数据集120和导出数据集130基于共同的关系数据库和/或模式。在一些实施例中,源数据集120和导出数据集130基于不同的关系数据库和/或模式。

由数据分类部件110接收的关于源数据集120的信息可以包括组织性信息,例如,(多个)列的(多个)名称和/或模式内的(多个)名称。信息还可以包括与组织性信息的(多个)部分相关联的(多个)标签。“标签”指代与特定数据集的(多个)部分(例如,(多个)列、(多个)表和/或数据集本身)相关联的(多个)相关分类。在一些实施例中,(多个)标签被存储在源数据集120和/或导出数据集130内。在一些实施例中,(多个)标签被与源数据集120和/或导出数据集130分开存储(例如,存储在数据库和/或文件中)。

在一些实施例中,关于源数据集120的信息包括组织性信息(例如,列名称)和(多个)标签(例如,(多个)分类)。在一些实施例中,关于源数据集120的信息包括分层和/或复杂结构的数据。

在一些实施例中,以一个或多个级别的粒度将(多个)标签应用于源数据集120和/或导出数据集130。例如,(多个)标签可以应用于整个源数据集120和/或整个导出数据集130,和/或(多个)标签可以应用于源数据集120和/或导出数据集130的(多个)特定部分(例如,(多个)列和/或(多个)字段)。

在一些实施例中,标签包括元数据,元数据包括基于分类模式的信息(例如,个人敏感信息、高度敏感信息、没有个人敏感信息)。在一些实施例中,标签包括多个特性,其描述标签和/或与标签相关联的数据,例如置信度水平、标签如何被生成、标签创建的日期和/或时间、所生成的标签的源、和/或相关联数据的源(例如搜索历史)。

在一些实施例中,基于用户输入,手动地将(多个)标签与源数据集120相关联。例如,用户可以审阅(多个)新创建的资源(诸如被添加到表中的附加列),并且确定哪些(多个)分类(如果有)适用于(多个)新创建的资源。然后,用户可以将(多个)标签适当地应用于(多个)新创建的资源。

在一些实施例中,例如由分类器自动地将(多个)标签与源数据集120相关联。在一些实施例中,自动化系统可以基于(多个)规则对(多个)新创建的资源进行分类和/或标记。但是,常规地,这些自动化系统在可靠地分类/标记特定类别的数据(例如语音数据)方面通常不成功。与可能具有已知(多个)样式(pattern)的电子邮件地址和/或电话号码不同,语音数据可能看起来像任意的字节序列,因此使自动分类变得困难。

在一些实施例中,数据分类部件110可以执行针对每个数据处理操作的数据流分析,以便分析输出数据(例如,导出数据集130)是否直接或间接地从先前被分类的数据(例如,源数据集120)导出。例如,可以在导出数据集130的至少一部分和源数据集120的至少一部分之间进行比较,以便推断由(多个)处理操作140执行的(多个)动作。在数据分类部件110确定输出数据被直接或间接导出的实例中,数据分类部件110可以通过基于流置信度计算针对每个标签的导出置信度(例如,分类置信度)来使(多个)分类从源数据集120流动。在一些实施例中,流置信度是在0(无置信度)到1(完整置信度)范围内的数值。在一些实施例中,满足某个置信度阈值准则的(多个)标签(例如,(多个)分类)被自动应用。在一些实施例中,经由“批准流程”要求(多个)人类确认其他分类。

在一些实施例中,数据分类部件110可以利用自适应算法来根据所执行的动作和所生成的导出数据集130来计算流置信度。在一些实施例中,自适应算法可以使用机器学习过程被训练,机器学习过程利用数据集中存在的各种特征,其中自适应算法表示特征之间的关联。在一些实施例中,自适应算法使用一种或多种机器学习算法被训练,包括线性回归算法、逻辑回归算法、决策树算法、支持向量机(SVM)算法、朴素贝叶斯算法、K最近邻(KNN)算法、K均值算法、随机森林算法、降维算法、人工神经网络(ANN)和/或回归提升树与自适应增强(Gradient Boost&Adaboost)算法。自适应算法可以以监督、半监督和/或无监督的方式被训练。

在一些实施例中,针对源数据集的(多个)字段中的具有至少一个标签的每个字段,数据分类部件110可以根据所执行的动作和所生成的导出数据集,使用自适应算法来计算针对特定字段的流置信度。针对与特定字段相关联的每个标签,可以根据相关联的置信度和流置信度来计算针对特定标签的相关联的导出置信度。

针对与特定字段相关联的每个标签,当相关联的导出置信度大于或等于第一阈值时,将特定标签复制到导出数据集。当相关联的导出置信度小于或等于第二阈值时,不将特定标签复制到导出数据集。

当相关联的导出置信度小于第一阈值并且大于第二阈值时,要关于针对导出数据集的特定标签采取的动作可以被标识。在一些实施例中,要采取的动作用于供人类审阅者来确定特定标签是否应当流到导出数据集130(例如,向人类审阅者提供特定标签)。在一些实施例中,要采取的动作用于供自动过程来审阅导出数据集130中的数据的至少一部分,以确定特定标签是否应当流到导出数据集130。

对要关于针对导出数据集的特定标签采取的动作的响应可以被接收(例如,由人类审阅者和/或自动过程审阅)。在一些实施例中,可以根据所接收的响应来修改自适应算法。以该方式,可以调整自适应算法来更好地计算流置信度,从而导致在更少的实例中采取动作(例如,人类审阅和/或自动过程)。

因此,尽管在一些实施例中,当所计算的相关联的导出置信度对于系统100应用分类而言不够高时,仍然可能需要人类劳动来确认或拒绝自动分类。然而,在一些实施例中,由于仅少数情况需要人类劳动,因此可以显著减少人类劳动,并且即使在这些情况下,不是需要人类来分类,而是可以简单地确认或拒绝所提议的(多个)分类。

在一些实施例中,数据分类部件110可以根据所接收的响应来修改第一阈值(例如,值)和/或第二阈值(例如,值)。因此,数据分类部件110可以适于更有效地分析数据流以便执行数据分类。在一些实施例中,第一阈值(例如,值)和/或第二阈值(例如,值)根据合规要求和相关联的风险(例如,基于成本/收益的分析)而变化。

在一些实施例中,当分类从源数据集120流到导出数据集130时,冲突标签可以被应用于导出数据集130。在一些实例中,这可能导致在一起没有意义的(多个)分类的(多个)集合。这些情况可以由可选的规则集150(例如,分层的,可定制的)来处置,可选的规则集150可以由数据分类部件110应用。以该方式,数据分类部件110可以通过应用规则集150来确定(多个)所得标签。在一些实施例中,当将规则集150应用于冲突标签时,标签的(多个)特性可以被数据分类部件110利用。在一些实施例中,数据分类部件110可以例如基于规则集150,来标识要关于冲突标签采取的动作(例如,人类交互)。

在一些实施例中,可以基于(多个)预定义模板将(多个)标签应用于(多个)字段。例如,源数据集120可以在内容变化但是结构和对应的(多个)标签是静态的情况下基于周期性生成的数据(例如,每小时、每天、每周)。与(多个)标签相关联的(多个)特性可以反映出(多个)标签是基于预定义模板而被应用的。解决冲突标签时可以利用该信息。例如,更具体地,(多个)所应用的标签(例如,由人类审阅者应用)可以优先于(多个)更普遍地应用的标签(例如,基于(多个)预定义模板的(多个)标签)。

转到图2,数据分类部件110被图示。数据分类部件110包括流置信度部件210和标签部件220。

如先前关于图1所讨论的,数据分类部件110接收关于源数据集120的信息和关于导出数据集130的信息。导出数据集130是使用(多个)处理操作140从源数据集120生成的。在一些实施例中,数据分类部件110可以接收关于(多个)处理操作140的信息。源数据集120可以将数据存储在(多个)字段中,字段中的至少一个字段具有(多个)标签,每个标签具有相关联的置信度。

针对(多个)字段中的具有至少一个标签的每个字段,流置信度部件210可以根据所执行的动作和所生成的导出数据集,使用自适应算法来计算针对特定字段的流置信度。

针对(多个)字段中的具有至少一个标签的每个字段,标签部件220可以:针对与特定字段相关联的每个标签,根据相关联的置信度和流置信度,计算针对特定标签的相关联的导出置信度。针对与特定字段相关联的每个标签:当相关联的导出置信度大于或等于第一阈值时,特定标签可以被复制到导出数据集。当相关联的导出置信度小于或等于第二阈值时,不将特定标签复制到导出数据集。当相关联的导出置信度小于第一阈值并且大于第二阈值时:要关于针对导出数据集的特定标签采取的动作可以标识。

数据分类部件110可以接收对要关于针对导出数据集的特定标签采取的动作的响应。在一些实施例中,数据分类部件110还可以根据所接收的响应来修改流置信度部件210的自适应算法。在一些实施例中,数据分类部件110可以根据所接收的响应来修改第一阈值的值和/或第二阈值的值。因此,数据分类部件110可以适于更有效地分析数据流以便执行数据分类。

图3至图6图示了与利用数据流分析来执行数据分类有关的示例性方法。尽管方法被示为和描述为是以序列执行的一系列动作,但是应当理解和明白,方法不受序列的顺序的限制。例如,一些动作可以以与本文不同的顺序进行。此外,一个动作可以与另一个动作同时进行。此外,在一些实例中,实现本文描述的方法可能不需要所有动作。

此外,本文描述的动作可以是计算机可执行指令,该计算机可执行指令可以由一个或多个处理器实施和/或被存储在一个或多个计算机可读介质或媒介上。计算机可执行指令可以包括例程、子例程、程序、执行的线程等。更进一步地,方法的动作的结果可以被存储在计算机可读介质中、被显示在显示设备上,等等。

参考图3和图4,图示了利用数据流分析来执行数据分类的方法300。在一些实施例中,方法300由系统100执行。

在304处,源数据集被接收,其中源数据集将数据存储在一个或多个字段中。字段中的至少一个字段具有一个或多个标签,其中每个标签具有相关联的置信度。

在308处,导出数据集通过对源数据集执行动作而被生成。在312处,根据所执行的动作和所生成的导出数据集,使用自适应算法计算针对特定字段的流置信度。在316处,根据相关联的置信度和流置信度,计算针对特定标签的相关联的导出置信度。

在320处,做出关于相关联的导出置信度是否大于或等于第一阈值的确定。如果在320处的确定为“是”,则在324处,将特定标签复制到导出数据集,并且处理在328处继续。如果在320处的确定为“否”,则在332处,做出关于相关联的导出置信度是否小于或等于第二阈值的确定。如果在332处的确定为“是”,则在336处,不将特定标签复制到导出数据集,并且处理在328处继续。

如果在332处的确定为“否”,则在340处,标识要关于针对导出数据集的特定标签采取的动作。在344处,接收对要关于针对导出数据集的特定标签采取的动作的响应。在348处,根据响应来修改自适应算法。

在328处,做出关于是否存在更多与特定字段相关联的标签的确定。如果在328处的确定为“是”,则处理在316处继续。如果在328处的确定为“否”,则在352处,做出关于是否存在更多具有至少一个标签的字段的确定。如果在352的确定为“是”,则处理在312处继续。如果在352的确定为“否”,则不进行进一步的处理。

转到图5和图6,图示了利用数据流分析来执行数据分类的方法500。在一些实施例中,方法500由系统100执行。

在504处,源数据集被接收,其中源数据集将数据存储在一个或多个字段中。字段中的至少一个字段具有一个或多个标签,其中每个标签具有相关联的置信度。

在508处,导出数据集通过对源数据集执行动作而被生成。在512处,根据所执行的动作和所生成的导出数据集,使用自适应算法来计算针对特定字段的流置信度。在516处,根据相关联的置信度和流置信度,计算针对特定标签的相关联的导出置信度。

在520处,做出关于相关联的导出置信度是否大于或等于第一阈值的确定。如果在520处的确定为“是”,则在524处,将特定标签复制到导出数据集,并且处理在528处继续。如果在520处的确定为“否”,则在532处,做出关于相关联的导出置信度是否小于或等于第二阈值的确定。如果在532处的确定为“是”,则在536处,不将特定标签复制到导出数据集,并且处理在528处继续。

如果在532处的确定为“否”,则在540处,标识要关于针对导出数据集的特定标签采取的动作。在544处,接收对要关于针对导出数据集的特定标签采取的动作的响应。在548处,根据所接收的响应来修改第一阈值的值和/或第二阈值的值。

在528处,做出关于是否存在更多与特定字段相关联的标签的确定。如果在528处的确定为“是”,则处理在516处继续。如果在528处的确定为“否”,则在552处,做出关于是否存在更多具有至少一个标签的字段的确定。如果在552处的确定为“是”,则处理在512处继续。如果在552处的确定为“否”,则不进行进一步的处理。

本文描述了一种利用数据流分析来执行数据分类的系统,包括:处理系统,包括处理器和存储器,存储器具有存储在其上的计算机可执行指令,计算机可执行指令当由处理器执行时,使处理系统:接收将数据存储在一个或多个字段中的源数据集,字段中的至少一个字段具有一个或多个标签,每个标签具有相关联的置信度;通过对源数据集执行动作来生成导出数据集;针对一个或多个字段中的具有至少一个标签的每个字段:根据所执行的动作和所生成的导出数据集,使用自适应算法来计算针对特定字段的流置信度;针对与特定字段相关联的每个标签,根据相关联的置信度和流置信度,计算针对特定标签的相关联的导出置信度;针对与特定字段相关联的每个标签:当相关联的导出置信度大于或等于第一阈值时,将特定标签复制到导出数据集;当相关联的导出置信度小于第一阈值并且大于第二阈值时:标识要关于针对导出数据集的特定标签采取的动作;接收对要关于针对导出数据集的特定标签采取的动作的响应;以及根据所接收的响应修改自适应算法。

系统可以包括:其中自适应算法使用机器学习过程被训练。系统还可以包括:其中自适应算法使用以下至少一项被训练:线性回归算法、逻辑回归算法、决策树算法、支持向量机(SVM)算法、朴素贝叶斯算法、K最近邻(KNN)算法、K均值算法、随机森林算法、降维算法、人工神经网络(ANN)或回归提升树与自适应增强算法。系统可以包括:其中动作包括向人类审阅者提供特定标签。

系统还可以包括:其中要采取的动作包括自动过程,以审阅导出数据集中的数据的至少一部分,以确定特定标签是否应当流到导出数据集。系统可以包括:其中根据所执行的动作和所生成的导出数据集使用自适应算法来计算针对特定字段的流置信度,还基于对导出数据集和源数据集的流分析。系统还可以包括:当相关联的导出置信度小于第一阈值并且大于第二阈值时:根据所接收的响应,修改第一阈值的值或第二阈值的值中的至少一项。

系统可以包括:其中第一阈值和第二阈值中的至少一个根据合规要求和相关联的风险而变化。系统还可以包括:使用规则集执行导出数据集的冲突标签之间的冲突解决。

本文描述了一种利用数据流分析来执行数据分类的方法,包括:接收将数据存储在一个或多个字段中的源数据集,字段中的至少一个字段具有一个或多个标签,每个标签具有相关联的置信度;通过对源数据集执行动作来生成导出数据集;针对一个或多个字段中的具有至少一个标签的每个字段:根据所执行的动作和所生成的导出数据集,使用自适应算法来计算针对特定字段的流置信度;针对与特定字段相关联的每个标签,根据相关联的置信度和流置信度,计算针对特定标签的相关联的导出置信度;针对与特定字段相关联的每个标签:当相关联的导出置信度大于或等于第一阈值时,将特定标签复制到导出数据集;当相关联的导出置信度小于第一阈值并且大于第二阈值时:标识要关于针对导出数据集的特定标签采取的动作;接收对要关于针对导出数据集的特定标签采取的动作的响应;以及根据所接收的响应来修改第一阈值的值或第二阈值的值中的至少一项。

方法可以包括:其中自适应算法使用以下至少一项被训练:线性回归算法、逻辑回归算法、决策树算法、支持向量机(SVM)算法、朴素贝叶斯算法、K最近邻(KNN)算法、K均值算法、随机森林算法、降维算法、人工神经网络(ANN)或回归提升树与自适应增强算法。方法还可以包括:其中动作包括向人类审阅者提供特定标签。

方法可以包括:其中要采取的动作包括自动过程,以审阅导出数据集中的数据的至少一部分,以确定特定标签是否应当流到导出数据集。方法还可以包括:其中根据所执行的动作和所生成的导出数据集使用自适应算法来计算针对特定字段的流置信度,还基于对导出数据集和源数据集的流分析。

方法可以包括:当相关联的导出置信度小于第一阈值并且大于第二阈值时:根据所接收的响应来修改自适应算法。方法还可以包括:其中第一阈值和第二阈值中的至少一个根据合规要求和相关联的风险而变化。方法可以包括:使用规则集执行导出数据集的冲突标签之间的冲突解决。

本文描述了一种计算机存储介质,存储计算机可读指令,计算机可读指令在被执行时,使计算设备:接收将数据存储在一个或多个字段中的源数据集,字段中的至少一个字段具有一个或多个标签,每个标签具有相关联的置信度;通过对源数据集执行动作来生成导出数据集;针对一个或多个字段中的具有至少一个标签的每个字段:根据所执行的动作和所生成的导出数据集,使用自适应算法来计算针对特定字段的流置信度;针对与特定字段相关联的每个标签,根据相关联的置信度和流置信度,计算针对特定标签的相关联的导出置信度;针对与特定字段相关联的每个标签:当相关联的导出置信度大于或等于第一阈值时,将特定标签复制到导出数据集;当相关联的导出置信度小于第一阈值并且大于第二阈值时:标识要关于针对导出数据集的特定标签采取的动作;接收对要关于针对导出数据集的特定标签采取的动作的响应;以及根据所接收的响应修改自适应算法。

计算机存储介质可以包括:其中要采取的动作包括由人类审阅者审阅或由自动过程审阅中的至少一个,以审阅导出数据集中的数据的至少一部分数据,以确定特定标签是否应当流到导出数据集。计算机存储介质还可以包括:其中根据所执行的动作和所生成的导出数据集使用自适应算法来计算针对特定字段的流置信度,还基于对导出数据集和源数据集的流分析。

参考图7,所图示的是示例处理系统、通用计算机或计算设备702(例如,移动电话、台式计算机、膝上型计算机、平板计算机、手表、服务器、手持器件、可编程消费者或工业电子器件、机顶盒、游戏系统、计算节点等)。例如,计算设备702可以被用在利用数据流分析来执行数据分类的系统100中。

计算机702包括一个或多个处理器720、存储器730、系统总线740、(多个)大容量存储设备750、以及一个或多个接口部件770。系统总线740至少通信地耦合上述系统组成。然而,应当理解,在其最简单的形式中,计算机702可以包括被耦合到存储器730的一个或多个处理器720,其执行存储在存储器730中的各种计算机可执行动作、指令和/或部件。例如,指令可以是用于实现被描述为由上述一个或多个部件实施的功能性的指令或用于实现上述一种或多种方法的指令。

(多个)处理器720可以利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件部件、或者被设计用于执行本文中所描述的功能的上述任何组合来实现。通用处理器可以是微处理器,但是在备选中,处理器可以是任何处理器、控制器、微控制器或状态机。(多个)处理器720还可以被实现为计算设备的组合,例如DSP和微处理器的组合、多个微处理器、多核处理器、一个或多个微处理器结合DSP核、或任何其他这样的配置。在一个实施例中,(多个)处理器可以是图形处理器。

计算机702可以包括各种计算机可读介质或以其他方式与各种计算机可读介质交互,以支持计算机702的控制以实现所要求保护的主题的一个或多个方面。计算机可读介质可以是由计算机702可访问的任何可用介质,并且包括易失性和非易失性介质以及可移除和不可移除介质。计算机可读介质可以包括两种不同的和相互排斥的类型,即计算机存储介质和通信介质。

计算机存储介质包括任何方法或技术中所实现的易失性和非易失性、可移除和不可移除介质以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息。计算机存储介质包括存储设备,诸如存储器设备(例如,随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)等)、磁存储设备(例如硬盘、软盘、磁盒、磁带等)、光盘(例如,光盘(CD)、数字通用盘(DVD)等)和固态设备(例如固态驱动(SSD)、闪存驱动、(例如卡、棒、密钥驱动等)等)、或任何其他类似的媒介,其与传输或通信相反,存储计算机702可访问的期望的信息。因此,计算机存储介质排除调制数据信号以及相对于通信介质描述的内容。

通信介质实施计算机可读指令、数据结构、程序模块、或者诸如载波或其他传输机制的调制数据信号中的其他数据,并且包括任何信息传递介质。术语“调制数据信号”是指其特征中的一个或多个特征以在信号中编码信息的方式被设置或被改变的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声学、RF、红外和其他无线介质的无线介质。

存储器730和(多个)大容量存储设备750是计算机可读存储介质的示例。取决于计算设备的确切配置和类型,存储器730可以是易失性的(例如,RAM)、非易失性的(例如,ROM、闪存等)、或两者的某种组合。作为示例,基本输入/输出系统(BIOS)(包括在诸如启动期间在计算机702内的元件之间传送信息的基本例程)可以被存储在非易失性存储器中,而易失性存储器可以充当外部高速缓存存储器,以支持由(多个)处理器720等进行的处理。

(多个)大容量存储设备750包括可移除/不可移除、易失性/非易失性计算机存储介质以用于相对于存储器730存储大量数据。例如,(多个)大容量存储设备750包括但不限于一个或多个设备,诸如磁盘或光盘驱动、软盘驱动、闪存、固态驱动、或记忆棒。

存储器730和(多个)大容量存储设备750可以包括或存储有操作系统760、一个或多个应用762、一个或多个程序模块764和数据766。操作系统760动作以控制和分配计算机702的资源。应用762包括系统和应用软件中的一者或两者,并且可以通过程序模块764和存储在存储器730和/或(多个)大容量存储设备750中的数据766来由操作系统760对资源进行管理以执行一个或多个动作。因此,应用762可以根据由此提供的逻辑将通用计算机702转换成专用机器。

所要求保护的主题的所有或部分可以使用标准编程和/或工程技术来实现,以产生软件、固件、硬件或其任何组合,以控制计算机来实现所公开的功能性。作为示例而非限制,系统100或其部分可以是或形成应用762的一部分,并且包括存储在存储器和/或(多个)大容量存储设备750中的一个或多个模块764和数据766,一个或多个模块764和数据766的功能在由一个或多个处理器720执行时可以被实现。

根据一个特定实施例,(多个)处理器720可以对应于片上系统(SOC)或类似的架构,在单个集成电路基板上包括或换言之集成硬件和软件。这里,(多个)处理器720可以包括一个或多个处理器以及至少类似于(多个)处理器720和存储器730的存储器等。传统处理器包括最少量的硬件和软件,并且广泛地依赖于外部硬件和软件。相比之下,处理器的SOC实现更加强大,因为其中嵌入有硬件和软件,其使得能够以最小或不依赖于外部硬件和软件来实现特定功能性。例如,系统100和/或相关联的功能性可以被嵌入在SOC架构中的硬件内。

计算机702还包括被通信地耦合到系统总线740并且支持与计算机702的交互的一个或多个接口部件770。作为示例,接口部件770可以是端口(例如,串行、并行、PCMCIA、USB、FireWire等)或接口卡(例如,声音、视频等)等。在一个示例实现中,接口部件770可以被实现为用户输入/输出接口,以使得用户能够向计算机702中录入命令和信息,例如通过一个或多个手势或语音输入,通过一个或多个输入设备(例如,指点设备,诸如鼠标、轨迹球、触控笔、触摸板、键盘、麦克风、操纵杆、游戏垫、卫星天线、扫描仪、相机、其他计算机等)。在另一示例实现中,接口部件770可以被实施为输出外围接口,以向显示器(例如LCD、LED、等离子体等)、扬声器、打印机和/或其他计算机等提供输出。此外,接口部件770可以被实施为网络接口,以实现与其他计算设备(未示出)的通信,诸如通过有线或无线通信链路。

上面描述的内容包括所要求保护的主题的各个方面的示例。当然,为了描述所要求保护的主题的目的,不可能描述部件或方法的每个可想到的组合,但是本领域普通技术人员可以认识到,所公开的主题的很多另外的组合和排列是可能的。因此,所公开的主题旨在包含落在所附权利要求的精神和范围内的所有这种更改、修改和变化。此外,在具体实施方式或权利要求中使用术语“包括”的程度上,这种术语以与术语“包含”类似的方式旨在是包括性的,如“包含”在权利要求中被用作过渡词时被解释的那样。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号