首页> 中国专利> 电子文档中个人可识别信息的认知迭代最小化

电子文档中个人可识别信息的认知迭代最小化

摘要

提供了最小化电子文档中的个人可识别信息(PII)的机制。迭代个人可识别信息最小化(IPIIM)引擎接收包括具有受保护实体的提及的自然语言内容的电子文档,并且混淆受保护实体的提及,从而生成最小化自然语言内容。问题回答计算系统处理最小化自然语言内容以生成候选回答和相应置信度得分的列表,并且IPIIM引擎基于候选回答和相应置信度得分的列表来确定最小化自然语言内容是否被充分混淆。响应于确定最小化自然语言内容被充分混淆,提供最小化自然语言内容,以供请求者计算设备进行处理。

著录项

说明书

技术领域

本申请总体上涉及一种改进的数据处理装置和方法,并且更具体地,涉及用于提供机制以认知地和迭代地最小化电子文档中存在的个人可识别信息到编辑的个人可识别信息不再可恢复的程度的机制。

背景技术

在当今以计算机为导向的社会中,数据的匿名化是重要的考虑因素,在这个社会中,使用计算机化的机制可以相对容易地规避个人隐私。也就是说,通过网站、数据库、目录等,收集个人的个人信息并使其可访问用于合法用途,但也可用于非法用途。随着身份盗窃和其他对个人信息的非法访问变得更加猖獗,个人隐私正成为越来越重要的问题。此外,政府法规要求个人的某些类型的数据,诸如病史信息,要保持安全。

已知的匿名化系统和技术本质上利用模式匹配或关键字搜索来识别标准化的信息片段,以混淆(obfuscate)或消除它们,使其不能作为查询结果返回。在更结构化的系统中,一种类型的字段基础可以用于识别包含个人可识别信息的字段。通常,这些系统识别数据字段,诸如姓名、地址、邮政编码等,这些字段被确定为可用于单独识别特定人员的字段,并以编程方式混淆或消除这些字段,使其不能作为查询结果返回。

在已知的最小化任务或匿名化任务中,识别的个人可识别信息(personallyidentifiable information,PII)被编辑或替换为占位符。例如,在将医疗记录传递给研究人员之前,他们可以小心地移除医疗记录中的PII,以保护患者的隐私。同样,在法律披露(legal discovery)领域,与诉讼无关的PII可能会在文档透露给对方之前被编辑。当由人类执行这种方法时是乏味的,并且当使用已知的匿名化或最小化技术时,这种方法容易出错,因为已知的匿名化或最小化技术通常不考虑可能用于个人识别个人的所有可能的信息组合,并且仅限于识别特定的静态指定的字段和数据类型。例如,虽然已知的匿名化技术可以从患者的医疗记录中编辑患者的姓名、年龄、地址、社会保障号等,但已知的匿名化技术不能识别出,如果他们是在特定时间范围内在特定医院治疗罕见疾病的唯一患者,那么他们的身份可能仍然被无意中透露。

发明内容

提供本发明内容是为了以简化的形式介绍在具体实施方式中进一步描述的一些构思。本发明内容不旨在标识所要求保护的主题的关键因素或必要特征,也不旨在用于限制所要求保护的主题的范围。

在一个说明性实施例中,提供了一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法,该至少一个存储器包括由该至少一个处理器执行的指令,以使得该至少一个处理器最小化电子文档中的个人可识别信息(PII)。该方法包括由在数据处理系统中执行的迭代个人可识别信息最小化(iterative personally identifiableinformation minimization,IPIIM)引擎接收包括具有受保护实体的提及(mention)的自然语言内容的电子文档。该方法还包括由IPIIM引擎对自然语言内容应用自然语言处理和解析分析(analytic analysis),以混淆受保护实体的提及,从而生成第一最小化自然语言内容。此外,该方法包括由问题回答计算系统处理第一最小化自然语言内容,以生成一个或多个候选回答和相应置信度得分的第一列表,并且由IPIIM引擎基于一个或多个候选回答和相应置信度得分的第一列表来确定第一最小化自然语言内容是否被充分混淆。此外,响应于确定第一最小化自然语言内容被充分混淆,该方法包括提供第一最小化自然语言内容作为电子文档的最终最小化自然语言内容,以供请求者计算设备处理。

在其他说明性实施例中,提供了一种包括具有计算机可读程序的计算机可用或可读介质的计算机程序产品。当在计算设备上执行时,计算机可读程序使得计算设备执行以上关于方法说明性实施例概述的操作中的各种操作及其组合。

在又一个说明性实施例中,提供了一种系统/装置。该系统/装置可以包括一个或多个处理器和耦合到该一个或多个处理器的存储器。存储器可以包括指令,当由一个或多个处理器执行时,该指令使得一个或多个处理器执行以上关于方法说明性实施例概述的操作中的各种操作以及这些操作的组合。

鉴于本发明的示例实施例的以下详细描述,本发明的这些和其他特征和优点将在本发明的示例实施例的以下详细描述中描述,或者对于本领域普通技术人员来说将变得显而易见。

附图说明

当结合附图阅读时,通过参考以下说明性实施例的详细描述,将最好地理解本发明及其优选使用模式和进一步的目的和优点,其中:

图1是根据一个说明性实施例的迭代个人可识别信息最小化(IPIIM)引擎的主要操作组件的示例框图;

图2描绘了其中可以实现说明性实施例的各方面的计算机网络中的示例数据处理系统的示意图;

图3是其中实现说明性实施例的各方面的示例数据处理系统的框图;

图4是根据一个说明性实施例的问题回答流水线的示例图;和

图5是根据一个说明性实施例的概述迭代个人可识别信息最小化(IPIIM)引擎的示例操作的流程概述。

具体实施方式

在任何计算系统中,保护个人的敏感信息的隐私,诸如可能存储在电子医疗记录(electronic medical record,EMR)中的个人的医疗信息、可能存储在与法院、律师事务所或政府机构相关的数据结构或记录中的法律信息,或者任何其他个人信息集合,都具有重要意义,这不仅是为了保护个人,也是为了避免政府法律规定的责任。然而,对于许多情况,访问包括关于个人的实际数据的实际数据记录是必要的,以便确保计算系统的正确操作、应用的开发等。例如,许多时候,为了开发目的,人类计算机应用开发者必须使用实际个人的实际数据记录来进一步开发或提高正在开发的计算机应用的质量。为了使这些开发者能够执行他们的必要任务,同时维护其数据被利用的个人的隐私,敏感数据,即个人可识别信息(PII),应该被最小化或混淆。然而,这种最小化或混淆应该以允许开发操作不受阻碍地进行的方式来完成。同样,运行时(runtime)应用也应该能够以不受阻碍的方式对已被最小化或混淆的患者数据进行操作,使得它们可以在维护个人隐私的同时执行它们的操作。

说明性实施例提供了使用基于被称为“参考”文档的电子文档的语料库的最小化电子文档的认知计算评估来自动和迭代地最小化或混淆(以下称为“最小化”)电子文档中的个人可识别信息(PII)的机制。说明性实施例的机制利用认知问题回答计算系统,诸如多焦点仿真陈述(multi-focus factoid)深度问题回答计算系统,以及电子文档的语料库来自动最小化给定的敏感文档到最小化或混淆的实体不太可能恢复的程度。在共同转让的美国专利申请序列号15/969,154;16/168,718;以及16/182,877中描述了多焦点仿真陈述深度问题回答计算系统的示例,它们在本文引入作为参考。尽管示例说明性实施例在本文被描述为用多焦点仿真陈述深度问题回答计算系统来实现,但是应当理解,本发明不限于此,并且在不脱离本发明的精神和范围的情况下,可以使用任何类型的当前已知的或以后开发的认知问题回答计算系统,诸如纽约阿蒙克市的国际商业机器公司提供的IBM Watson

利用说明性实施例的机制,给定其身份将被保护的实体,该目标实体的每次出现在给定的敏感文档中被编辑、掩盖(mask)或以其他方式混淆,以生成“掩盖”文档。目标实体被标记为用于回答问题的焦点。掩盖文档被输入到多焦点仿真陈述深度问题回答计算系统,该系统处理掩盖文档,以尝试使用参考文档的语料库来填充或预测掩盖实体。如果给定掩盖文档的剩余未掩盖内容,目标实体(也称为“原始”实体)在阈值置信度水平内是可恢复的,则来自敏感文档的附加实体被编辑、混淆或以其他方式掩盖,以生成敏感文档的另一个掩盖版本,然后以相同的方式进行处理,再次以原始目标实体作为问题回答的焦点。迭代重复该过程,直到原始实体恢复中的置信度值在阈值置信度值以下,或者在敏感文档中没有可以被编辑、混淆或掩盖的实体实例。

因此,通过这种自动和迭代的认知过程,使用认知问题回答计算系统,诸如多焦点仿真陈述问题回答计算系统,作为用于执行掩盖文档的认知计算评估的机制,实现了足够水平的编辑、混淆或掩盖,以确保目标实体不能从掩盖文档中恢复,同时将编辑、混淆或掩盖的量最小化到仅确保目标实体不能恢复或不再恢复所需的水平。这使得必须对掩盖文档进行操作的操作更有可能提供有用的结果,因为掩盖文档没有被过度编辑、混淆或掩盖从而可能无法使用。

为了进一步说明根据一个说明性实施例的本发明的操作,考虑一种情形,其中为了法律诉讼中的法律披露过程的目的而提供假设的敏感文档。对敏感文档进行最小化或混淆处理,以便移除敏感文档中存在的与法律披露过程无关的实体的实例。例如,假设在这个假设的案例中,虚构的律师Rufus Xavier Sarsasparilla的不当行为是个问题。现在,假设在这种情形下,敏感文档中出现以下段落:

2007年5月27日,Rufus Xavier Sarsasparilla先生在他位于图森的新顶层公寓会见了他的客户Thomas Underhill。

因为Sarsasparilla先生是被调查的个人,而Underhill先生不是,所以在敏感文档普遍公开前保护Underhill先生的隐私是很重要的。因此,Underhill先生的姓名被编辑、混淆或用替换或填充字符串掩盖,诸如明显虚构的姓名或占位符,例如,“John Doe”或“Focus1”,使得该段落现在为:

变体1:2007年5月27日,Rufus Xavier Sarsasparilla先生在他位于图森的新顶层公寓会见了他的客户FOCUS1。

然而,在这种情形下,Underhill先生是著名的公众人物,并以拥有图森为数不多的豪华顶层公寓之一而闻名。事实上,2007年5月的一组新闻文章提到了这一事实:

Thomas Underhill在图森的顶层公寓是世界上最大最贵的公寓之一。

Underhill先生的公寓是在2007年5月以1050万美元买下的,这是该市有记录以来最贵的一次购买。

27日早些时候,百万富翁Thomas Underhill在他的顶层公寓会见了一名身份不明的男子。

因此,即使Underhill先生的姓名从最初的敏感文档中被移除,观察敏锐的研究者,考虑到以上所示的语料库的其他参考文档中的信息,可以得出一些关于“FOCUS1”的真实身份的合理结论,即考虑到这些其他段落,FOCUS1很可能是指Thomas Underhill。当目标是保护Underhill先生的身份和隐私时,这是有问题的。

本发明将“FOCUS”的角色分配给编辑和替换的姓名,然后尝试使用参考文档的语料库和多焦点仿真陈述问题回答计算系统的操作来找到填充该焦点位置(focus slot)的实体。如果Underhill先生的姓名出现在前n个候选回答位置中,即候选回答的置信度得分等于或高于预定阈值置信度得分,则这指示需要对原始敏感文档进行更广泛的最小化或混淆。可以执行最小化或混淆的附加迭代,诸如首先识别原始敏感文档段落中可以被最小化或混淆的其他专有名词,然后识别原始敏感文档段落中可以被最小化或混淆的其他名词短语,等等。迭代地执行最小化或混淆,直到正确回答的置信度得分,即Thomas Underhill的置信度得分在预定阈值置信度得分以下或者在n个最高候选回答之外。

例如,假设n的值为10,并且假设姓名“Thomas Underhill”作为由多焦点仿真陈述问题回答系统生成的最高排名候选回答出现。在原始敏感的文档段落中有两个专有名词短语可以被进一步最小化或混淆。对于每个专有名词短语,生成原始段落的变体,该变体中专有名词短语的不同组合被最小化或混淆,并经由多焦点仿真陈述问题回答计算系统进行处理。例如,使用以上示例原始段落可以生成以下变体:

变体2:Rufus Xavier Sarsasparilla先生在他位于图森的新顶层公寓里会见了他的客户FOCUS1和FOCUS2。

变体3:2007年5月27日,Rufus Xavier Sarsasparilla先生在他位于FOCUS2的新顶层公寓会见了他的客户FOCUS1。

在上面的变体2和3中,现在有两个焦点,并且多焦点仿真陈述问题回答计算系统用于尝试填充这些焦点。假设在以上的变体2中,Underhill先生的姓名作为FOCUS1的第四排名的候选回答出现,但是对于上面的变体3,Underhill先生的姓名作为第84排名的候选回答出现。这指示变体3是原始敏感文档段落的可接受的最小化或混淆。如果两种变体都不可接受,则可以以迭代方式用3个或更多个焦点重复该过程,直到达到可接受的最小化或混淆水平,或者直到在原始敏感文档段落中没有可以最小化或混淆的其他实体。在所有焦点候选被消耗并且正确回答,即Thomas Underhill,仍然出现在排名前n的候选回答中或者具有等于或高于阈值置信度得分的置信度得分的情况下,原始敏感文档段落可以被标记为人工干预,以确定如何最小化或混淆该段落。在一些实施例中,在这种情况下,可以从原始敏感文档中完全编辑整个段落。

应当理解,以上示例引用了针对专有名词和名词短语的最小化或混淆过程的迭代,然而,本发明不限于此。相反,根据说明性实施例的认知迭代最小化引擎的期望实现和配置,自然语言段落的其他自然语言元素可以被作为最小化或混淆的目标,例如代词、介词短语等,其被确定为指示特定敏感上下文中的身份。在一些实施例中,其他类型的文本字符串也可以作为最小化或混淆的目标,例如患者EMR中的医疗代码。作为本发明的迭代过程的一部分,给定特定上下文,可以被确定为个人的潜在可识别的文本的任何部分可以被认为是最小化或混淆的潜在目标。

在开始更详细地讨论说明性实施例的各个方面之前,应该首先理解,在整个描述中,术语“机制”将用于指代执行各种操作、功能等的本发明的元素。本文使用的术语“机制”可以是装置、过程或计算机程序产品形式的说明性实施例的功能或方面的实现。在过程的情况下,该过程由一个或多个设备、装置、计算机、数据处理系统等实现。在计算机程序产品的情况下,由包含在计算机程序产品中或计算机程序产品上的计算机代码或指令表示的逻辑由一个或多个硬件设备执行,以便实现与特定“机制”相关联的功能或执行与特定“机制”相关联的操作。因此,本文描述的机制可以被实现为专用硬件、在通用硬件上执行的软件、存储在介质上的软件指令,使得这些指令可以容易地由专用或通用硬件、用于执行这些功能的过程或方法、或者上述任何的组合来执行。

本说明书和权利要求可以针对说明性实施例的特定特征和元素使用术语“一个”、“至少一个”和“一个或多个”。应当理解,这些术语和短语旨在说明在特定说明性实施例中存在至少一个特定特征或元素,但是也可以存在不止一个。也就是说,这些术语/短语不旨在将说明书或权利要求限制到存在的单个特征/元素,或者要求存在多个这样的特征/元素。相反,这些术语/短语仅需要至少一个特征/元素,并且多个这样的特征/元素的可能性在说明书和权利要求的范围内。

此外,应当理解,术语“引擎”的使用,如果在本文用于描述本发明的实施例和特征,并不旨在限制用于实现和/或执行可归因于引擎和/或由引擎执行的动作、步骤、过程等的任何特定实现。引擎可以是但不限于软件、硬件和/或固件或其任意组合,其执行指定的功能,包括但不限于通用和/或专用处理器与加载或存储在机器可读存储器中并由处理器执行的适当软件的任意组合。此外,除非另有说明,与特定引擎相关联的任何名称都是为了方便参考的目的,而不是为了限制特定的实现。此外,归属于引擎的任何功能可以由多个引擎同等地执行,结合到相同或不同类型的另一个引擎的功能中和/或与该另一个引擎的功能组合,或者分布在不同配置的一个或多个引擎上。

此外,应当理解,以下说明书针对说明性实施例的各种元素使用了多个不同的示例,以进一步说明说明性实施例的示例实现,并帮助理解说明性实施例的机制。这些示例旨在是非限制性的,并且不是实现说明性实施例的机制的各种可能性的穷举。鉴于本说明书,对于本领域普通技术人员来说显而易见的是,在不脱离本发明的精神和范围的情况下,除了本文提供的示例之外,或者替换本文提供的示例,可以利用这些不同元素的许多其他替代实现。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。本文所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理装置,或者通过网络、例如互联网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理装置中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理装置中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Java,Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用互联网服务提供者来通过互联网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。

本文参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上,流程图或框图中的每个方框可以表示一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

如上所述,本发明提供了用于识别存在于电子文档内容(即,电子文档内的段落)中的敏感个人可识别信息(PII)的机制,给出了要对其执行编辑、最小化或混淆的实体或实体类型的列表。出于本说明书的目的,假设术语编辑、最小化、混淆和匿名化在本文可互换使用,并指从内容中移除原始自然语言文本字符串,并用混淆原始自然语言文本字符串的占位符替换该原始自然语言文本字符串。此外,本说明书将引用电子“文档”作为自然语言文本内容的源,该自然语言文本内容是在这种电子“文档”的内容中存在的PII混淆的主题,然而这些电子文档可以是其中可能存在PII的自然语言文本的任何部分,诸如单独的句子、段落、节、文档的部分或整个文档本身。

说明性实施例的机制混淆电子文档内容中存在的受保护实体的提及,然后生成问题用于多焦点仿真陈述问题回答(QA)系统处理,以确定在给定参考文档的语料库的其他参考文档中存在的信息的情况下,受保护实体的身份是否仍然可以从电子文档内容中辨别。如果即使在混淆/最小化之后,受保护实体的正确身份仍然可以被识别,则可以迭代地执行附加混淆/最小化,直到受保护实体的正确身份不再能够被充分识别,或者直到不能进一步混淆/最小化。如果受保护实体的正确身份不能被充分识别,那么混淆/最小化水平足以保护受保护实体的身份。

图1是示出根据一个说明性实施例的迭代个人可识别信息(PII)最小化引擎的主要操作元件的示例框图。如图1所示,请求者计算设备110可以发送访问由电子文档提供者计算系统120提供的一个或多个电子文档的请求。例如,电子文档提供者计算系统120可以是负责管理和维护具有自然语言文本段落的电子文档集合的计算系统,自然语言文本段落的内容中可以包括PII。例如,电子文档提供者计算系统120可以是负责获取、管理和维护多个患者的电子医疗记录的电子医疗记录存储计算系统、政府机构计算系统,诸如维护与法律诉讼相关联的电子文档的法院或其他法律行业计算系统,或者存储具有自然语言文本段落(其中自然语言文本段落的内容可以包括PII)的电子文档的任何其他类型的计算系统。

请求者计算设备110可以向电子文档提供者计算系统120发送访问请求,其中该请求指定请求者有兴趣获得访问的文档或(多个)多个文档的标准。例如,请求者计算设备110可以寻找患者电子医疗记录信息,用于开发新的医疗计算机应用、治疗推荐系统等,并且可能想要在患者电子医疗记录信息中的实际患者数据上测试新的医疗计算机应用。虽然重要的是提供实际数据,在此基础上可以测试新的医疗计算机应用,以确保应用的正确操作,但同样重要的是,不向请求者提供能够个人地识别特定个人的信息。应当理解,这仅仅是请求者可以请求访问一个或多个可能包括PII的电子文档的一个示例原因。说明性实施例不限于请求访问电子文档的任何特定原因,并且其中维护在其内容中可能包含PII的电子文档并且需要对内容的部分进行混淆、编辑、最小化或匿名化以避免识别个人的任何配置或情形都在本发明的精神和范围内。

可能存在于电子文档的自然语言文本的内容中的PII可以采取许多不同的形式,包括专有姓名、地址、社会保障号、驾照号码、用户标识符、密码等。PII是信息的任何部分,单独或与信息的其他部分一起,可用于明确识别特定人员、组织或实体。具体地,根据说明性实施例,PII是可用于具体识别特定实体的信息的任何部分,该特定实体的身份旨在被保护以免被未授权人员发现。

响应于文档提供者计算系统120接收到对由文档提供者计算系统120管理/维护的电子文档的访问请求,文档提供者计算系统120可以在它们的电子文档存储装置中搜索与接收到的请求中的任何指定标准相匹配的电子文档,并且根据一个说明性实施例,将那些电子文档130提供给迭代个人可识别信息(PII)最小化(IPIIM)引擎140作为向请求者计算设备110授予访问或以其他方式释放所请求的电子文档130的一部分,或授予访问或以其他方式释放所请求的电子文档130之前将那些电子文档130提供给IPIIM引擎140。IPIIM引擎140可以是与文档提供者计算系统120相同的计算系统的一部分,或者可以与不同的计算系统相关联,该不同的计算系统可以由与文档提供者相同的提供者提供,或者作为为文档提供者提供匿名化、编辑、最小化或混淆服务的第三方服务提供者。在这种情况下,向IPIIM引擎140发送文档130可以利用加密/解密机制来确保文档130中的内容的隐私。

如图1所示,IPIIM引擎140包括PII最小化引擎142、查询生成器144、多焦点仿真陈述问题回答(QA)系统146和PII最小化评估引擎148。PII最小化引擎142以计算机硬件、执行的软件或计算机硬件和执行的软件的组合中来提供逻辑,用于评估接收的文档130的自然语言内容,以识别其身份将被混淆的受保护实体150的提及的实例,混淆这些识别的实例中的一个或多个,并将修改的内容提供给查询生成器144。PII最小化引擎142还提供用于在后续迭代中修改内容的已经修改的部分的逻辑,以进一步混淆内容的部分,这些部分可以与来自参考文档语料库160中的参考文档的内容一起提供足够的信息来识别内容中所提及的实体。

也就是说,给定受保护实体150的列表,该列表可以由文档提供者计算系统120或监管最小化过程的另一个实体(诸如系统管理员等)提供。受保护实体150的列表可以是特定实体,例如Thomas Underhill,或者可以是一种实体类型,例如个人的专有姓名、组织的专有名称等。在指定实体类型的情况下,则在文档130的自然语言处理期间,识别受保护实体的提及的实例,类型可以在内容内的受保护实体150和提及的类型之间匹配。可以利用各种技术来识别自然语言内容中受保护实体的实例。在一些说明性实施例中,命名实体包括能够表示该命名实体的字符串表示的等价类,例如[“Dwight Eisenhower”、“Dwight DavidEisenhower”、“Dwight D.Eisenhower”、“DDE”…]使得这些命名实体字符串中的任何一个的任何实例可以通过自然语言处理和自然语言内容的解析在自然语言内容中被识别。在另一个说明性实施例中,可以使用字符串编辑距离度量(string edit-distance metric)来识别接近的匹配,例如,“Dwight D.Eisenhower”是类似于“Dwight Eisenhower”的字符串编辑距离,并且可以通过自然语言处理和自然语言内容的解析来识别自然语言内容中这些字符串中的任一个的实例。

应当注意,尽管为了便于解释,本说明书将集中于经由IPIIM引擎140处理的单个电子文档130,但是本文描述的操作可以应用于多个电子文档,以在向发出请求的计算设备110授予访问或以其他方式将电子文档130释放给发出请求的计算设备110之前最小化每个电子文档130中的PII。此外,如上所述,电子文档130可以是文本的单独部分、段落或整个电子文档。在电子文档130包括文本的多个段落或部分的情况下,说明性实施例的操作可以应用于电子文档130内的文本或段落的每个部分。

查询生成器144以计算机硬件、执行的软件或计算机硬件和执行的软件的组合中来提供逻辑,用于基于电子文档130的修改内容生成一个或多个查询。例如,给定“2007年5月27日,Rufus Xavier Sarsasparilla先生在他位于图森的新顶层公寓会见了他的客户Thomas Underhill”的段落,并且需要混淆姓名Thomas Underhill的实例,PII最小化引擎142可以将该段落的内容修改为“2007年5月27日,Rufus Xavier Sarsasparilla先生在他位于图森的新顶层公寓会见了他的客户FOCUS1”。从原始内容的该修改版本,查询生成器144可以生成“谁在2007年5月27日在他位于图森的新顶层公寓会见了Rufus XavierSarsasparilla先生?”由查询生成器144基于其中PII实例被混淆并被占位符(例如FOCUS1)替换的内容的修改版本生成的一个或多个查询作为输入被提供给多焦点仿真陈述QA系统146。

多焦点仿真陈述QA系统146基于参考文档语料库160处理由查询生成器144提供的查询,以确定是否可以以足够的置信度确定与修改内容中的占位符(例如,FOCUS1)相对应的受保护实体150的正确身份。也就是说,多焦点仿真陈述QA系统146处理一个或多个查询,并生成一个或多个候选回答,这些候选回答指示多焦点仿真陈述QA系统146确定的对混淆的受保护实体150(例如,FOCUS1)的身份的预测。(多个)候选回答包括置信度得分,该置信度得分指示多焦点仿真陈述QA系统146在候选回答是正确回答(即混淆的受保护实体150的正确身份)方面具有的置信度水平。

候选回答和置信度得分的列表被提供给PII最小化评估引擎148,该引擎评估相对于原始内容中被混淆的受保护实体150的候选回答和置信度得分的列表,即FOCUS1的正确身份和阈值置信度得分。也就是说,PII最小化评估引擎148根据候选回答的置信度得分来评估候选回答,以识别置信度得分等于或大于阈值置信度得分的候选回答的子集。将子集中的候选回答与受保护实体150(例如,FOCUS1)的占位符的正确身份进行比较,以确定正确身份是否出现在候选回答的子集中。如果不是,则文档130的内容的当前混淆或最小化版本足以保护受保护实体的身份。在这种情况下,文档130的当前混淆或最小化版本作为PII最小化文档170输出到请求者计算设备110。

如果正确身份出现在候选回答的子集中,则混淆或最小化不足以保护受保护实体150的身份。在这种情况下,则内容的当前混淆或最小化版本被提交给PII最小化引擎142,用于内容的当前混淆或最小化版本中存在的PII的进一步混淆或最小化。因此,例如,内容中存在的附加名词和/或名词短语可以被识别并且通过用占位符例如FOCUS2、FOCUS3等进行编辑和替换来混淆或最小化。内容的混淆或最小化版本的新版本然后作为后续迭代经过查询生成器144、多焦点仿真陈述QA系统146和PII最小化评估引擎148的处理。

该过程可以随着文档130的内容中PII的混淆/最小化量的增加而迭代地重复。该迭代过程继续,直到PII最小化评估引擎148确定受保护实体150的正确身份没有出现在由多焦点仿真陈述QA系统146生成的具有在预定置信度得分阈值以上的置信度得分的候选回答的子集中,或者在内容中没有可以混淆/最小化的PII的附加实例。在PII最小化评估引擎148确定正确身份没有以足够的置信度水平出现在候选回答中的情况下,即置信度得分等于或高于预定置信度得分阈值,内容的当前版本可以作为混淆/最小化文档170的一部分输出到请求者计算设备110。在内容中没有可被混淆/最小化的PII的附加实例的情况下,整个内容可被混淆/最小化,以便在提供对文档的访问或将文档作为混淆/最小化文档170释放之前保护受保护实体150的身份。或者,文档130可以不包括在提供给请求者计算设备110的混淆文档170集中。在一些情况下,文档提供者计算系统120的管理员可以被通知不能充分混淆/最小化文档,使得人类管理员可以在向请求者计算设备110授予访问或将文档的手动混淆/最小化版本释放给请求者计算设备110之前执行文档的手动混淆/最小化。

因此,说明性实施例的机制提供了一种自动迭代方法来确定确保受保护实体的身份不可从电子文档内容中发现所需的PII的混淆/最小化水平。说明性实施例的机制利用多焦点仿真陈述问题回答(QA)系统来尝试辨别内容中的受保护实体的提及的混淆/最小化实例的身份。对该QA系统生成的候选回答进行评估,以确定该QA系统是否能够以至少预定阈值量的置信度辨别正确身份。如果是,内容的附加部分被混淆/最小化,并且以迭代的方式再次执行该过程,直到正确回答不能被该QA系统以预定阈值量的置信度辨别。结果,当与访问/释放原始电子文档内容相比时,生成的混淆/最小化电子文档内容,其相对更安全地允许请求者访问或向请求者释放,而不会显著担心受保护实体的隐私会被无意地侵犯。

说明性实施例提供了一种改进的计算机工具,用于自动混淆/最小化电子文档内容中的PII。改进的计算机工具可以在包括一个或多个计算设备的任何合适的计算系统中实现。该改进的计算机工具可以是计算机系统的一部分,该计算机系统管理/维护电子文档、控制对电子文档的访问、分发电子文档,或者参与提供电子文档用于其他方经由一个或多个数据网络和/或计算机系统访问。在其他说明性实施例中,改进的计算机工具可以作为第三方服务提供者来提供,该第三方服务提供者将说明性实施例的自动迭代最小化/混淆过程作为电子文档提供者所访问的服务来提供。

因此,说明性实施例可以在许多不同类型的数据处理环境中利用。为了给说明性实施例的特定元素和功能的描述提供上下文,下文提供图1-图2作为其中可以实现说明性实施例的各方面的示例环境。应当理解,图1-图2仅是示例,并不旨在断言或暗示关于可以实现本发明的各方面或实施例的环境的任何限制。在不脱离本发明的精神和范围的情况下,可以对所描述的环境进行许多修改。

在一些说明性实施例中,说明性实施例的机制结合电子文档提供者计算系统操作,诸如电子医疗记录(EMR)数据库系统、政府组织计算系统或任何其他电子文档提供者。这种计算机系统仅仅是举例说明可以处理敏感个人可识别信息(PII)的系统类型,该敏感个人可识别信息可以用于唯一地识别个人。说明性实施例可以与其中可由系统可以处理潜在敏感PII的任何系统一起使用。这种系统可以包括认知系统,诸如患者治疗推荐系统、决策支持系统等。

迭代PII最小化(IPIIM)引擎140的主要操作组件之一是多焦点仿真陈述问题回答(QA)系统146,其是一种认知计算系统(或简称为认知系统),即专用计算机系统或计算机系统集合,其配置有硬件和/或软件逻辑(与软件在其上执行的硬件逻辑相结合)以仿真人类认知功能。这些认知系统应用类人特征来传达和操纵思想,当与数字计算的内在优势相结合时,可以大规模地以高准确度和弹性解决问题。认知系统执行一个或多个计算机实现的认知操作,这些操作近似于人类的思维过程,并使人和机器能够以更自然的方式进行交互,从而扩展和放大人类专业知识和认知。认知系统包括人工智能逻辑,诸如基于自然语言处理(natural language processing,NLP)的逻辑,以及机器学习逻辑,其可以作为专用硬件、在硬件上执行的软件或者专用硬件和在硬件上执行的软件的任意组合来提供。认知系统的逻辑实现(多个)认知操作,其示例包括但不限于问题回答、语料库中内容的不同部分内的相关概念的识别、智能搜索算法(诸如互联网网页搜索)、例如,医疗诊断和治疗推荐以及其他类型的推荐生成(例如特定用户感兴趣的项目)、潜在的新联系人推荐等。具体而言,说明性实施例利用认知计算系统来执行问题回答认知操作,以尝试辨别其在电子文档内容中的提及已经被混淆/最小化的受保护实体的身份。

IBM Watson

·应对人类语言和理解的复杂性

·摄取和处理大量结构化和非结构化数据

·生成和评估假设

·衡量和评估仅基于相关证据的回答

·提供对情境特定的建议、见解和指导

·通过机器学习过程,在每次迭代和交互中提高知识和学习

·使得能够在影响点做出决策(上下文指导)

·与任务成比例缩放

·扩展和放大人类的专业知识和认知

·从自然语言中识别共鸣的、类人的属性和特征

·从自然语言中推导出各种语言特有的或不可知的属性

·来自数据点(图像、文本、声音)的高度相关回溯(记忆和回忆)

·基于经验,用模仿人类认知的情境意识进行预测和感知

·基于自然语言和具体证据回答问题

在根据说明性实施例的一个方面,认知系统提供了用于使用问题回答流水线或系统(QA系统)和/或可以或可以不作为自然语言问题提出的过程请求来回答向这些认知系统提出的问题的机制。QA流水线或系统是在数据处理硬件上执行的人工智能应用,其回答与以自然语言呈现的给定主题领域相关的问题。QA流水线接收来自各种源的输入,包括通过网络的输入、电子文档或其他数据的语料库、来自内容创建者的数据、来自一个或多个内容用户的信息、以及来自其他可能的输入源的其他此类输入。数据存储设备存储数据的语料库。内容创建者在文档中创建内容,用作供QA流水线使用的数据的语料库的一部分。该文档可包括QA系统中使用的任何文件、文本、文章或数据源。例如,QA流水线访问关于领域或主题领域的知识主体,例如金融领域、医疗领域、法律领域等,其中知识主体(知识库)可以以各种配置来组织,例如领域特定的信息的结构化储存库,诸如本体,或者与该领域相关的非结构化数据,或者关于该领域的自然语言文档的集合。

内容用户向实现QA流水线的认知系统输入问题。然后,QA流水线通过评估文档、文档部分、语料库中的数据部分等,使用数据的语料库中的内容来回答输入问题。当过程针对语义内容评估文档的给定部分时,该过程可以使用各种约定从QA流水线查询这样的文档,例如,将查询作为格式良好的问题发送到QA流水线,然后由QA流水线解释该问题,并且提供包含对该问题的一个或多个回答的响应。语义内容是基于能指(signifier)之间关系的内容,诸如单词、短语、标记和符号,以及它们表示什么、它们的外延或内涵。换句话说,语义内容是解释表达的内容,诸如通过使用自然语言处理。

QA流水线接收输入问题,解析问题以提取问题的主要特征,使用提取的特征来形成查询,然后将这些查询应用到数据的语料库中。基于对数据的语料库的查询的应用,QA流水线通过在数据的语料库中查找数据的语料库中具有一些潜在包含对输入问题的有价值响应的部分,来生成对输入问题的假设或候选回答集。然后,QA流水线使用各种推理算法对输入问题的语言和在查询的应用期间发现的数据的语料库中的每个部分中使用的语言执行深度分析。可以存在数百甚至成千上万个应用的推理算法,这些算法中的每一个执行不同的分析,例如比较、自然语言分析、词汇分析等,并生成得分。例如,一些推理算法可以查找输入问题的语言内的术语和同义词与找到的数据的语料库的部分的匹配。其他推理算法可以查找语言中的时间或空间特征,而其他算法可以评估数据的语料库的该部分的源并评估其准确性。

从各种推理算法中获得的得分指示基于该推理算法的特定焦点区域,由输入问题推断出潜在的响应的程度。然后,针对统计模型对每个结果得分进行加权。统计模型捕捉在QA流水线的训练期间,推理算法在为特定领域建立两个相似段落之间的推理时执行得有多好。统计模型用于总结置信度水平,即置信度得分,该得分指示QA流水线具有关于潜在响应(即候选回答)由问题推断的证据的置信度量。对每个候选回答重复该过程,直到QA流水线识别出表面上明显强于其他回答的候选回答,并因此为输入问题生成最终回答或排名回答集。

如上所述,QA流水线机制通过访问来自数据或信息的语料库(也称为内容的语料库)的信息、对其进行分析、然后基于对该数据的分析生成回答结果来操作。从数据的语料库中访问信息通常包括:回答关于结构化记录集合中是什么的问题的数据库查询,以及响应针对非结构化数据集合(文本、标记语言等)的查询而递送文档链接集合的搜索。问题回答系统能够基于数据的语料库和输入问题生成回答,验证对数据的语料库的问题集合的回答,使用数据的语料库校正数字文本中的错误,以及从潜在回答池(即候选回答)中选择问题的回答。

内容创建者,诸如文章作者、电子文档创建者、网页作者、文档数据库创建者等,在编写其内容之前,确定这些内容中描述的产品、解决方案和服务的用例。因此,内容创建者知道内容打算在内容所涉及的特定主题中回答什么问题。在数据的语料库的每个文档中对问题进行分类,诸如根据与问题相关联的角色、信息类型、任务等,允许QA流水线更快速和有效地识别包含与特定查询相关的内容的文档。内容还可以回答内容创建者没有想到的对内容用户有用的其他问题。问题和回答可以被内容创建者验证为包含在给定文档的内容中。这些功能有助于提高QA流水线的准确性、系统性能、机器学习和置信度。内容创建者、自动化工具等注释或以其他方式生成元数据,用于提供可由QA流水线使用的信息,以识别内容的这些问题和回答属性。

对这样的内容进行操作,QA流水线使用多个集中分析机制来生成输入问题的回答,这些分析机制评估内容以识别输入问题的最可能的回答,即候选回答。最可能的回答被输出为根据候选回答的评估期间计算的候选回答的相对得分或置信度度量进行排名的候选回答的排名列表,输出为具有最高排名得分或置信度度量的单个最终回答,或者为与输入问题的最佳匹配,或者为排名列表和最终回答的组合。

具体而言,说明性实施例的QA流水线用于基于从参考文档语料库160获得的信息来预测受保护实体的混淆/最小化的提及的身份。因此,QA流水线将在参考文档语料库160中查找作为回答由QA流水线生成的查询的证据,然后这些证据一起可用于预测电子文档内容中受保护实体的混淆/最小化的提及的身份,并为这种预测生成置信度得分。然后,可以评估根据置信度得分排名的候选回答的最终排名列表,以确定混淆/最小化水平是否足以保护受保护实体的身份。QA流水线可以是IPIM引擎的一部分,或者可以作为独立计算系统的一部分来提供,IPIM引擎与该独立计算系统通信,以基于由IPIM引擎生成的提交查询来获得候选回答的排名列表。

图2描绘了认知系统200的一个说明性实施例的示意图,在说明性实施例中,该认知系统200是实现迭代个人可识别信息最小化(IPIIM)引擎220的认知系统,该引擎220包括计算机网络202中的请求处理流水线208,在一些实施例中,该请求处理流水线208可以是问题回答(QA)流水线。QA流水线208对输入问题形式的结构化和/或非结构化请求进行操作,但是也可以对可能不是问题形式的作为自然语言请求提出的请求进行操作。美国专利申请公开第2011/0125734号中描述了可结合本文描述的原理使用的问题处理操作的一个示例,该专利申请通过引用整体并入本文。认知系统200在连接到计算机网络202的一个或多个计算设备204A-204D(包括一个或多个处理器和一个或多个存储器,以及潜在地包括本领域公知的任何其他计算设备元件,包括总线、存储设备、通信接口等)上实现。仅出于说明的目的,图2描绘了仅在计算设备204A上实现的认知系统200,但是如上所述,认知系统200可以分布在多个计算设备上,诸如多个计算设备204A-204D。网络202包括可以作为服务器计算设备操作的多个计算设备204A-204D,以及可以作为客户端计算设备操作的210-212,经由一个或多个有线和/或无线数据通信链路彼此通信以及与其他设备或组件通信,其中每个通信链路包括电线、路由器、交换机、发射机、接收机等中的一个或多个。在一些说明性实施例中,认知系统200和网络202经由一个或多个认知系统用户各自的计算设备210-212为这些用户启用问题处理和回答生成(QA)功能性。在其他实施例中,认知系统200和网络202可以提供其他类型的认知操作,包括但不限于请求处理和认知响应生成,其可以根据期望的实现采取许多不同的形式,例如认知信息检索、用户的训练/指导、数据的认知评估等。认知系统200的其他实施例可以与除了本文描述的那些之外的组件、系统、子系统和/或设备一起使用。

认知系统200被配置为实现从各种源接收输入的请求处理流水线108。这些请求可以以自然语言问题、对信息的自然语言请求、对执行认知操作的自然语言请求等形式提出。例如,认知系统200从网络202、电子文档的一个或多个语料库206、认知系统用户和/或其他数据和其他可能的输入源接收输入。在一个实施例中,认知系统200的一些或全部输入通过网络202路由。网络202上的各种计算设备204A-204D包括内容创建者和认知系统用户的接入点。一些计算设备204A-204D包括用于存储数据的一个或多个语料库206的数据库的设备(仅为了说明的目的,在图2中显示为单独的实体)。数据的一个或多个语料库206的部分也可以在一个或多个其他网络附加的存储设备上、在一个或多个数据库中、或在图2中未明确示出的其他计算设备上提供。在各种实施例中,网络202包括本地网络连接和远程连接,使得认知系统200可以在任何大小的环境中操作,包括本地和全球环境,例如互联网。

在一个实施例中,内容创建者在数据的一个或多个语料库206的文档中创建内容,以用作供认知系统200使用的数据的语料库的一部分。该文档包括在认知系统200中使用的任何文件、文本、文章或数据源。认知系统200的IPIIM引擎220经由到网络202的网络连接或互联网连接接收用于PII的自动混淆/最小化电子文档,并且对这些电子文档进行操作以执行先前关于一个或多个说明性实施例描述的迭代混淆/最小化操作,其包括向多焦点仿真陈述QA流水线208提交查询,多焦点仿真陈述QA流水线208基于数据的一个或多个语料库206中的内容来回答/处理查询,以生成候选回答和置信度得分的列表,作为电子文档内容中的混淆/最小化的受保护实体提及的身份的预测。

在一个实施例中,使用自然语言形成问题/请求。认知系统200的IPIM引擎220经由QA流水线208解析和解释问题/请求,并生成对由IPIM引擎220生成的查询的一个或多个候选回答。认知系统200的IPIIM引擎220生成接收到的电子文档的混淆/最小化版本,用于授予(多个)请求者计算设备的访问/释放给(多个)请求者计算设备,或者向电子文档提供者提供通知,告知其不能充分混淆/最小化电子文档内容中的PII,使得提供者可以确定如何手动混淆/最小化电子文档内容中的PII和/或根据请求者的潜在访问/释放给请求者来移除电子文档。

认知系统200的IPIIM引擎220实现流水线208,流水线208包括用于基于从数据的一个或多个语料库206获得的信息来处理输入问题/请求的多个阶段。流水线208基于输入问题/请求的处理和数据的一个或多个语料库206,为输入问题或请求生成回答/响应。下文将参考图4更详细地描述流水线208。

在一些说明性实施例中,认知系统200可以是可从纽约阿蒙克的国际商业机器公司获得的IBM Watson

然后,针对统计模型将从各种推理算法获得的得分进行加权,该统计模型总结在该示例中IBM Watson

如上所述,虽然从IPIIM引擎220到QA流水线208的输入可以以自然语言问题的形式提出,但是说明性实施例不限于此。相反,输入问题实际上可以被格式化或结构化为任何合适类型的请求,其可以使用结构化和/或非结构化输入分析来解析和分析,包括但不限于认知系统(诸如IBM Watson

因此,使用图2中所示的示例体系结构,以及上面提到的关于虚构的个人ThomasUnderhill的先前情形,再次考虑假设的敏感文档被提供用于法律中的法律披露过程的目的并且受到最小化或混淆处理的情形,以便移除敏感文档中存在的与法律披露过程不相关的受保护实体的实例。例如,客户端计算设备210的用户可能希望获得对由电子文档提供者计算系统(诸如服务器204D)提供的电子文档的访问。响应于从客户端计算设备210接收到请求,服务器204D可以使用认知系统200的服务,具体地,认知系统200的IPIIM引擎220,以在向客户端计算设备210提供对电子文档的访问或释放电子文档之前混淆/最小化电子文档内容。IPIIM引擎220可以接收电子文档(例如,图1中的130)和一个或多个受保护实体(例如,图1中的150)的列表,并且可以对电子文档执行自然语言处理,以识别受保护实体(例如,以上示例中的Thomas Underhill)的提及的实例,然后对其进行混淆/最小化并用占位符(例如,以上示例中的FOCUS1)替换。

IPIIM引擎220然后可以基于混淆/最小化的内容生成一个或多个查询,这些查询然后被提交给多焦点仿真陈述QA系统,例如QA流水线208,用于生成受保护实体的混淆/最小化的提及的身份的预测。IPIIM引擎220评估预测以确定电子文档内容是否已经被充分混淆/最小化以保护受保护实体的身份。如果是,混淆/最小化电子文档的当前版本可以被提供给请求者计算设备,例如客户端设备210。如果当前版本没有足够被混淆/最小化,则如先前所讨论的执行混淆/最小化的后续迭代,直到达到足够的混淆/最小化水平,或者没有电子文档内容的其他元素可用于混淆/最小化,此时通知可以被发送给电子文档的提供者。

如上所述,说明性实施例的机制植根于计算机技术领域,并且使用这种计算或数据处理系统中存在的逻辑来实现。这些计算或数据处理系统通过硬件、软件或硬件和软件的组合被特定地配置,以实现上述各种操作。因此,图3被提供作为其中可以实现本发明的方面的一种类型的数据处理系统的示例。许多其他类型的数据处理系统同样可以被配置为特定地实现说明性实施例的机制。

图3是其中实现说明性实施例的方面的示例数据处理系统的框图。数据处理系统300是实现本发明的说明性实施例的过程的计算机可用代码或指令位于其中的计算机(诸如图2中的服务器204或客户端210)的示例。在一个说明性实施例中,图3表示服务器计算设备,诸如服务器204,其实现认知系统200和QA系统流水线208,其被扩展以包括说明性实施例的附加机制,例如IPIIM引擎140或220,如本文所述。

在所描绘的示例中,数据处理系统300采用包括北桥和存储器控制器集线器(north bridge and memory controller hub,NB/MCH)302以及南桥和输入/输出(I/O)控制器集线器(south bridge and input/output controller hub(SB/ICH)304的集线器体系结构。处理单元306、主存储器308和图形处理器310连接到NB/MCH 302。图形处理器310通过加速图形端口(accelerated graphics port,AGP)连接到NB/MCH 302。

在所描绘的示例中,局域网(local area network,LAN)适配器312连接到SB/ICH304。音频适配器316、键盘和鼠标适配器320、调制解调器322、只读存储器(hard diskdrive,ROM)324、硬盘驱动器(hard disk drive,HDD)326、CD-ROM驱动器330、通用串行总线(universal serial bus,USB)端口和其他通信端口332以及PCI/PCIe设备334通过总线338和总线340连接到SB/ICH 304。PCI/PCIe设备可以包括例如以太网适配器、附加卡和笔记本计算机的PC卡。PCI使用卡总线控制器,而PCIe不使用。ROM 324可以是例如闪存基本输入/输出系统(basic input/output system,BIOS)。

HDD 326和CD-ROM驱动器330通过总线340连接到SB/ICH 304。HDD326和CD-ROM驱动器330可以使用例如集成驱动电子设备(integrated drive electronics,IDE)或串行高级技术附件(serial advanced technology attachment,SATA)接口。超级I/O(Super I/O,SIO)设备336连接到SB/ICH 304。

操作系统在处理单元306上运行。操作系统协调并提供对图3中的数据处理系统300内的各种组件的控制。作为客户端,操作系统是商业上可用的操作系统,诸如

作为服务器,数据处理系统300可以是例如运行高级交互执行(AdvancedInteractive Executive,

用于操作系统、面向对象的编程系统以及应用或程序的指令位于诸如HDD 326的存储设备上,并且被加载到主存储器308中以由处理单元306执行。本发明的说明性实施例的过程由处理单元306使用计算机可用程序代码来执行,该计算机可用程序代码位于存储器中,例如,诸如主存储器308、ROM 324或一个或多个外围设备326和330中。

总线系统,诸如图3所示的总线338或总线340,包括一条或多条总线。当然,总线系统可以使用任何类型的通信结构或体系结构来实现,该通信结构或体系结构提供附接到该结构或体系结构的不同组件或设备之间的数据传输。诸如图3的调制解调器322或网络适配器312的通信单元包括一个或多个用于发送和接收数据的设备。存储器可以是例如主存储器308、ROM 324或诸如图3中的NB/MCH 302中的高速缓存器。

本领域普通技术人员将理解,图2和图3中描绘的硬件可以根据实现而变化。除了图2和图3所示的硬件之外或代替图2和图3所示的硬件,可以使用其他内部硬件或外围设备,诸如闪存、等效的非易失性存储器或光盘驱动器等。此外,在不脱离本发明的精神和范围的情况下,说明性实施例的过程可以应用于除了前面提到的SMP系统之外的多处理器数据处理系统。

此外,数据处理系统300可以采取多种不同数据处理系统的任何形式,包括客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或其他通信设备、个人数字助理(personal digital assistant,PDA)等。在一些说明性示例中,数据处理系统300可以是配置有闪存的便携式计算设备,以提供用于存储例如操作系统文件和/或用户生成的数据的非易失性存储器。本质上,数据处理系统300可以是任何已知的或以后开发的数据处理系统,而没有体系结构限制。

图4示出了根据一个说明性实施例的认知系统处理流水线的示例,在所描绘的示例中,认知系统处理流水线是用于处理输入问题的问题回答(QA)系统流水线。如上所述,可以利用说明性实施例的认知系统不限于QA系统,因此不限于QA系统流水线的使用。图4仅作为处理结构的一个示例提供,该处理结构可以被实现来处理请求认知系统的操作的自然语言输入,以呈现对自然语言输入的响应或结果。

例如,图4的QA系统流水线可以被实现为图2中认知系统200的QA流水线208。应当理解,图4中所示的QA流水线的阶段被实现为一个或多个软件引擎、组件等,其被配置有用于实现归属于特定阶段的功能的逻辑。每个阶段使用一个或多个这样的软件引擎、组件等来实现。软件引擎、组件等在一个或多个数据处理系统或设备的一个或多个处理器上执行,并且利用或操作存储在一个或多个数据处理系统上的一个或多个数据存储设备、存储器等中的数据。例如,根据本发明的一个说明性实施例,图4的QA流水线可以从IPIIM引擎140或220的查询生成器接收问题或请求。图4的QA流水线可以对这样的查询进行操作,以基于在从其生成输入问题或请求的电子文档内容中的受保护实体的混淆/最小化的提及,来生成表示对受保护实体的身份的预测的候选回答和置信度得分。

如图4所示,QA流水线400包括多个阶段410-480,认知系统通过这些阶段来分析输入问题并生成最终响应。在初始问题输入阶段410,QA流水线400接收以自然语言格式呈现的输入问题。这是可以经由输入接口接收要获得其回答的输入问题,例如“谁是Washington最亲密的顾问?”的问题。响应于接收到输入问题,QA流水线400的下一阶段,即问题和主题分析阶段420,使用自然语言处理(NLP)技术来解析输入问题,以从输入问题中提取主要特征,并根据类型,例如姓名、日期或过多的其他定义的主题中的任何一个,对主要特征进行分类。例如,在以上的示例问题中,术语“谁”可以与“人”的主题相关联,指示正在寻找的人的身份,“Washington”可以被识别为与该问题相关联的人的专有姓名,“最亲密的”可以被识别为指示亲密度或关系的词,“顾问”可以指示名词或其他语言主题。对主要特征的类似解析和提取可以针对混淆/最小化的问题来执行,诸如以上的示例情形中提到的示例问题,即“谁在2007年5月27日在他位于图森的新顶层公寓会见了Rufus Xavier Sarsasparilla先生?”

提取的主要特征包括被分类为问题特征的关键字和短语,诸如问题的焦点、问题的词汇回答类型(lexical answer type,LAT)等。问题的焦点也可以由占位符具体识别,诸如由说明性实施例的混淆/最小化生成的“FOCUS1”。焦点是问题的名词,理想情况下也应该存在于回答句子中。因此,例如,如果在语料库中找到的回答句子包括“Thomas Underhill今天在他位于图森的公寓会见了他的律师”的陈述,那么Thomas Underhill可能被认为可能是FOCUS1,因为该姓名将出现在输入问题和回答句子中,从而提供“Thomas Underhill”的候选回答。

词汇回答类型(LAT)是输入问题中的单词或从输入问题中推断出的单词,其指示回答的类型,与给该单词分配语义无关。例如,“在16世纪发明了什么样的策略来加速游戏并涉及两个相同颜色的棋子?”的问题中,LAT是字符串的“策略”。问题的焦点是问题的一部分,如果被回答替换,问题就变成了独立的陈述。例如,在“什么药物被证明可以减轻ADD的症状,且副作用相对较少?”的问题中,焦点是“药物”,因为如果用回答替换这个单词,例如,回答“Adderall”可以用来替换术语“药物”,从而生成句子“Adderall已被证明可以减轻ADD的症状,且副作用相对较少。”焦点经常但不总是包含LAT。另一方面,在许多情况下,从焦点推断出有意义的LAT是不可能的。

再次参考图4,所识别的主要特征然后在问题分解阶段430期间被用来将问题分解成一个或多个查询,这些查询被应用于数据/信息的语料库445,以便生成一个或多个假设。查询以任何已知的或以后开发的查询语言生成,诸如结构化查询语言(Structure QueryLanguage,SQL)等。查询被应用于一个或多个数据库,这些数据库存储关于电子文本、文档、文章、网站等的信息,这些信息构成数据/信息的语料库445。也就是说,这些各种源本身、不同的源集合等等表示语料库445中的不同语料库447。取决于特定的实现,基于各种标准,可以为不同的文档集合定义不同的语料库447。例如,可以为不同的主题、主题类别、信息源等建立不同的语料库。作为一个示例,第一语料库可以与医疗保健文档相关联,而第二语料库可以与金融文档相关联。或者,一个语料库可以是美国能源部(the U.S.Department ofEnergy)发布的文档,而另一个语料库可以是IBM红皮书文档。具有一些相似属性的任何内容集合可以被认为是语料库445中的语料库447。

查询被应用于存储关于电子文本、文档、文章、网站等的信息的一个或多个数据库,这些数据库构成数据/信息的语料库,例如图2中的数据的语料库206。在假设生成阶段440,查询被应用于数据/信息的语料库,以生成识别用于回答输入问题的潜在假设的结果,然后可以对其进行评估。也就是说,查询的应用导致匹配特定查询的标准的数据/信息的语料库的部分的提取。然后,在假设生成阶段440期间,分析并使用语料库的这些部分来生成用于回答输入问题的假设。这些假设在本文也被称为输入问题的“候选回答”。对于任何输入问题,在这个阶段440,可能生成数百个需要评估的假设或候选回答。

然后,在阶段450,QA流水线400对输入问题的语言和每个假设或“候选回答”的语言进行深度分析和比较,并进行证据评分以评估特定假设是输入问题的正确回答的可能性。如上所述,这涉及使用多个推理算法,每个算法对输入问题的语言和/或语料库的内容执行单独类型的分析,提供支持或不支持假设的证据。每个推理算法基于其执行的分析生成得分,该得分指示通过应用查询提取的数据/信息的语料库的各个部分的相关性的度量以及相应假设的正确性的度量,即,假设中的置信度的度量或置信度得分。根据所执行的特定分析,这些推理算法有多种方式来生成它们的得分。然而,一般来说,这些算法查找指示感兴趣的术语、短语或模式的特定术语、短语或文本模式,并确定匹配度,其中与较低的匹配度相比,较高的匹配度被给予相对较高的得分。

因此,例如,算法可以被配置为从输入问题中查找精确术语或在输入问题中寻找该术语的同义词(例如术语“电影(movie)”的精确术语或同义词),并且基于这些精确术语或同义词的使用频率来生成得分。在这种情况下,精确匹配将被给予最高的得分,而同义词可以基于同义词的相对排名被给予较低的得分,同义词的相对排名可以由主题专家(具有了解特定领域和所使用的术语的人)指定,或者根据对应于该领域的语料库中同义词的使用频率自动确定。因此,例如,术语“电影”在语料库内容中的精确匹配(也称为证据或证据段落)被给予最高得分。电影的同义词(诸如“影像(motion picture)”)可能被给予较低得分,但仍高于“影片(film)”或“影像放映(moving picture show)”类型的同义词。每个证据段落的精确匹配和同义词的实例可以被编译并在定量函数中使用,以生成证据段落与输入问题的匹配程度的得分。

因此,例如,对输入问题“第一部电影是什么?”的假设或候选回答是“运动中的马”。如果证据段落包含陈述“第一部电影是Eadweard Muybridge在1878年制作的‘运动中的马’。这是一部关于一匹马奔跑的电影”,并且算法正在查找输入问题的焦点,即“电影”的精确匹配或同义词,然后在证据段落的第二句中找到“电影”的精确匹配,并且在证据段落的第一句中找到“电影”的高度评分的同义词,即“影像”。这可以与证据段落的进一步分析相结合,以识别候选回答的文本也存在于证据段落中,即“运动中的马”。可以将这些因素结合起来,给这个证据段落一个相对较高的得分,作为候选回答“运动中的马”是正确回答的支持证据。

应该理解,这只是如何进行评分的一个简单示例。在不脱离本发明的精神和范围的情况下,可以使用各种复杂性的许多其他算法来生成候选回答和证据的得分。

在合成阶段460中,由各种推理算法生成的大量得分被合成为各种假设的置信度得分或置信度度量。该过程涉及将权重应用于各种得分,其中权重已经通过由QA流水线400采用的统计模型的训练来确定和/或动态更新。例如,由识别确切匹配的术语和同义词的算法生成的得分的权重可以被设置为相对高于评估证据段落的出版日期的其他算法。权重本身可以由主题专家指定,或者通过评估特征证据段落的重要性以及其对整个候选回答生成的相对重要性的机器学习过程来学习。

根据通过训练QA流水线400生成的统计模型来处理加权得分,该统计模型识别这些得分可以被组合以生成单独假设或候选回答的置信度得分或度量的方式。该置信度得分或度量总结QA流水线400具有关于由输入问题推断出候选回答的证据(即候选回答是输入问题的正确回答)的置信度水平。

最终置信度得分或度量由最终置信度合并和排名阶段470处理,该阶段将置信度得分和度量相互比较,将其与预定阈值进行比较,或者对置信度得分执行任何其他分析,以确定哪些假设/候选回答最有可能是输入问题的正确回答。根据这些比较对假设/候选回答进行排名,以生成假设/候选回答(以下简称为“候选回答”)的排名列表。在阶段480,从候选回答的排名列表,可以生成最终回答和置信度得分,或者候选回答和置信度得分的最终集,并经由图形用户界面或用于输出信息的其他机制输出给原始输入问题的提交者。

特别地,关于说明性实施例,阶段480可以输出候选回答的排名列表,该列表表示对受保护实体的混淆/最小化的提及的身份的预测。候选回答的排名列表包括回答文本本身以及相应置信度得分。候选回答的排名列表可以输出到PII最小化评估引擎148,以确定候选回答的排名列表是否包括具有足够高的置信度得分(即等于或高于阈值置信度得分)的受保护实体的正确身份。这指示混淆/最小化不足以在给定语料库中其他参考文档中存在的信息的情况下保护受保护实体的身份。如果候选回答的排名列表不包括具有足够置信度水平的受保护实体的正确身份,则混淆/最小化足以保护受保护实体的身份,并且电子文档的原始内容的当前混淆/最小化版本能够被请求者计算设备访问/释放给请求者计算设备,而不损害受保护实体的隐私。

图5是概述根据一个说明性实施例的迭代个人可识别信息最小化(IPIIM)引擎的示例操作的流程概述。如图5所示,操作从IPIIM引擎接收到最小化指定电子文档内容中的PII的请求开始(步骤510)。IPIIM引擎还接收一个或多个受保护实体列表,这些实体的身份将通过电子文档内容中PII的混淆/最小化来保护(步骤520)。经由自然语言处理来处理指定电子文档内容,以提取主要特征(步骤530),然后由IPIIM引擎对其进行分析,以识别受保护实体的提及的一个或多个实例(步骤540)。受保护实体的提及的实例通过编辑和用掩盖受保护实体的身份的占位符替换而被混淆或最小化(步骤550)。

混淆/最小化的内容然后被用于生成一个或多个输入问题或请求,这些输入问题或请求被输入到多焦点仿真陈述问题回答(QA)系统(步骤560)。QA系统基于一个或多个参考文档语料库对输入问题进行操作,以生成一个或多个候选回答和相应置信度得分的列表,该置信度得分指示与电子文档内容中的混淆/最小化的提及相对应的受保护实体的身份的预测(步骤570)。评估(多个)候选回答和相应置信度得分的列表,以确定与电子文档内容中的混淆/最小化的提及相对应的受保护实体的正确身份是否存在于具有足够的置信度得分(即等于或高于阈值置信度得分)的候选回答的列表中(步骤580)。

响应于受保护实体的正确身份没有以足够的置信度水平存在于候选回答的列表中,内容的混淆/最小化版本被返回作为可以被请求者计算设备访问或释放给请求者计算设备的内容版本(步骤590)。响应于受保护实体的正确身份以足够的置信度水平存在于候选回答的列表中,确定内容的附加元素是否可以被混淆/最小化(步骤600)。如果是,则混淆/最小化内容的一个或多个附加元素,例如名词或名词短语(步骤610),并且操作返回到步骤560以执行后续迭代。如果没有可以混淆/最小化的内容的附加元素,则操作向电子文档提供者发送通知(步骤620),电子文档提供者然后可以确定如何最小化电子文档内容中的PII和/或从返回给请求者的文档中移除整个文档(步骤630)。然后操作终止。

如上所述,原始电子文档的充分混淆/最小化的内容版本可以被释放给请求者计算设备,或者由请求者计算设备访问。在一些说明性实施例中,原始电子文档的混淆/最小化内容版本可以存储在混淆/最小化电子文档存储装置中,以供请求者计算设备和/或其他请求者计算设备稍后访问。请求者计算设备然后可以对混淆/最小化电子文档执行任何期望的操作,而不暴露受保护实体的身份。在一个说明性实施例中,请求者计算设备可以执行用于开发应用的应用开发操作,或者用于执行用于调试对电子文档进行操作的应用的调试操作。

在一些说明性实施例中,请求者计算设备可以实现其自己的认知计算系统,并且可以对混淆/最小化电子文档执行认知计算操作。例如,请求者计算设备可以实现认知决策支持系统,以基于电子文档的处理来执行用于生成决策支持输出的操作,并且根据说明性实施例,这样的电子文档可以被说明性实施例的机制混淆/最小化。请求者计算设备还可以在应用开发环境中执行应用开发操作,用于基于认知决策支持系统对电子文档的混淆/最小化的内容的处理来开发认知决策支持系统的应用,而不将受保护实体的身份暴露给应用开发环境。

如上所述,应当理解,说明性实施例可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的实施例的形式。在一个示例实施例中,说明性实施例的机制以软件或程序代码实现,其包括但不限于固件、常驻软件、微码等。

适于存储和/或执行程序代码的数据处理系统将包括至少一个通过系统总线直接或间接耦合到存储器元件的处理器。存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储器和提供至少一些程序代码的临时存储以便减少在执行期间必须从大容量存储器取得代码的次数的高速缓冲存储器。

输入/输出或I/O设备(包括但不限于键盘、显示器、定点设备等)可以直接或通过中间I/O控制器耦合到系统。网络适配器也可以耦合到系统,以使数据处理系统能够通过中间的私有或公共网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是目前可用的几种网络适配器。

本发明的描述是为了说明和描述的目的而呈现的,并不旨在穷举或限制本发明所公开的形式。在不脱离所述实施例的范围和精神的情况下,许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述该实施例是为了最好地解释本发明的原理、实际应用,并使本领域的其他普通技术人员能够理解本发明的具有各种修改的各种实施例,这些修改适合于预期的特定用途。选择本文使用的术语是为了最好地解释实施例的原理、实际应用或对市场上找到的技术的技术改进,或者使本领域的其他普通技术人员能够理解本文公开的实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号