首页> 中国专利> 为算法决定提供结果解释

为算法决定提供结果解释

摘要

提供计算机系统和方法,用于对机器学习系统进行训练,以确定认证决定和与该认证决定对应的解释信息。接收用于第一认证请求的包括第一图像的第一认证信息。接收与第一图像对应并包括第一认证决定和第一解释信息的第一验证信息。机器学习系统的数据存储器保存第一图像和第一验证信息。机器学习系统基于所保存的第一图像和第一验证信息更新认证模型。接收用于第二认证请求的第二认证信息。机器学习系统基于更新了的认证模型确定包括第二解释信息的第二验证信息。向用户设备提供第二解释信息以进行显示。

著录项

  • 公开/公告号CN113168439A

    专利类型发明专利

  • 公开/公告日2021-07-23

    原文格式PDF

  • 申请/专利权人 居米奥公司;

    申请/专利号CN202080006472.1

  • 发明设计人 拉巴斯·帕特尔;

    申请日2020-02-07

  • 分类号G06F21/32(20130101);G06F21/36(20130101);G06T7/00(20170101);G06N3/08(20060101);G06N20/00(20190101);

  • 代理机构11435 北京志霖恒远知识产权代理事务所(普通合伙);

  • 代理人胡少青;许媛媛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 11:55:48

说明书

技术领域

本申请一般地涉及用户认证,更具体地涉及使用机器学习来生成用于分析图像数据的算法的认证。

背景技术

对于很多网络通信和交易,远程用户的识别和验证很重要。对于用户相互不熟悉且彼此远离的敏感通信和重要交易,尤其如此。传统上,个人提交物理身份证件,由代理进行审查,代理将身份证件的面部图像与该个人的物理外观进行比较。然而,常规的识别和验证用户的机制不方便而且效率低下,给用户带来负担。

最近颁布实施的隐私权法规要求向用户提供一种选择,即不受制于完全自动化的工作流程,除非可以向用户提供与自动化工作流程的结果有关的解释。例如,如果由自动化系统决定用户的身份证件对于特定交易是否无效,则该系统需要向用户提供解释,用于解释为什么该用户的身份证件被确定为无效。然而,当涉及到向用户提供可理解的解释时,常规的识别和验证用户的机制通常需要人工干预,这效率低下,且给自动化提供商带来负担。

发明内容

因此,需要有这样的系统和/或设备,其采用更高效、准确和直观的方法,用于对机器学习认证模型进行训练,以不仅分析用于用户认证的图像,还向用户提供对应的认证决定的解释。可选地,这样的系统、设备和方法补充或取代常规的用于分析用户认证的图像的系统、设备和方法。

在一些实施例中,机器学习系统用于生成用于分析图像数据的模型。图像数据包括:例如,身份证件(例如,包含用户图像的身份证件,如护照或其它政府签发的文件)的图像、和/或捕获的用户图像(例如,用户最近的“自拍照”图像)。实施机器学习的计算系统对包括图像数据(例如,大量认证请求中所包括的图像数据)的训练数据集进行分析。机器学习系统用于生成这样的模型:该模型可用于分析新传入的认证请求。在一些实施例中,机器学习系统的监督训练模块使用人工标注的数据来训练认证模型(例如,通过对数据进行迭代分类,将测试数据与人工标记进行比较,并执行优化以将分类错误最小化)。在一些实施例中,机器学习系统的非监督训练模块在不使用用于分类的人工输入的情况下训练认证模型(例如,通过对数据进行编码和聚类以找到潜在的组和离群值)。在一些实施例中,比较对将认证模型应用(例如,通过监督学习和/或非监督学习进行训练)到认证请求数据的集合的结果与对同一认证请求数据的集合进行人工审查的结果,并利用机器学习结果和人工审查结果之间的差异来改变认证模型。在一些实施例中,通过提供图像作为输入,并且通过提供相应的认证决定(例如,欺诈,非欺诈)和原因(例如,被篡改的图像、被拼接的图像、丢失了文本)作为与各图像输入对应的输入标签,对模型进行训练。结果,训练后的模型不仅输出认证决定,而且输出该决定的原因,从而允许用户基本上在接收到该决定的同时接收该解释。

在一个方面,所公开的主题包括一种计算机化方法,用于:接收用于第一认证请求的第一认证信息,其中,所述第一认证信息包括与第一身份证件对应的第一图像;从验证系统接收与所述第一图像对应的第一验证信息,其中,所述第一验证信息包括:(i)与所述第一图像相关联的第一认证决定、和(ii)与所述第一认证决定对应的第一解释信息;由机器学习系统的数据存储器保存所述第一图像和与所述第一图像对应的所述第一验证信息;基于所保存的所述第一图像和所保存的与所述第一图像对应的所述第一验证信息,更新所述机器学习系统的认证模型;接收用于第二认证请求的第二认证信息,其中,所述第二认证信息包括与第二身份证件对应的第二图像;使用所述机器学习系统的更新了的所述认证模型确定与所述第二图像对应的第二验证信息,其中,所述第二验证信息包括:(i)与所述第二图像相关联的第二认证决定、和(ii)与所述第二认证决定对应的第二解释信息;以及向用户设备提供与所述第二认证决定对应的所述第二解释信息以进行显示。重要的是要注意,虽然针对一个第一图像和一个第二图像描述了上述方法,但是该方法可以用(i)两个或多个第一图像(例如,机器学习系统基于多个图像及其关联的验证决定和解释来更新认证模型),和/或(ii)两个或多个第二图像(例如,机器学习系统使用更新了的认证模型为在一个或多个第一图像之后和/或在认证模型更新之后接收到的多个图像确定认证决定和解释)来实现。

在一些实施例中,计算机可读存储介质保存一个或多个程序。所述一个或多个程序包括这样的指令:这些指令在被执行时使得设备实现上述的一个或多个操作。在一些实施例中,一种系统包括一个或多个处理器、存储器以及一个或多个程序。所述一个或多个程序被保存在存储器中,并被配置为由一个或多个处理器执行。所述一个或多个程序包括用于实现上述的一个或多个操作的指令。

附图说明

为了更详细地理解本申请,在附图中示出了各实施例的特征。然而,附图仅示出了本申请的相关特征,因此不是限制性的。

图1是根据一些实施例的认证系统及其上下游的系统图。

图2是根据一些实施例的验证设备的系统图。

图3A示出了根据一些实施例的参考图像。

图3B示出了根据一些实施例的认证图像。

图4示出了根据一些实施例的包含缺陷的参考图像的示例。

图5-9示出了根据一些实施例的对缺陷标注输入进行接收的验证用户界面。

图10A-10C是示出根据一些实施例的图1的验证信息的细节的图。

图11是示出根据一些实施例的用于对认证模型进行训练的方法的流程图。

图12A-12B是示出根据一些实施例的图1的验证信息的细节的图。

图13是示出根据一些实施例的用于从认证模型删除权重的方法的流程图。

根据惯例,有一些附图中可能没有绘出给定系统、方法或设备的所有组成部分。最后,在整个说明书和附图中,相同的附图标记表示相同的特征。

具体实施方式

本文描述了许多细节以提供对附图所示的示例性实施例的透彻理解。然而,在没有这些具体细节的情况下一些实施例也可以实现,权利要求书的范围仅受权利要求书中具体记载的那些特征和方面的限制。此外,一些过程、部件和材料没有详尽地描述,以免不必要地模糊本文中描述的实施例的相关方面。

本文描述的系统和方法涉及用于确定与认证请求对应的一个或多个图像的有效性的机器学习算法。这些系统和方法改进了用于根据认证请求确定图像的图像有效性的现有技术。在一些实施例中,从请求设备接收认证请求(例如,结合支付或其它安全交易)。在一些实施例中,认证请求包括诸如护照的身份证件(例如,与正在为其执行安全交易的用户相关联的身份证件)的图像。在一些实施例中,认证请求包括用户的图像(例如,最近的“自拍照”图像)。响应于认证请求,认证系统确定身份证件的图像的有效性,和/或,将用户的图像与身份证件的图像进行比较以确定是否满足匹配标准。认证系统使用与先前分析的认证请求有关的信息来生成用于评估新传入的认证请求的模型。在一些实施例中,经由监督机器学习来生成模型(例如,使用由人工审查者标记的验证缺陷来生成和/或完善模型)。在一些实施例中,经由非监督机器学习来生成模型(例如,基于未标记的数据集来生成模型)。该模型用于确定是否满足将来自认证请求的图像发送到验证系统的标准。

在一些实施例中,本文描述的认证系统减少了人工审查身份证件所需的时间(例如,通过使用由机器学习系统生成的模型来分析图像,并向人工审查者提供与由分析产生的信息有关的信息),和/或,减少用于验证身份证件的人工审查的程度(例如,通过使用模型来确定是否绕过人工审查)。使用本文所述的减少人工审查的程度和/或减少人工审查所需的时间的机器学习,通过使认证请求的处理更快、更有效,改善了认证设备,减少了所需的人工交互,这转而减少了认证服务器和/或验证设备所使用的处理和电力。

另外,需要分析身份证件以确定身份证件是否真实,同时保持数据集符合适用的安全标准。例如,认证数据的安全性按照支付卡行业数据安全性标准(PCI DSS)进行维护。现有的机器学习系统可能依赖于分配给公共数据集的标签,而PCI DSS合规性要求限制对验证数据集的访问。但是,随着可用数据集的数量增加,机器学习系统生成的模型的可用性会提高。本文描述的各种实施例有利地使用由有限的一组人工验证审查者所生成的数据执行机器学习。使用由机器学习系统生成的模型执行图像分析,可以减少人工审查认证请求所需的时间,从而提高了认证请求处理的速度,同时保持了被处理数据的安全性。

图1是根据一些实施例的认证服务器100(在本文中也称为“机器学习系统”)的系统图。认证服务器100通常包括:存储器102、一个或多个处理器104、电源106、输入/输出(I/O)子系统108、以及用于互连这些部件的通信总线110。

处理器104执行保存在存储器102中的模块、程序和/或指令,从而执行处理操作。

在一些实施例中,存储器102保存一个或多个程序(例如,指令集)和/或数据结构,在本文中它们统称为“模块”。在一些实施例中,存储器102或存储器102的非暂时性计算机可读存储介质保存以下程序、模块和数据结构、或其子集或超集:

·操作系统120;

·认证请求数据模块122,其保存用于多个认证请求124(例如,第一认证请求124a、第二认证请求124b、...第N个认证请求124N)的信息,每个认证请求包括信息如身份信息126(例如,唯一性标识、用户名、用户密码、用户住宅信息、用户电话号码、用户出生日期、和/或用户电子邮件)、参考图像300a、和/或认证图像350a;以及

·机器学习模块126,其使用监督训练模块130、非监督训练模块132和/或对抗训练模块134来生成认证模型136(例如,通过分析与多个认证请求124对应的验证信息128)。

前面指出的模块(例如,数据结构和/或包括指令集的程序)不必以单独的软件程序、子程序或模块的方式实现,所以在各种实施例中这些模块的各种子集可以被组合或以其它方式重新布置。在一些实施例中,存储器102保存上述模块的子集。在一些实施例中,远程认证数据库152和/或本地认证数据库142保存前面指出的一个或多个模块的一部分或全部(如认证请求数据122、验证信息128和/或认证模型136)。此外,存储器102可以保存前面未描述的其它模块。在一些实施例中,保存在存储器102或存储器102的非暂时性计算机可读存储介质中的模块提供用于实现以下描述的方法中的相应操作的指令。在一些实施例中,这些模块中的一些或全部可以用专用硬件电路实现,这些专用硬件电路包含模块功能的一部分或全部。前面指出的元件中的一个或多个可以由一个或多个处理器104执行。在一些实施例中,针对存储器102描述的一个或多个模块在验证设备201(图2)的存储器202中实现,并由验证设备201的处理器204执行。在一些实施例中,针对存储器102描述的一个或多个模块在用户设备156(图12)的存储器1202中实现,并由用户设备156的处理器1204执行。例如,机器学习模块126分布在认证服务器100、验证设备201、验证服务器200和/或用户设备156上。

在一些实施例中,对于每个接收到的认证请求124,机器学习模块126保存用于训练认证模型的数据,如:

·通道,通过其接收认证请求124(例如,手机、网站和/或应用程序编程接口(API))

·网络协议(IP)地址,从其接收认证请求124

·摄像头信息(例如,摄像头型号、摄像头作为其部件的设备、和/或摄像头相对于设备的定向);

·交易发起地点(例如国家、州、省和/或城市);

·参考图像300中捕获的身份证件的类型(例如,护照、驾照、和/或公司身份徽章);

·身份证件来源地位置(例如,国家、州、省和/或城市);和/或

·验证信息128(例如,包括验证结果如:已验证、检测到欺诈、和/或被拒绝;在某些实施例中,还包括解释该验证结果的一个或多个原因的原因信息,如图10B中的一个或多个原因)。

在一些实施例中,生成认证模型136包括生成用于预测连续变量的回归算法(例如,参考图像300的透视变换、和/或描述护照页弯曲的更复杂的变换)。

在一些实施例中,I/O子系统108,经由通信网络150和/或经由有线和/或无线连接,将计算系统100通信连接到一个或多个设备,如本地认证数据库142、远程认证数据库152、请求设备154、用户设备156、验证服务器200(例如,包括一个或多个服务器部件(例如,一个或多个处理器和存储器)和/或针对认证服务器100描述的模块)、和/或验证设备201。在一些实施例中,通信网络150是因特网。

可选地,通信总线110包括互连并控制系统部件之间的通信的电路(有时称为芯片组)。

通常,用于处理认证请求的认证系统包括服务器计算机系统100,服务器计算机系统100通信连接(例如,经由网络150和/或I/O子系统108)到多个验证设备201。在一些实施例中,认证系统接收认证请求(例如,从捕获用户的图像的用户设备156接收,或从接收来自用户设备156的图像的请求设备154接收)。例如,认证请求是请求对用户124的身份(例如,用户是进行交易的一方,或用户正在请求访问一个系统或物理地点)进行认证。请求设备154是例如商家、银行、交易处理器、计算系统或平台、物理访问系统或另一用户等的设备。

在一些实施例中,认证请求包括参考图像300(例如,如图3A所示的300a、图4所示的300b)。例如,参考图像300是用户124的身份证件的图像。在一些实施例中,认证请求包括认证图像350(例如,如图3B所示的350a)。例如,认证图像350是由用户设备156捕获的用户124的图像、一系列图像和/或视频,如用户124的近期自拍照。在一些实施例中,认证请求包括认证图像350,且认证系统定位与提供认证图像350的用户124对应的参考图像300。

在一些实施例中,认证服务器100使验证设备201显示参考图像300的全部或一部分、和/或用于人工查看的认证图像350的全部或一部分。在一些实施例中,验证设备201接收与确定认证是否成功对应的输入(例如,基于参考图像300是否足够类似于认证图像350)。在一些实施例中,验证设备201发送验证信息128,验证信息128对应于关于认证是否成功的确定(例如,关于参考图像300与认证图像350匹配的指示,关于参考图像300与认证图像350不匹配的指示,和/或关于在参考图像300和/或认证图像350中检测到缺陷的指示)。

图2是根据一些实施例的验证设备201的系统图,该验证设备201显示验证信息并且/或者接收验证输入。验证设备201通常包括:存储器202、一个或多个处理器204、电源206、输入/输出(I/O)子系统208、以及用于互连这些部件的通信总线210。在一些实施例中,验证设备201连接到验证服务器200,例如,验证服务器200从认证服务器100接收数据,将数据传输到认证服务器100和/或管理验证设备201(例如,通过将数据发送到验证设备201和/或从验证设备201接收数据)。在一些实施例中,验证装置201由认证服务器100管理(例如,包括将数据发送到认证服务器100和/或从认证服务器100接收数据)。

处理器204执行保存在存储器102中的模块、程序和/或指令,从而执行处理操作。

在一些实施例中,存储器202保存一个或多个程序(例如,指令集)和/或数据结构,在本文中将它们统称为“模块”。在一些实施例中,存储器202或存储器202的非暂时性计算机可读存储介质保存以下程序、模块和数据结构,或其子集或超集:

·操作系统220;以及

·验证用户界面222,其显示信息(例如,标识信息126b、参考图像300b、和/或认证图像350b),并且/或者包括用于接收验证输入的一个或多个输入控件。

前面指出的模块(例如,数据结构和/或包括指令集的程序)不必以单独的软件程序、子程序或模块的方式实现,所以在各种实施例中这些模块的各种子集可以被组合或以其它方式重新布置。此外,存储器202可以保存前面未描述的其它模块。在一些实施例中,保存在存储器202或存储器202的非暂时性计算机可读存储介质中的模块提供用于实现以下描述的方法中的相应操作的指令。在一些实施例中,这些模块中的一些或全部可以用专用硬件电路实现,这些专用硬件电路包含模块功能的一部分或全部。前面指出的元件中的一个或多个可以由一个或多个处理器204执行。在一些实施例中,针对存储器202描述的一个或多个模块在服务器计算系统100(图1)的存储器102中实现,并由服务器计算系统100的处理器104执行。

在一些实施例中,I/O子系统208,经由通信网络150和/或经由有线和/或无线连接,将验证设备201通信地连接到一个或多个设备(例如,用户输入设备212、输出设备214和/或服务器计算机系统100)。在一些实施例中,用户输入设备212和/或输出设备214与验证设备201集成在一起(例如,作为触摸屏显示器)。在一些实施例中,用户输入设备212和/或输出设备214是通信地连接到验证设备201的外围设备。在一些实施例中,用户输入设备212包括键盘和/或指针设备,如鼠标、触摸板和/或触控笔。在一些实施例中,输出设备214包括例如显示器和/或扬声器。

在一些实施例中,验证用户接口222、用户输入设备212和/或输出设备214被合并到服务器计算机系统100中(例如,而不是以单独的验证设备201的方式实现)。

可选地,通信总线210包括互连并控制系统部件之间的通信的电路(有时称为芯片组)。

在一些实施例中,验证设备201(或认证服务器100)通过由输出设备214显示的验证用户界面222来显示身份信息126、参考图像300和/或认证图像350。在一些实施例中,审查验证用户界面222的审查者经由用户输入设备212向验证设备提供输入。由审查者提供的输入包括,例如,关于参考图像300的有效性的信息(例如,关于参考图像300的一个或多个有效性审查的结果)、关于认证图像350的有效性的信息(例如,针对认证图像350的一个或多个有效性审查的结果)、和/或关于参考图像300和认证图像350的相似性的信息(例如,针对参考图像300和认证图像350的一个或多个相似性审查的结果)。

图3A示出了根据一些实施例的参考图像300a。参考图像300a是例如包括用户的面部图像304的身份证件302的图像。例如,参考图像300a是身份证、驾驶证、护照、金融工具(例如,信用卡或借记卡)、或设施出入卡的图像。

图3B示出了根据一些实施例的包括用户124的面部图像352的认证图像350a。例如,认证图像350a是使用用户设备156捕获的“自拍照”。认证图像350a是例如,从用户设备156接收的或从请求设备154接收的静止图像或从视频中提取的图像。在一些实施例中,认证图像350a包括一系列图像或视频(例如,用于确定认证图像350满足活跃性要求)。

图4示出了在参考文档302被打孔之后(如在参考图像300b中可以看到的刺穿孔404所示)获取的参考文档302的参考图像300b的示例。

图5-9示出了根据一些实施例的对缺陷标注输入进行接收的验证用户界面222。在一些实施例中,验证用户界面222由输出设备214显示给人工审查者(例如,以利于对针对认证请求的认证信息的审查)。

在一些实施例中,验证用户界面222包括参考图像300b和/或认证图像350b(例如,以允许审查者比较图像并确定图像是否匹配)。例如,在图5中,验证用户界面222包括参考图像300b、认证图像350b和匹配控件502(例如,接收表示参考图像300b与认证图像350b是否匹配的审查者输入)。在一些实施例中,验证用户界面222包括进度控件508(例如,用于前进到认证审查数据的后续集合、验证用户界面222的后续界面和/或后续阶段)。例如,在参考图像300b或认证图像350b中不存在图像缺陷的情况下,人工审查者可以使用匹配控件502来表示认证图像350b与参考图像300b是否匹配,然后使用进度控件508前进到后续的认证审查。

在一些实施例中,验证用户界面222包括一个或多个控件,用于表示人工审查者已经检测到缺陷和/或用于识别缺陷。例如,在图5中,验证用户界面222包括图像缺陷检测控件504(例如,可选按钮),当该图像缺陷检测控件504被激活时,其使验证设备201保存和/或发送表示已检测到缺陷的数据。在一些实施例中,通过激活缺陷检测控件504启动缺陷位置指示模式。例如,在图5中,因为参考图像300b包括关于刺穿孔404的指示,所以人工审查者已经使用用户输入设备212在与图像缺陷检测控件504对应的位置处提供了输入(例如,如指针506所示)。

在图6中,响应于在与图像缺陷检测控件504对应的位置处检测到用户输入,显示了验证用户界面222的缺陷位置指示阶段。在一些实施例中,在视觉上改变验证用户界面222(例如,图像缺陷检测控件504)和/或指示器506以表示缺陷位置指示模式是活跃的。在一些实施例中,验证用户界面222显示指令以选择缺陷位置,如602所示。用户输入设备212已被用来选择与打孔标记404对应的区域,如选择框604所示。在一些实施例中,可以在参考图像300b和/或认证图像350b中选择多个缺陷区域。

在图7中,在选择与图像缺陷(例如穿孔404)对应的区域的同时,在与进度控件508对应的位置处(例如,指针506位于与进度控件508对应的位置处时)检测到用户输入设备212的输入。

在图8中,响应于用户输入设备212在与进度控件508对应的位置处检测到输入,显示了验证用户界面222的缺陷类型识别阶段。在一些实施例中,在验证用户界面222的缺陷类型识别阶段中,多个缺陷类型(例如,如下面针对操作1206所进一步讨论的)被显示为可选选项。在一些实施例中,验证用户界面222显示指令以选择缺陷类型,如802所示。在图8中,人工审查者的输入已选择“打孔文档”缺陷类型,如触发器804的“选定”状态所示。在一些实施例中,可以将多个缺陷类型分配给在所选缺陷区域中识别出的缺陷(例如,如选择框604所示)。

在图9中,在选择了与图像缺陷对应的缺陷类型的同时,在与进度控件508对应的位置处(例如,指针506位于与进度控件508对应的位置时)检测到由用户输入设备212进行的输入。在一些实施例中,响应于在与进度控件508对应的位置处检测到输入,将验证信息128从验证设备201发送到认证服务器100(例如,供机器学习模块126使用)。例如,验证信息128包括:图像300b、表示像针对图8所描述的识别出的缺陷类型的信息、和/或表示被选择框604选择的区域的信息。

应当认识到,参考图5-9提供的对验证用户界面222的描述是用于图像缺陷标注的用户界面的方法的一个说明性示例,根据使用人工标注图像缺陷的各种实施例,各种控件、输入和/或操作序列都使用。例如,在一些实施例中,可以通过选择参考图像300b的至少一部分或认证图像350b的至少一部分(例如,不显示,和/或激活用于表示检测到图像缺陷的控件504)提供关于已经检测到图像缺陷的指示。

在一些实施例中,机器学习模块126包括监督训练模块130,其使用由人工审查者生成的图像缺陷数据(例如,针对图5-9所描述的)来训练认证模型136以识别图像缺陷。例如,机器学习模块126使用人工标注的图像缺陷数据来生成认证模型136的规则,以确定认证请求124中所包括的图像中缺陷的存在和/或位置。在一些实施例中,机器学习模块126应用所生成的认证模型136来执行图像分析(例如,使用计算机视觉技术),以识别所收到的认证请求124的图像(例如,参考图像300和/或认证图像350)中的图像缺陷。

在一些实施例中,在由机器学习模块126确定为图像中存在缺陷时,将包含缺陷的图像显示给人工审查者以供进一步审查(例如,带有关于识别缺陷位置的提示)。在一些实施例中,在由机器学习模块126确定为图像中不存在缺陷时,将包含缺陷的图像显示给人工审查者以供进一步审查(例如,带有关于识别缺陷位置的提示)。在一些实施例中,在由机器学习模块126确定为图像中不存在缺陷时,将包含缺陷的图像显示给人工审查者以供进一步审查(例如,带有关于没有检测到缺陷的提示)。在一些实施例中,人工输入被反馈到监督机器学习系统中。

在一些实施例中,机器学习模块126分析新传入的认证请求124的集合(例如,在预定时间窗口期间接收到的认证请求)。在一些实施例中,例如,作为使用人工标注的验证信息来训练认证模型136的监督训练模块130(例如,如针对图5-9所描述的)的补充或替代,机器学习模块126包括非监督训练模块132,其使用新传入的认证请求的集合来训练认证模型136,而不使用人工标注的验证信息。

在一些实施例中,机器学习模块126生成多个认证模型136。例如,基于一个或多个参数(例如,如针对实体(例如,银行、商人和/或用户类别)、设备类型、识别类型、和/或交易类型所定义的参数)来定制相应的认证模型136。。

在一些实施例中,机器学习模块126确定与无效认证请求活动对应的新传入的认证请求集合124的子集(例如,报告为欺诈的认证请求或被确定为包含缺陷的认证请求)。在一些实施例中,非监督训练模块132确定为,在新传入的认证请求的集合124的子集中,无效认证请求的数目超过无效提交的阈值数目,和/或,欺诈活动的比率超过阈值水平。

在一些实施例中,验证缺陷(例如,后面参照图14,针对操作1430描述的第二验证缺陷)是新传入的认证请求的集合的子集的无效特征(例如,关于互联网协议(IP)地址、地理区域、设备类型(例如,不再销售的型号)、摄像头类型、文档类型、交易类型、接收请求的时间、和/或验证结果的指示)。在一些实施例中,对第一验证缺陷、第二验证缺陷和/或任何其它验证缺陷赋予权重。在一些实施例中,权重随着时间(例如,响应于区域活动、确定为有问题的交易类型等)而调整。

图10A-10C是根据一些实施例的验证信息128的图。为了遵守赋予用户以下权利的隐私权法规,即,在无权访问决定背后的理由的解释的情况下,无需接受某些仅基于自动处理的决定的权利,机器学习模块126的一些实施例对认证模型136进行训练,以不仅输出认证决定,而且还输出与该决定对应的解释,从而用户可以更有效地获知验证拒绝背后的理由。

图10A是根据一些实施例的验证信息128的详细示图,该验证信息128包括与N个认证请求对应的认证请求数据1002。对于每个认证请求124,认证请求数据1002作为验证信息128保存在机器学习模块126中。认证请求数据包括图像数据1004、决定数据1006和原因数据1008。在一些实施例中,N小于100。在一些实施方案中,N为100至1,000,000。

在一些实施例中,N大于1,000,000。在一些实施例中,如果验证信息128包括大量的认证请求数据1002,则在已经将较旧的数据1002用于对模型136进行训练之后并经过预定的一段时间之后,删除较旧的数据1002。

在一些实施例中,由操作员手动删除数据1002的子集。在一些实施例中,根据用户的请求删除数据1002的子集(如下文更详细地描述的)。

在一些实施例中,图像数据1004包括参考图像300、认证图像350或这两者。作为替代方案,图像数据1004包括参考图像300或认证图像350的一个或多个分量。

在一些实施例中,决定数据1006(在本文中也称为“认证决定”)包括认证结果(例如,有效,无效,已验证,检测到欺诈,未检测到欺诈,拒绝,参考图像和认证图像匹配,参考图像和认证图像不匹配,在图像中检测到缺陷,等等)。认证结果是机器学习模块126将认证模型136应用于图像数据1004的结果。作为替代方案,认证结果是人工审查的结果,如前面参照图5-9所述的。在一些实施例中,机器学习模块126使用源自人工审查者的认证结果,使用监督训练130、非监督训练132和/或对抗训练134来完善认证模块136。

在一些实施例中,原因数据1008(在本文中也称为“解释信息”)包括有关认证决定1006背后的一个或多个理由的解释(例如,如前面参照图6-9所述的指示识别出的缺陷类型和/或位置的信息,指示欺诈指示的信息,指示可读性缺陷的信息,等等)。在一些实施例中,原因数据1008包括关于如前面参照图5-9所述的验证缺陷、欺诈指示和/或可读性缺陷中的一个或多个的解释。

图10B是根据一些实施例的原因表1008。在一些实施例中,使用这些原因中的一个或多个并结合相应的图像数据1004和/或决定数据1006训练认证模型。在一些实施例中,每个原因被分配一个代码,将原因代码表1008保存在存储器102中。提供表1008中的原因仅用于说明验证或认证结果解释这一概念,而且仅仅是举例。解释为什么特定标识文件通过或未通过认证过程的任何理由都在当前描述的实施例的范围内。优选地,原因1008容易被用户理解(例如,“ID的条形码似乎是欺诈性的”),而不是含糊不清的(例如,“错误代码1004”)。

图10C示出了针对三个示例认证请求的验证信息。对于第一请求1002a,用户向认证服务器100发送参考图像300,作为认证请求124a的一部分。参考图像300被保存为图像数据1004a,人工审查者使用前面参照图5-9描述的一种或多种技术将图像300归类为欺诈性的(因为图像看上去像是被篡改了),或者,机器学习模块126将认证模型136应用于图像300,该模型输出以下决定:图像300是欺诈性的(因为图像看上去像是被篡改了)。这样,决定数据1006a保存认证结果“无效”,原因数据1008a保存与认证结果“02”或“被篡改的图像”对应的原因。

对于两个后续请求,另两个用户分别将参考图像300发送到认证服务器100,作为认证请求124b和124c的一部分。用户的各个图像被保存为图像数据1004b和1004c,各个决定1006b和1006c以及各个原因1008b和1008c被保存在存储器102中作为验证信息128。

在一些实施例中,如果通过人工审查确定与任何认证请求数据1002对应的决定1006和/或原因1008,则在后续的认证模型136的训练(完善)期间,将与决定1006和/或原因1008对应的图像1004用作机器学习输入,每个图像1004标记有对应的决定数据1006和原因数据1008。具体而言,使用元组的数组对模型136进行训练,该元组的数组例如由(x,y

在一些实施例中,一个输入图像x与R个原因1008相关联,其中R是大于或等于2的整数。例如,由于具有打孔和缺少文本(R=2),输入图像300可以被确定为无效。在一些实施例中,机器学习模块126使用单个元组(x,y

在一些实施例中,当决定数据1006包括针对特定图像1004的肯定的认证决定(例如,有效,已验证,未检测到欺诈或缺陷,图像匹配,等等)时,机器学习模块126对于特定图像1004和决定1006不保存原因数据1008,因此在使用特定图像1004对模型进行训练时不使用原因。例如,机器学习模块126使用元组(x,y

图11是示出根据一些实施例的用于对认证模型136进行训练的方法1100的流程图。该方法在认证服务器100、验证服务器200、用户设备156和/或验证设备201处执行。例如,用于执行该方法的指令被保存在存储器102中,并由认证服务器计算机系统100的处理器104执行。在一些实施例中,用于执行该方法的一部分或全部指令被保存在存储器202,并由验证设备201的处理器204执行。在图11中,虚线用于指示可选操作。

服务器接收用于第一交易的第一认证信息(例如认证请求124a)(1102)。第一认证信息至少包括与第一身份证件302对应的第一图像(例如,静止图像、视频和/或来自视频的多个帧)。例如,第一图像是参考图像300,如前面参照图4描述的参考图像300b。在一些实施例中,从请求设备154或用户设备156接收认证请求124。

服务器接收用于第一交易的第一验证信息(例如,认证决定1006a和解释信息1008a)(1104)。在一些实施例中,从前面参照图5-9描述的人工审查过程接收第一验证信息。在一些实施例中,首先使用认证模型136来确定认证决定1006a,并根据所确定的认证决定1006a,从前面参照图5至图9描述的人工审查过程中接收对应的解释信息1008a。在一些实施例中,第一验证信息包括决定但不包括解释(例如,如上所述,当决定为肯定的时)。

服务器(例如,机器学习模型126)基于前面参照图10A-10C所描述的第一认证信息1004a、第一认证决定1006a和第一解释信息1008a更新认证模型136(1106)。例如,训练模块130、132和/或134使用由人工审查者生成的图像缺陷数据(例如,如针对图5-9所描述的)来训练认证模型136以识别图像缺陷。例如,机器学习模块126使用人工标注的图像缺陷数据来生成和/或更新用于认证模型136的规则(也称为“对模型进行完善”),以确定在认证请求124中包含的图像中是否存在缺陷。

服务器接收用于后续交易的后续认证信息(例如,认证请求124b)(1108)。例如,后续认证信息用于由与提交用于第一交易的第一认证信息的用户不同的用户所进行的后续交易。该后续认证信息至少包括与第二身份证件302对应的第二图像(例如,静止图像、视频和/或来自视频的多个帧)。例如,第二图像是参考图像300,如前面参照图4描述的参考图像300b。在一些实施例中,从请求设备154或用户设备156接收后续认证请求124。

如前面参照图10A-10C所描述的,服务器(例如,机器学习模块126)使用认证模型136确定与后续认证信息对应的验证信息(1110),其至少包括第二认证决定1006b和第二解释信息1008b,。例如,机器学习模块126应用被完善的认证模型136执行图像分析(例如,使用计算机视觉技术)以用于:(i)识别后续认证请求124的图像中的一个或多个图像缺陷,其中所述一个或多个图像缺陷被用作确定后续认证决定1006b的基础;(ii)识别与所述一个或多个图像缺陷对应的后续解释信息1008b,所述一个或多个图像缺陷用作确定后续认证决定1006b的基础。

可选地,在确定后续验证信息后,在对所确定的验证信息进行人工审查和批准后服务器更新认证模型136(1106)。

在确定后续验证信息后,服务器将验证信息(认证决定1006和解释信息1008)提供给请求设备154和/或用户设备156以进行显示(1112),从而有效地向用户提供关于自动认证过程的结果的解释(例如,机器学习模块126将用户的身份证件确定为无效的一个或多个原因)。在一些实施例中,步骤1112对应于美国专利申请15/993,366中的步骤1411(图14B)和/或步骤1432(图14C)或是它们的延伸。

在一些实施例中,每当服务器再次接收到认证请求(例如,124c至124N)时,方法1100通过如上所述地针对每个请求实施步骤1108至1112而继续进行。

对于决定基于自动处理(例如机器学习)的情况,当数据处理器使用数据主体(用户)的个人数据做出具有法律或其他重大影响的某些决定时,前面参照图10A-10C和11描述的实施例向数据主体提供解释信息的有效披露。由于本文描述的改进的机器学习训练实施例,解释信息以更快(例如,基本上在用户接收到决定本身的同时)且效率更高(因为不需要人工干预来确定解释)的方式将作为反馈提供给用户。

图12A-12B是根据一些实施例的验证信息128的图。为了遵守赋予用户根据请求从数据集将其个人数据擦除的权利的隐私权法规,机器学习模块126的某些实施例不仅具有去除所请求的数据(例如,图像300或350)的功能,而且还具有去除由用户数据在认证模型136上产生的印象的功能。由于重新训练模型涉及的处理资源,通过删除用户的图像并基于更新后的数据集重新训练模型来更新数据集可能会非常低效,特别是在数据集很大时。例如,为了从2,000,000张图像的数据集删除一个图像,希望有一种使用1,999,999张图像从头开始重新训练模型的替代方案。本文所述的各种各样的实施例,通过基于标记为删除的图像数据的相反数据对模型进行重新训练,从数据集中去除请求的图像,并清除数据集。这样,在删除所请求的图像之前,这些图像在模型上产生的任何印象都被抵消,模型中的任何因使用用户的图像而获得的知识可以被有效地清除。

图12A是根据一些实施例的验证信息128的详细示图,该验证信息128包括与N个认证请求对应的认证请求数据1202。对于每个认证请求124,认证请求数据1202作为验证信息128保存在机器学习模块126中。认证请求数据包括图像数据1204和决定数据1206。在一些实施例中,N小于100。在一些实施方案中,N为100至1,000,000。在一些实施例中,N大于1,000,000。在一些实施例中,如果验证信息128包括大量的认证请求数据1202,则在已经将较旧的数据1002用于对模型136进行训练之后并经过预定的一段时间之后,将较旧的数据1202删除。在一些实施例中,由操作员手动删除数据子集1202。在一些实施例中,根据用户的请求删除数据1202的子集。

在一些实施例中,图像数据1204包括参考图像300、认证图像350或这两者。作为替代方案,图像数据1204包括参考图像300或认证图像350的一个或多个分量。

在一些实施例中,决定数据1206(在本文中也称为“认证决定”)包括认证结果(例如,有效,无效,已验证,检测到欺诈,未检测到欺诈,拒绝,参考图像和认证图像匹配,参考图像和认证图像不匹配,在图像中检测到缺陷,等等)。认证结果是机器学习模块126将认证模型136应用于图像数据1204的结果。作为替代方案,认证结果是人工审查的结果,如前面参照图5-9所述的。在一些实施例中,机器学习模块126使用源自人工审查者的认证结果,使用监督训练130、非监督训练132和/或对抗训练134来完善认证模块136。

在一些实施例中,验证信息128还包括前面参照图10A-10C描述的原因数据(未示出)。

图12B示出了用于示例认证请求1202a的验证信息。对于第一请求1202a,用户向认证服务器100发送参考图像300,作为认证请求124a的一部分。参考图像300被保存为图像数据1204a,人工审查者使用前面参照图5-9描述的一种或多种技术将图像300分类为欺诈性的,或者,机器学习模块126将认证模型136应用于图像300,该模型输出以下决定:图像300是欺诈性的。这样,决定数据1006a保存认证结果“无效”。

在一些实施例中,如果通过人工审查确定了与任何认证请求数据1002对应的决定1206,则在后续的认证模型136的训练(完善)期间,将与决定1206对应的图像1004用作机器学习输入,每个图像1204标记有对应的决定数据1006。具体而言,使用例如由(x,y)指定的成对数组对模型136进行训练。其中x表示输入图像,y表示与输入图像对应的认证决定。换句话说,机器学习模块126使用被标记的输入数据对认证模型136进行训练,其中输入数据是图像数据x,而标签是认证决定y。作为训练的结果,认证模型136包括多个权重,这些权重代表用于确定与输入图像数据1204对应的决定1206的规则。

当机器学习模块126接收到删除图像数据1204a(具体来说,图像1210)的用户请求时,机器学习模块126将该请求视为新的认证请求M,并将作为请求基础的图像数据(图像1210)保存为图像数据1204M(或者,作为替代方案,重新指定图像数据1204a作为图像数据1204M),并将图像数据1204M与决定1206M相关联,该决定1206M与决定1206a相反。例如,如果用户的初始认证请求导致“无效”决定1206a,则用户的图像1210随后与相反的“有效”决定1206M相关联。重要的是要注意,“无效”和“有效”仅用于说明的目的,并不意味着限制当前描述的任何实施例的范围。例如,如果最初的决定是“有效”,相反的决定就是“无效”。而且,初始决定可以与输入数据(此处为图像数据,但作为替代方案,也可以是输入到机器学习过程中的任何输入数据)的分类或类别有关,只要该分类或类别具有相反的分类或类别即可,该相反的分类或类别与初始的分类或类别相悖(例如,汽车/非汽车;动物/非动物;满足阈值/不满足阈值;等等)。

在将相反的决定1206M分配给图像1210后,机器学习模块126使用后续请求数据1202M对模型136执行后续更新(完善)过程。结果,当随后基于具有相反的属性、标签、和/或决定数据1206M的图像1210的关联而更新(完善)模型时,在初始的更新(完善)过程中图像1210可能在模型136上产生的任何印象都被抵消了。更具体而言,在一些实施例中,如果使用请求数据1202a的初始的模型更新导致权重W被添加到模型136,则使用请求数据1202M(具有相反的标签)的后续的模型更新导致权重-W被添加到模型136,这两个权重相互抵消(W+-W=0)。由于权重被抵消,模型136对图像1210没有留下印象;换句话说,后续的使用模型136的图像分类将不受过去的任何权重的影响,这些权重是由于在过去使用图像1210作为对模型136的训练输入而被添加的。这样,一旦模型136失去其对图像1210的印象,机器学习模块126就可以从机器学习模块的数据存储器(例如,存储器102)中安全地删除图像1210。

图13是示出根据一些实施例的用于清除认证模型136的方法1300的流程图。该方法在认证服务器100、验证服务器200、用户设备156和/或验证设备201处执行。例如,用于执行该方法的指令被保存在存储器102中,并由认证服务器计算机系统100的处理器104执行。在一些实施例中,用于执行该方法的一部分或全部指令被保存在存储器202中,并由验证装置201的处理器204执行。

服务器接收用于第一交易的第一认证信息(例如认证请求124a)(1302)。第一认证信息至少包括与第一身份证件302对应的第一图像(例如,静止图像、视频和/或来自视频的多个帧)。例如,第一图像是参考图像300,如参照图4描述的参考图像300b,或参照图12B描述的图像1210。在一些实施例中,从请求设备154或用户设备156接收认证请求124。

服务器接收用于第一交易的第一验证信息(例如,认证决定1206a)(1304)。在一些实施例中,从前面参照图5-9描述的人工审查过程接收第一验证信息。在一些实施例中,基于认证模型136来确定认证决定1206a(例如,使用自动化过程,如前面参照机器学习模块126描述的那些自动化过程)。

如前面参照图12A-12B所描述的,服务器(例如,机器学习模型126)基于第一认证信息1204a和第一认证决定1206a更新认证模型136(1306)。例如,训练模块130、132和/或134使用由人工审查者生成的图像缺陷数据(例如,如针对图5-9所描述的)来训练认证模型136以识别图像缺陷。例如,机器学习模块126使用人工标注的图像缺陷数据来生成和/或更新用于认证模型136的规则(也称为“对模型进行完善”),以确定在认证请求124中包含的图像中是否存在缺陷。

如果接收到删除请求(1308:是),则方法1300进行到步骤1310。否则(1308:否),在接收到另一个认证请求时(1302),方法1300向前进行。在一些实施例中,方法1300的替代版本在接收到删除请求时,从步骤1308开始。

在接收到(例如,来自请求设备154或用户设备156的)与用户的个人数据有关的删除请求(例如,指定删除图像1210,该图像1210作为先前认证请求1202a的一部分已经被用户提交给服务器)时(1308),如参照图12B所描述的那样,服务器为第一图像创建相反的验证信息(1310)。在一些实施例中,相反的验证信息包括与第一图像相关联的相反的认证决定(例如1206M),其中该相反的认证决定与初始的与第一图像相关联的认证决定(例如1206a)相悖。

如参照图12B所描述的那样,服务器(例如,机器学习模块126)基于图像数据(1204M/1210)和相反的验证信息(1206M)启动模型136的后续更新(完善)过程(1306)。

在认证模型136的后续更新之后,服务器从机器学习系统的数据存储器(例如,存储器102)中删除所请求的图像数据(例如,1210)(1312)。在一些实施例中,删除所请求的图像数据需要从数据存储器中删除图像的第一实例(例如,图像数据1204a),该第一实例是响应于初始认证请求(1202a)而创建的,并从数据存储器中删除图像的第二实例(例如,图像数据1204M),该第二实例是响应于删除请求(1202M)而创建的。在一些实施例中,除了删除所请求的图像数据(例如1210)之外,服务器还删除对应的验证信息(例如决定1206a和/或决定1206M)。在一些实施例中,服务器删除对应的验证信息(例如,决定1206a和/或决定1206M),作为删除操作的一部分,其包括:删除原始的认证请求(例如,请求1202a,包括图像数据1204a和决定数据1206a)和/或在步骤1310中创建的后续的删除触发请求(例如1202M,包括图像数据1204M和决定数据1206M)。

在一些实施例中,用户的图像已经从机器学习模块126的数据存储器中删除,这可能是由于其在存储器102中存在的时间超过了预定的一段时间。在一些实施例中,服务器请求用户重新提交图像,以便提供用于形成相反的数据集(1202M)的基础,从而允许模型136被清除。在任何情况下,一旦模型136清除了图像的印象,图像就会从机器学习模块126的数据存储器中删除。

在一些实施例中,服务器将删除确认信息发送到用户设备,其中该删除确认信息涉及(reference)第一图像。例如,服务器向用户发送消息(例如,发送到请求设备154或用户设备156)以进行显示,确认用户的图像已被删除和/或该图像所产生的任何印象已经从处理系统中清除。

前面参照图12A-12B和20描述的实施例不仅能够根据用户的请求从数据集删除个人数据,而且还允许清除任何印象、效果、知识等等(它们可能是因为数据处理器访问该个人数据而留下的)。而且,由于本文描述的改进的机器学习实施例,本文描述的实施例以效率更高(例如,由于数据处理器不必从头开始重新训练机器学习模型)且更有效果(不仅擦除了用户的数据,而且还擦除了从用户数据中获悉的任何信息)的方式促进了这种清除。

本发明的特征可以在计算机程序产品(例如,其上保存有指令的存储介质或计算机可读存储介质,这些指令可以用于对处理系统进行编程以执行本文提出的任何特征)中实现,或使用计算机程序产品实现,或在计算机程序产品的帮助下实现。存储介质(例如,存储器102和存储器202)可以包括但不限于高速随机存取存储器如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备,且可以包括非易失性存储器如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其它非易失性固态存储设备。在一些实施例中,存储器102和存储器202包括远离CPU 104和204的一个或多个存储设备。存储器102和存储器202,或这些存储器内的非易失性存储器,包括非暂时性计算机可读存储介质。

可选地,本文所提及的通信系统(例如,通信系统108和通信系统208)经由有线和/或无线通信连接进行通信。可选地,通信系统通过无线通信与以下网络(例如,网络150和152)通信,如因特网,也被称为万维网(WWW),内联网和/或无线网络,如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN),以及其它设备。可选地,无线通信连接使用多种通信标准、协议和技术中的任一种,包括但不限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进-仅数据(EV-DO)、HSPA、HSPA+、双小区HSPA(DC-HSPDA),长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(例如,IEEE102.11a、IEEE102.11ac、IEEE102.11ax、IEEE102.11b、IEEE102.11g和/或IEEE102.11n)、互联网协议语音(VoIP)、Wi-MAX,用于电子邮件的协议(例如,因特网消息访问协议(IMAP)和/或邮局协议(POP))、即时消息传送(例如,可扩展消息传送和存在协议(XMPP),用于即时消息传送和存在利用扩展(SIMPLE)的会话发起协议、即时消息和存在服务(IMPS))、和/或短消息服务(SMS)、或任何其它合适的通信协议,包括在本申请文件的提交日尚未开发的通信协议。

应当理解,尽管本文中可能使用了术语“第一”、“第二”等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一个元件区分开来。

本文中所使用的术语仅用于描述特定实施例的目的,而不旨在限制权利要求。如在实施例的描述和所附权利要求中所使用的,单数形式“一个”、“一种”和“该”旨在也包括复数形式,除非上下文明确指出并非如此。还应理解,本文所用的术语“和/或”是指并包含一个或多个相关所列项目的任何和所有可能的组合。还应当理解,在本说明书中使用时,术语“包括”和/或“包含”指明存在所述特征、步骤、操作、元件和/或部件,但不排除一个或多个其它特征、步骤、操作、元素、部件和/或其组的存在或添加。

如本文中所使用的,术语“如果......”可以根据上下文解释为指“在......时”、“一旦......时”、“响应于确定为......”、“根据确定为......”或“响应于检测到......”,其中“.....”表示所陈述的前提条件成立。类似地,短语“如果确定为(所陈述的前提条件成立)”、“如果(所陈述的前提条件成立)”或“在(所陈述的前提条件成立)时”可以根据上下文解释为指“一旦确定为......”、“响应于确定为......”、“根据确定为......”、“一旦检测到......”或“响应于检测到......”,其中“.....”表示所陈述的前提条件成立。

出于解释的目的,已经参考具体实施例进行了如上描述。然而,如上的说明性讨论并非旨在穷举或将本发明限制于所公开的精确形式。鉴于上述教导,许多修改和变化都是可能的。选择和描述这些实施例是为了最好地解释本发明的原理及其实际应用,从而使得本领域的其它技术人员能够实现本发明。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号