首页> 中国专利> 信息审核分类模型的构建方法和信息审核方法

信息审核分类模型的构建方法和信息审核方法

摘要

本申请涉及人工智能技术领域,提供了一种信息审核分类模型的构建方法、装置、计算机设备和存储介质。方法包括:获取样本图像,对样本图像进行光学字符识别,得到文本识别结果,进行语义分析,根据对文本识别结果的语义分析结果,提取目标文本,基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签进行审核标签标注,根据携带有审核标签的目标文本进行模型训练,得到信息审核分类模型。不依赖人工进行打标签处理,不仅提高了样本的生成速度,而且能够生成适用于不同的业务方的模型训练的审核标签,实现了样本图像的复用,快速训练得到信息审核分类模型。此外,本申请还涉及区块链技术,用户的信息审核结果可存储于区块链中。

著录项

  • 公开/公告号CN112613501A

    专利类型发明专利

  • 公开/公告日2021-04-06

    原文格式PDF

  • 申请/专利权人 深圳壹账通智能科技有限公司;

    申请/专利号CN202011521474.2

  • 发明设计人 高文;

    申请日2020-12-21

  • 分类号G06K9/20(20060101);G06F40/30(20200101);G06K9/46(20060101);G06K9/62(20060101);G06Q40/02(20120101);G06Q40/04(20120101);G06N3/02(20060101);G06N20/10(20190101);G06F17/18(20060101);

  • 代理机构44224 广州华进联合专利商标代理有限公司;

  • 代理人刘雪帆

  • 地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室

  • 入库时间 2023-06-19 10:29:05

说明书

技术领域

本申请涉及人工智能技术领域,特别是涉及一种信息审核分类模型的构建方法、信息审核方法、装置、计算机设备和存储介质。

背景技术

随着信息技术的发展,信息的审核在日常生活中的应用越来越广泛。以贷款审核为例,贷款人的申请信息层层审核,银行再进行人工审核,人工审核过程复杂、耗时长,人工审核难以控制审核量的按时完成,造成贷款人对银行方的服务产生质疑,使银行方利益受损。由于信息审核涉及的流程和经办人员众多,就信息审核的过程而言,请求人等待时间太长。对审核方而言,审核流程十分的复杂不说,而且人工审核是否合乎标准难以判断。

随着人工智能技术的发展,通过训练神经网络模型取代人工处理在各个行业得到了应用,但在信息审核方面,由于模型的训练依赖于大量的训练样本,而样本需要基于历史审核记录通过人工进行样本标签标记,且不同的业务方由于其存在不同的审核标准,同样的样本训练得到的模型无法适用于不同的业务方,从而导致模型训练需要耗费大量时间进行样本准备工作,模型训练过程效率低。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高模型训练过程效率的信息审核分类模型的构建方法、装置、计算机设备和存储介质。

一种信息审核分类模型的构建方法,方法包括:

获取样本图像,对样本图像进行光学字符识别,得到文本识别结果;

对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本;

基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注;

根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。

在其中一个实施例中,基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注包括:

获取业务方对风险等级的评定配置参数;

根据评定配置参数,确定审核标签生成规则;

根据审核标签生成规则,遍历目标文本,对目标文本中的信息进行分类统计;

根据分类统计结果和审核标签生成规则,生成审核标签;

根据目标文本生成特征向量,并对特征向量进行审核标签标注。

在其中一个实施例中,包含目标文本的图像为征信报告;根据评定配置参数,确定审核标签生成规则包括:

根据评定配置参数中的用户类型,确定与用户类型对应各风险等级的负面信用交易阈值参数;其中,用户类型包括个人用户和企业用户;

根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则。

在其中一个实施例中,根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则包括:

提取评定配置参数中对不同负面信用交易类型的权重参数;

根据权重参数和负面信用交易阈值参数中的阈值数据,配置与风险等级对应的标签生成规则。

在其中一个实施例中,根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则包括:

从负面信用交易阈值参数中提取各负面信用交易类型对应的数量阈值;

根据各负面信用交易类型对应的数量阈值,配置与风险等级对应的标签生成规则。

一种信息审核方法,方法包括:

获取待审核用户的待审核图像,对待审核图像进行光学字符识别,得到初始识别文本;

对初始识别文本进行语义分析,根据语义分析结果,提取初始识别文本中的待分析文本;

将待分析文本输入上述任一项实施例中的信息审核分类模型,得到信息审核结果。

在其中一个实施例中,信息审核方法还包括:

获取与信息审核结果对应的实际审核结果;

当审核分类结果与实际审核结果的差异大于预设阈值时,将实际审核结果作为待审核图像的标签,添加至更新样本集;

基于预设的模型迭代周期,根据更新样本集,对信息审核分类模型进行迭代训练,得到更新的信息审核分类模型。

一种信息审核分类模型的构建装置,装置包括:

文本识别模块,用于获取样本图像,对样本图像进行光学字符识别,得到文本识别结果;

语义分析模块,用于对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本;

标签生成模块,用于基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注;

模型训练模块,用于根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。

一种信息审核装置,装置包括:

待审核图像文本识别模块,用于获取待审核用户的待审核图像,对待审核图像进行光学字符识别,得到初始识别文本;

待审核图像语义分析模块,用于对初始识别文本进行语义分析,根据语义分析结果,提取初始识别文本中的待分析文本;

信息审核分类模块,用于将待分析文本输入上述任一项实施例中的信息审核分类模型,得到信息审核结果。

一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:

获取样本图像,对样本图像进行光学字符识别,得到文本识别结果;

对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本;

基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注;

根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。

一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取样本图像,对样本图像进行光学字符识别,得到文本识别结果;

对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本;

基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注;

根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。

上述信息审核分类模型的构建方法、装置、计算机设备和存储介质,通过获取包含目标文本的图像,通过光学字符识别对图像进行识别,通过语义分析提取出识别结果中的目标文本,实现信息的初步筛选。通过预先设定的审核标签生成规则,自动生成与目标文本对应的标签,进行标签标注,不需要依赖人工进行打标签处理,不仅提高了模型训练样本的生成速度,而且能够时使得同样的图像样本基于与业务方对应的审核标签生成规则,生成适用于不同的业务方的模型训练的审核标签,实现了样本图像的复用,能够快速便捷地对初始分类模型进行训练,提高模型训练过程效率,快速得到信息审核分类模型。

附图说明

图1为一个实施例中信息审核分类模型的构建方法的应用环境图;

图2为一个实施例中信息审核分类模型的构建方法的流程示意图;

图3为另一个实施例中信息审核分类模型的构建方法的流程示意图;

图4为再一个实施例中信息审核分类模型的构建方法的流程示意图;

图5为又一个实施例中信息审核分类模型的构建方法的流程示意图;

图6为还一个实施例中信息审核分类模型的构建方法的流程示意图;

图7为一个实施例中信息审核分类模型的构建装置的结构框图;

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的信息审核分类模型的构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收终端102上传的包含目标文本的图像,对图像进行光学字符识别,得到文本识别结果,对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本,基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注,根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。服务器104基于信息审核分类模型,可以对终端上传的待审核用户的待审核图像进行处理,快速得到信息审核结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种信息审核分类模型的构建方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤202至步骤208。

步骤202,获取样本图像,对样本图像进行光学字符识别,得到文本识别结果。

样本图像是指预先选择的用于对模型进行训练的样本,样本可以是图像格式的,例如,终端通过对纸质文档进行扫描或图像拍摄之后得到的图像。

光学字符识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的文本。通过对样本图像进行光学字符识别,得到文本识别结果。

通过图像格式的样本和光学字符识别的方式,适用于获取的样本为无法直接获得其包含的内容的应用场景,能够在减小人工作业的前提下,准确快速地得到用于进行模型训练的有效数据。

样本图像中包含有用于进行审核分类的信息。以样本图像为征信报告或是其他固定权威机构出具的信用信息证明文件为例。信用信息证明文件中的负面信用信息即为用于进行审核分类的信息。具体来说,征信报告具有固定的格式,通过光学字符识别可以便捷迅速地得到征信报告对应的文本识别结果。对征信报告的文本识别结果包括征信报告中的所有字符。

步骤204,对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本。

语义分析包括关键字识别和上下文识别两种方式。其中,关键字可以是预先配置的关键字。通过关键字识别,能够快速准确地从文本识别结果中提取出所需要的文本,实现对非必要文本的有效过滤。以征信报告为例,语义分析包括识别出文本识别结果中能反映负面信用交易的关键字,如逾期、透支等。

目标文本是指基于关键字所在的语境,通过语句选择确定的能完整表述语义的文本。如一个完整的句子或是一段话,具体可以根据样本图像中信息的样式进行配置选择。例如,征信报告是以独立的单条信息的方式来反映用户的信用状况的,可以将包含关键字的单条信息确认为目标文本。

上下文识别可以通过训练好的语义识别模型,将文本识别结果中的各条信息分别输入语义识别模型,语义识别模型通过上下文分析,确定输入的信息是否为反映负面信用交易的文本。对于能够反映负面信用交易的文本,判断为目标文本进行保留,对于不能反映负面信用交易的文本,直接丢弃,从而实现对文本识别结果中信息的有效筛选,得到目标文本。

步骤206,基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注。

审核标签生成规则是指基于目标文本的内容来生成对应的审核标签的规则。具体来说,审核标签生成规则可以是根据目标文本中的信息数量确定对应的标签,也可以是根据目标文本中信息的数量以及信息所属类别的权重相结合确定对应的标签。

不同的业务方具有不同的审核标签生成规则。审核标签生成规则可以是基于业务方对风险等级的评定配置参数预先配置的。通过基于业务方对风险等级的评定配置参数,可以直接通过审核标签生成规则的方式,来生成审核标签。通过基于审核标签生成规则直接生成标签的方式,能够使得该模型能够基于不同的业务方需求进行训练时,不需要针对每一个业务方所需的模型分别进行大量的人工样本标注进行模型训练。并且,不同的业务方对同一个用户的信息,可能具有不同的审核标准。同样的样本能够基于不同业务方的审核标签生成规则生成不同的审核标签,从而能够得到适用于不同的业务方的模型训练样本标签,实现了对不同业务方的模型训练样本的快速构建。

步骤208,根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。

基于与业务方对应的审核标签生成规则,得到的目标文本携带的审核标签都满足该业务方的审核要求,通过将携带有审核标签的目标文本输入初始的分类模型,对初始分类模型进行训练。其中,初始分类模型具体可以是决策树、人工神经网络、支持向量机、随机森林以及逻辑回归等模型中的任意一种。

在模型训练过程中,可以将携带有审核标签的目标文本分为训练集和测试集,通过训练集中的目标文本对初始分类模型进行训练,通过测试集中的目标文本对训练后得到的分类模型进行测试,已检测训练后得到的分类模型是否满足模型的精度要求。若满足,则得到可以应用在实际信息审核场景的信息审核分类模型,若不满足,则通过模型参数调整,对初始分类模型进行迭代训练,直至得到满足精度要求的模型。

上述信息审核分类模型的构建方法,通过获取包含目标文本的图像,通过光学字符识别对图像进行识别,通过语义分析提取出识别结果中的目标文本,实现信息的初步筛选。通过预先设定的审核标签生成规则,自动生成与目标文本对应的标签,进行标签标注,不需要依赖人工进行打标签处理,不仅提高了模型训练样本的生成速度,而且能够时使得同样的图像样本基于与业务方对应的审核标签生成规则,生成适用于不同的业务方的模型训练的审核标签,实现了样本图像的复用,能够快速便捷地对初始分类模型进行训练,提高模型训练过程效率,快速得到信息审核分类模型。

在其中一个实施例中,如图3所示,基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注,即步骤206包括步骤302至步骤310。

步骤302,获取业务方对风险等级的评定配置参数。

步骤304,根据评定配置参数,确定审核标签生成规则。

步骤306,根据审核标签生成规则,遍历目标文本,对目标文本中的信息进行分类统计。

步骤308,根据分类统计结果和审核标签生成规则,生成审核标签。

步骤310,根据目标文本生成特征向量,并对特征向量进行审核标签标注。

根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型,即步骤208包括步骤312。

步骤312,根据携带有审核标签的特征向量,对初始分类模型进行训练,得到信息审核分类模型。

为满足不同业务方的审核需求,分别针对不同的业务方构建对应的信息审核分类模型。由于每一个模型都需要基于携带有审核分类结果的标签的样本进行训练。如果针对每一个业务方都采用基于该业务方的实际历史数据进行样本采集,进行样本标注,显然这种方式需要基于大量的数据采集和样本标注来实现。针对此问题,本方案提出了以业务方对风险等级的评定配置参数自动生成与业务方对应的审核标签生成规则,来生成审核标签的方式,实现满足各业务方要求的审核标签的确定。

其中,对于每一个样本图像,其中的目标文本的数量可能是一个,也可能多个(≥2)。审核标签生成规则包括对目标文本的分类统计方式,分类统计方式可以包括定义的类别以及统计各类别对应的目标文本的数量,也可以包括通过聚类方式对目标文本进行分类统计。服务器通过遍历各目标文本,按目标文本所属的类别对目标文本进行分类统计,分类统计包括各个类别以及各类别中的目标文本的数量。基于审核标签生成规则,生成与统计结果对应的审核标签。将目标文本归集为文本集合,该文本集合中的数据即为模型训练样本对应的特征数据,该审核标签即为该特征数据对应的标记标签。在实施例中,可以基于目标文本生成特征向量,根据生成的审核标签,对特征向量进行审核标签标注。通过特征向量,将同一个图像样本中的各个目标文本的特征集中成一个整体,有助于在模型训练过程中得到更为准确的分类结果。

在其中一个实施例中,包含目标文本的图像为征信报告。如图4所示,根据评定配置参数,确定审核标签生成规则,即步骤304包括步骤402至步骤404。

步骤402,根据评定配置参数中的用户类型,确定与用户类型对应各风险等级的负面信用交易阈值参数。其中,用户类型包括个人用户和企业用户。

步骤404,根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则。

针对不同的用户类型,配置对应的负面信用交易阈值参数,实现个人用户与企业用户的有效区分。以征信报告为例,个人征信报告对应的用户类型为个人和企业征信报告对应的用户类型为企业。负面信用交易类型包括逾期信用交易数量、逾期时间、信用卡透支、欠税、民事判决、强制执行、行政处罚、电信欠费、担保人代还、以资抵债等。风险等级包括风险低级(如无不良征信记录),风险中级(如一年内有一条不良记录),风险高级(如一年内有三条不良记录)

在实施例中,对于个人用户与企业用户可以设置不同的标签生成规则,具体可以是不同的负面信用交易阈值参数,如影响负面信用交易阈值的负面信用交易类型,还可以是对不同的负面信用交易类型配置不同的权重。避免将不同用户类型的对象采用相同的标准进行划分,影响模型分类的训练效果。

其中,不同风险等级的负面信用交易阈值不同。具体来说,负面信用交易阈值通过负面信用交易信息所属的类型以及各类型负面信用交易信息的数量来衡量。例如,可以设定其中某个类型的负面信用交易信息作为评价条件,其中另一个类型的负面信用交易信息不作为评价条件。再例如,可以定义各个作为评价条件的类型中负面信用交易信息的数量阈值,负面信用交易阈值可以是超过其对应数量阈值的类的数量。负面信用交易阈值也可以是各类型负面信用交易信息的数量的总和。通过将不同用户类型的对象采用不同的标准进行划分,提高模型分类的训练效果的有效性。

在其中一个实施例中,如图5所示,根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则即步骤404,包括步骤502至步骤504。

步骤502,提取评定配置参数中对不同负面信用交易类型的权重参数。

步骤504,根据权重参数和负面信用交易阈值参数中的阈值数据,配置与风险等级对应的标签生成规则。

不同的业务方对于不同负面信用交易类型,可以配置不同的权重参数,例如信用卡透支与电信欠费可以对应有不同的权重参数。举例来说,业务方A银行,可以设置信用卡透支的权重参数为0.3,电信欠费的权重参数为0.1,中风险等级的阈值为2,则与中风险等级对应的标签生成规则为,用户的各个类型的负面信用交易类型的数量与权重参数的乘积之和不能超过2。其余风险等级对应的标签生成规则与中风险等级类似,不再赘述。

通过对不同负面信用交易类型的权重参数结合负面信用交易阈值来配置与风险等级对应的标签生成规则,能够准确对各个样本图像对应的目标文本进行准确的风险等级分类,得到准确的审核标签。

在其中一个实施例中,如图6所示,根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则即步骤404,包括步骤602至步骤604。

步骤602,从负面信用交易阈值参数中提取各负面信用交易类型对应的数量阈值。

步骤604,根据各负面信用交易类型对应的数量阈值,配置与风险等级对应的标签生成规则。

负面信用交易阈值参数可以是对各个负面信用交易类型的负面信用交易数量的限定。例如,低风险等级对应限定类型1和类型2的负面信用交易数量为0,限定类型3和类型4的负面信用交易数量均≤1,则将类型1和类型2的负面信用交易数量为0,类型3和类型4的负面信用交易数量均≤1作为低风险等级对应标签生成规则。通过限定各负面信用交易类型对应的数量阈值,生成与风险等级对应的标签生成规则,既满足业务方的分类需求,又能够对各个样本图像对应的目标文本进行准确的风险等级分类,得到准确的审核标签。

在一个实施例中,提供了一种信息审核方法,方法包括:获取待审核用户的待审核图像,对待审核图像进行光学字符识别,得到初始识别文本。对初始识别文本进行语义分析,根据语义分析结果,提取初始识别文本中的待分析文本。将待分析文本输入上述任一项实施例中的信息审核分类模型,得到信息审核结果。

待审核用户是指需要对该用户的信息进行审核确定审核结果的用户。待审核图像是指待审核用户提供的包含有审核信息的图像数据。例如该待审核用户的征信报告的图像数据,其中,待审核图像可以是由用户通过指定界面上传至服务器的图像,也可以是通过终端设置的扫描或图像采集装置对纸质文本进行扫描或图像采集得到的图像。对待审核图像进行光学字符识别、语义分析以及待分析文本提取的处理过程与上述对样本图像的处理过程相同,不再赘述。

服务器在提取得到初始识别文本中的待分析文本之后,将待分析文本输入通过上述信息审核分类模型的构建方法得到的信息审核分类模型中,通过模型的分类分析,得到对应的信息审核结果。其中信息审核结果包括该用户对应的风险等级。通过信息审核分类模型进行信息审核分类,能够实现快速的分类处理,快速准确的得到信息审核结果。需要强调的是,为进一步保证上述信息审核结果的私密和安全性,上述信息审核结果还可以存储于一区块链的节点中。

在其中一个实施例中,信息审核方法还包括:获取与信息审核结果对应的实际审核结果。当审核分类结果与实际审核结果的差异大于预设阈值时,将实际审核结果作为待审核图像的标签,添加至更新样本集。基于预设的模型迭代周期,根据更新样本集,对信息审核分类模型进行迭代训练,得到更新的信息审核分类模型。

基于信息审核结果对应的实际审核结果,当实际结果与模型的分类结果不符时,通过新增样本对模型进行迭代更新,能够进一步的在应用过程中提高模型分类的准确性,更贴合模型对应的业务方的实际应用场景。

应该理解的是,虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图7所示,提供了一种信息审核分类模型的构建装置,包括:文本识别模块702、语义分析模块704、标签生成模块706和模型训练模块708,其中:

文本识别模块702,用于获取样本图像,对样本图像进行光学字符识别,得到文本识别结果。

语义分析模块704,用于对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本。

标签生成模块706,用于基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注。

模型训练模块708,用于根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。

在其中一个实施例中,标签生成模块还用于获取业务方对风险等级的评定配置参数;根据评定配置参数,确定审核标签生成规则;根据审核标签生成规则,遍历目标文本,对目标文本中的信息进行分类统计;根据分类统计结果和审核标签生成规则,生成审核标签;根据目标文本生成特征向量,并对特征向量进行审核标签标注。

在其中一个实施例中,包含目标文本的图像为征信报告;标签生成模块还用于根据评定配置参数中的用户类型,确定与用户类型对应各风险等级的负面信用交易阈值参数;其中,用户类型包括个人用户和企业用户;根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则。

在其中一个实施例中,标签生成模块还用于提取评定配置参数中对不同负面信用交易类型的权重参数;根据权重参数和负面信用交易阈值参数中的阈值数据,配置与风险等级对应的标签生成规则。

在其中一个实施例中,标签生成模块还用于从负面信用交易阈值参数中提取各负面信用交易类型对应的数量阈值;根据各负面信用交易类型对应的数量阈值,配置与风险等级对应的标签生成规则。

上述信息审核分类模型的构建装置,通过获取包含目标文本的图像,通过光学字符识别对图像进行识别,通过语义分析提取出识别结果中的目标文本,实现信息的初步筛选。通过预先设定的审核标签生成规则,自动生成与目标文本对应的标签,进行标签标注,不需要依赖人工进行打标签处理,不仅提高了模型训练样本的生成速度,而且能够时使得同样的图像样本基于与业务方对应的审核标签生成规则,生成适用于不同的业务方的模型训练的审核标签,实现了样本图像的复用,能够快速便捷地对初始分类模型进行训练,提高模型训练过程效率,快速得到信息审核分类模型。

在一个实施例中,提供了一种信息审核装置,装置包括:

待审核图像文本识别模块,用于获取待审核用户的待审核图像,对待审核图像进行光学字符识别,得到初始识别文本。

待审核图像语义分析模块,用于对初始识别文本进行语义分析,根据语义分析结果,提取初始识别文本中的待分析文本。

信息审核分类模块,用于将待分析文本输入上述任一项信息审核分类模型的构建装置构建得到的信息审核分类模型,得到信息审核结果。

在其中一个实施例中,信息审核装置还用于获取与信息审核结果对应的实际审核结果;当审核分类结果与实际审核结果的差异大于预设阈值时,将实际审核结果作为待审核图像的标签,添加至更新样本集;基于预设的模型迭代周期,根据更新样本集,对信息审核分类模型进行迭代训练,得到更新的信息审核分类模型。

上述信息审核装置,基于预先构建的信息审核分类模型,能够直接基于待审核图像,通过对待审核图像进行光学字符识别、语义分析以及待分析文本提取,将待分析文本输入信息审核分类模型,快速准确地得到信息审核结果。

关于信息审核分类模型的构建装置以及信息审核装置的具体限定可以参见上文中对于信息审核分类模型的构建方法的限定,在此不再赘述。上述信息审核分类模型的构建装置以及信息审核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储信息审核分类结果数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息审核分类模型的构建方法。

本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取样本图像,对样本图像进行光学字符识别,得到文本识别结果;对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本;基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注;根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取业务方对风险等级的评定配置参数;根据评定配置参数,确定审核标签生成规则;根据审核标签生成规则,遍历目标文本,对目标文本中的信息进行分类统计;根据分类统计结果和审核标签生成规则,生成审核标签;根据目标文本生成特征向量,并对特征向量进行审核标签标注。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据评定配置参数中的用户类型,确定与用户类型对应各风险等级的负面信用交易阈值参数;其中,用户类型包括个人用户和企业用户;根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

提取评定配置参数中对不同负面信用交易类型的权重参数;根据权重参数和负面信用交易阈值参数中的阈值数据,配置与风险等级对应的标签生成规则。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

从负面信用交易阈值参数中提取各负面信用交易类型对应的数量阈值;根据各负面信用交易类型对应的数量阈值,配置与风险等级对应的标签生成规则。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取待审核用户的待审核图像,对待审核图像进行光学字符识别,得到初始识别文本;对初始识别文本进行语义分析,根据语义分析结果,提取初始识别文本中的待分析文本;将待分析文本输入上述任一项实施例中的信息审核分类模型,得到信息审核结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取与信息审核结果对应的实际审核结果;当审核分类结果与实际审核结果的差异大于预设阈值时,将实际审核结果作为待审核图像的标签,添加至更新样本集;基于预设的模型迭代周期,根据更新样本集,对信息审核分类模型进行迭代训练,得到更新的信息审核分类模型。

在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取样本图像,对样本图像进行光学字符识别,得到文本识别结果;对文本识别结果进行语义分析,根据语义分析结果,提取文本识别结果中的目标文本;基于与业务方对应的审核标签生成规则,生成与目标文本对应的审核标签,对目标文本进行审核标签标注;根据携带有审核标签的目标文本,对初始分类模型进行训练,得到信息审核分类模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取业务方对风险等级的评定配置参数;根据评定配置参数,确定审核标签生成规则;根据审核标签生成规则,遍历目标文本,对目标文本中的信息进行分类统计;根据分类统计结果和审核标签生成规则,生成审核标签;根据目标文本生成特征向量,并对特征向量进行审核标签标注。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据评定配置参数中的用户类型,确定与用户类型对应各风险等级的负面信用交易阈值参数;其中,用户类型包括个人用户和企业用户;根据负面信用交易阈值参数,配置与风险等级对应的标签生成规则。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

提取评定配置参数中对不同负面信用交易类型的权重参数;根据权重参数和负面信用交易阈值参数中的阈值数据,配置与风险等级对应的标签生成规则。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

从负面信用交易阈值参数中提取各负面信用交易类型对应的数量阈值;根据各负面信用交易类型对应的数量阈值,配置与风险等级对应的标签生成规则。

在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待审核用户的待审核图像,对待审核图像进行光学字符识别,得到初始识别文本;对初始识别文本进行语义分析,根据语义分析结果,提取初始识别文本中的待分析文本;将待分析文本输入上述任一项实施例中的信息审核分类模型,得到信息审核结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取与信息审核结果对应的实际审核结果;当审核分类结果与实际审核结果的差异大于预设阈值时,将实际审核结果作为待审核图像的标签,添加至更新样本集;基于预设的模型迭代周期,根据更新样本集,对信息审核分类模型进行迭代训练,得到更新的信息审核分类模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

进一步地,计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号