首页> 中国专利> 分类模型的训练方法和对目标对象进行分类的方法

分类模型的训练方法和对目标对象进行分类的方法

摘要

本公开提供了一种分类模型的训练方法和对目标对象进行分类的方法、装置、设备和存储介质,应用于人工智能领域,具体应用于深度学习领域和智慧医疗领域。分类模型的训练方法的具体实现方案为:基于针对目标对象的训练样本,采用分类模型获得目标对象属于预定类别的预测概率和目标对象包括的第一对象的预测位置信息;以及基于预测概率、预测位置信息和预定损失函数,训练分类模型。其中,预定损失函数包括关联损失函数,该关联损失函数表征预测概率与预测位置信息之间的关联关系。

著录项

  • 公开/公告号CN113065614A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利号CN202110610761.9

  • 发明设计人 杨叶辉;王磊;黄海峰;许言午;

    申请日2021-06-01

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人吕朝蕙

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本公开涉及人工智能领域,具体涉及深度学习领域和智慧医疗领域,更具体地涉及一种分类模型的训练方法和对目标对象进行分类的方法、装置、设备和存储介质。

背景技术

随着电子技术的发展,深度学习模型得益于不断壮大的数据采集和算力研发,以其端到端、高准确率和高实用性等明显优点而不断在各个领域大放异彩。

在对象的位置信息会影响分类结果的场景中,通常先对对象进行目标检测,得到位置信息,随后根据该位置信息与对象的类别之间的映射关系来确定对象的类别。该方式无法充分考虑位置信息和分类结果之间的潜在关系。

发明内容

提供了一种提高分类精度的分类模型的训练方法和对目标对象进行分类的方法、装置、设备和存储介质。

根据本公开的一个方面,提供了一种分类模型的训练方法,包括:基于针对目标对象的训练样本,采用分类模型获得目标对象属于预定类别的预测概率和目标对象包括的第一对象的预测位置信息;以及基于预测概率、预测位置信息和预定损失函数,训练分类模型,其中,预定损失函数包括关联损失函数,该关联损失函数表征预测概率与预测位置信息之间的关联关系。

根据本公开的另一个方面,提供了一种对目标对象进行分类的方法,包括:基于针对目标对象的待处理图像,采用分类模型获得目标对象属于预定类别的概率,目标对象包括第一对象;根据该概率,确定目标对象的类别是否为预定类别,其中,分类模型是采用上述分类模型的训练方法训练得到的。

根据本公开的另一个方面,提供了一种分类模型的训练装置,包括:信息获得模块,用于基于针对目标对象的训练样本,采用分类模型获得目标对象属于预定类别的预测概率和目标对象包括的第一对象的预测位置信息;以及模型训练模块,用于基于预测概率、预测位置信息和预定损失函数,训练分类模型,其中,预定损失函数包括关联损失函数,关联损失函数表征预测概率与预测位置信息之间的关联关系。

根据本公开的另一个方面,提供了一种对目标对象进行分类的装置,包括:概率获得模块,用于基于针对目标对象的待处理图像,采用分类模型获得目标对象属于预定类别的概率,该目标对象包括第一对象;以及类别确定模块,用于根据该概率,确定目标对象的类别是否为预定类别,其中,分类模型是采用上述的分类模型的训练装置训练得到的。

根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的分类模型的训练方法和/或对目标对象进行分类的方法。

根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的分类模型的训练方法和/或对目标对象进行分类的方法。

根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的分类模型的训练方法和/或对目标对象进行分类的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开实施例的分类模型的训练方法和对目标对象进行分类的方法、装置、设备和存储介质的应用场景示意图;

图2是根据本公开实施例的分类模型的训练方法的流程示意图;

图3是根据本公开实施例的分类模型的训练方法的原理示意图;

图4是根据本公开实施例的基于预测概率、预测位置信息和预定损失函数训练分类模型的原理示意图;

图5是根据本公开实施例的分类模型的结构示意图;

图6是根据本公开实施例的对目标对象进行分类的方法的流程示意图;

图7是根据本公开实施例的分类模型的训练装置的结构框图;

图8是根据本公开实施例的对目标对象进行分类的装置的结构框图;以及

图9是用来实现本公开实施例的分类模型的训练方法和/或对目标对象进行分类的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种分类模型的训练方法,该方法包括信息获得阶段和模型训练阶段。在信息获得阶段,基于针对目标对象的训练样本,采用分类模型获得目标对象属于预定类别的预测概率和目标对象包括的第一对象的预测位置信息。在模型训练阶段,基于预测概率、预测位置信息和预定损失函数,训练分类模型。其中,预定损失函数包括关联损失函数,关联损失函数表征预测概率与预测位置信息之间的关联关系。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的分类模型的训练方法和对目标对象进行分类的方法、装置、设备和存储介质的应用场景示意图。

如图1所示,该应用场景100包括终端设备110,该终端设备可以为具有处理功能的任意电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该终端设备110例如可以对输入的图像120进行处理,具体可以对输入的图像进行目标对象的识别,并根据识别结果确定图像120中目标对象属于预定类别的概率130,以便于根据该概率确定目标对象的类别。其中,该终端设备110例如可以采用分类模型来确定目标对象属于预定类别的概率。通过根据该概率确定目标对象的类别,例如可以实现对目标对象的检测,确定目标对象是否异常。

根据本公开的实施例,如图1所示,该应用场景100还可以包括服务器140。终端设备110可以通过网络与服务器140通信连接,网络可以包括有线或无线通信链路。

示例性地,服务器140可以用于训练分类模型,并响应于终端设备110发送的模型获取请求,将训练好的分类模型150发送给终端设备110,便于终端设备110对输入的图像进行识别,确定图像中目标对象属于预定类别的概率。

示例性地,服务器例如可以是提供各种服务的服务器,例如可以为对终端设备110上运行的应用程序提供支持的后台管理服务器。例如,该服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

根据本公开的实施例,如图1所示,该应用场景100还可以包括数据库160,该数据库160例如可以维护有海量的图像,该海量的图像中包括描述属于预定类别的目标对象的图像和描述不属于预定类别的目标对象的图像。服务器140例如可以访问该数据库160,并从数据库存储的海量的图像中随机抽取一部分图像,将抽取的图像作为训练样本对分类模型进行训练。

在一实施例中,终端设备110与服务器140例如可以为同一设备,该同一设备中包括用于对图像中的目标对象进行分类的第一处理模块和用于对分类模型进行训练的第二处理模块。该第一处理模块和第二处理模块之间可以通过网络协议进行通信。

需要说明的是,本公开所提供的分类模型的训练方法可以由服务器140执行。相应地,本公开所提供的分类模型的训练装置可以设置于服务器140中。本公开所提供的对目标对象进行分类的方法可以由终端设备110执行。相应地,本公开所提供的对目标对象进行分类的装置可以设置于终端设备110中。

应该理解,图1中的终端设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、服务器和数据库。

以下将结合图2~图4对本公开实施例的分类模型的训练方法进行详细描述。

图2是根据本公开实施例的分类模型的训练方法的流程示意图。

如图2所示,该实施例的分类模型的训练方法200可以包括操作S210~操作S220。

在操作S210,基于针对目标对象的训练样本,采用分类模型获得目标对象属于预定类别的预测概率和目标对象包括的第一对象的预测位置信息。

根据本公开的实施例,目标对象例如可以为需要检测的对象,根据具体使用场景,目标对象可以为任意的对象。例如,在智能医疗领域,该目标对象例如可以为眼睛、鼻子等任意部位,以采用训练得到的分类模型确定该任意部位是否发生病变。在智能安检领域,该目标对象例如可以为液体或气体等,以采用训练得到的分类模型确定该目标对象是否为不允许携带的物体等。

在一实施例中,该目标对象可以为:包括的第一对象的位置信息影响目标对象属于预定类别的概率值的对象。例如,若目标对象为眼睛,则该第一对象可以为晶状体或眼轴,预定类别可以为近视类别。若目标对象为眼睛,则该第一对象可以为视杯,预定类别可以为青光眼类别。若目标对象为容器,则该第一对象可以为容器中盛放液体的部分,预定类别可以为该容器的容量超过允许容量的类别等。可以理解的是,上述目标对象、第一对象和预定类别仅作为示例以利于理解本公开,本公开对此不做限定。

根据本公开的实施例,分类模型可以具有两个处理分支,其中一个处理分支的输入为训练样本,输出得到的为目标对象属于预定类别的预测概率。其中另一个分支的输入为训练样本,输出得到的为目标对象包括的第一对象的预测位置信息。

在一实施例中,两个处理分支可以共用特征提取层,如此,分类模型可以为包括特征提取层和两个全连接层的模型架构。该模型架构例如可以基于Efficient Net模型或残差网络模型(例如ResNet(Residual Neural Network)等)构建得到。其中,Efficient Net模型是通过机器搜索得来的模型,该模型是一个快速高精度模型,使用了深度、宽度、输入图片分辨率共同调节的技术。可以理解的是,上述分类模型的模型架构仅作为示例以利于理解本公开,本公开对此不做限定。

在操作S220,基于预测概率、预测位置信息和预定损失函数,训练分类模型。

根据本公开的实施例,预定损失函数包括关联损失函数,该关联损失函数表征预测概率与预测位置信息之间的关联关系。该操作S220可以先基于预测概率和预测位置信息确定预定损失函数的取值。随后基于该预定损失函数的取值,采用梯度下降法(Gradientdescent)或反向传播算法等来对分类模型进行训练。

示例性地,该操作S220例如可以先根据预测位置信息确定第一对象的尺寸,随后根据该第一对象的尺寸与属于预定类别的预测概率之间的关联关系,来确定预定损失函数的取值。例如,若第一对象的尺寸与预测概率之间正相关,该关联损失函数可以表示为第一对象的尺寸与预测概率之间的差值。若第一对象的尺寸与预测概率之间负相关,该关联损失函数可以表示为第一对象的尺寸与预测概率的倒数之间的差值等。可以理解的是,上述第一对象的尺寸与预测概率之间的关系及关联损失函数仅作为示例以利于理解本公开,本公开对此不做限定。

示例性地,预定损失函数还可以包括分类损失函数和回归损失函数。训练样本具有指示第一对象的实际位置信息的标签和指示目标对象属于预定类别的实际概率的标签。该实施例在训练分类模型时,可以根据前文获得的预测概率和实际概率来确定分类损失函数的取值,根据实际位置信息和前文获得的预测位置信息来确定回归损失函数的取值,并根据前文获得的预测位置信息和预测概率确定关联损失函数的取值。最后,将三个损失函数的取值相加,得到预定损失函数的取值。

本公开实施例在训练分类模型时,不仅根据预测概率来对分类模型进行训练,还根据采用分类模型获得的预测位置信息来对分类模型进行训练,可以实现对目标检测任务和目标分类任务的协同训练,从而可使得分类模型充分学习到第一对象的位置信息与目标对象属于预定类别的概率之间的潜在关系。因此,采用该实施例的方法训练得到的分类模型,可以提高对图像中目标对象进行分类的精度,并因此可以向用户提供更为精准的参考信息,便于提高该分类模型的使用范围。

图3是根据本公开实施例的分类模型的训练方法的原理示意图。

在一实施例中,前述第一对象例如可以为被第二对象所包围的对象。目标对象除了前述第一对象外,还包括该第二对象。如图3所示,该实施例300在获得训练样本时,可以先采用预定检测模型320检测包括目标对象的第一目标图像310,以检测得到针对第一目标图像310中第一对象的检测框和针对第二对象的第一检测框(即第二对象检测框330)。

在得到针对第二对象的第一检测框后,可以基于该第二对象检测框330裁剪第一目标图像310,获得针对目标对象的训练样本340。如此,在将训练样本340输入分类模型350来确定预测概率361和预测位置信息362时,由于输入的训练样本中仅描述了第一对象和第二对象,可以在一定程度上提高分类模型350确定的预测位置信息362的准确性。并因此可以提高基于预测概率361、预测位置信息362和损失函数370训练得到的分类模型的精度。再者,由于第二对象包围着第一对象,因此采用预定检测模型检测得到的第二对象检测框330的精度较高。

示例性地,预定检测模型还可以同时得到第一对象和第二对象的预测位置信息。该实施例可以将该预测位置信息和训练样本同时输入分类模型350中,以向该分类模型提供参考,提高分类模型提取训练样本的特征信息的准确性,并因此进一步提高确定的第一对象的预测位置信息的准确性。

示例性地,预定检测模型320可以基于目标检测算法构建。目标检测算法例如可以包括滑动窗口检测法、R-CNN算法、Fast R-CNN算法、Faster R-CNN算法等。或者,该预定检测模型也可以采用单次目标检测器,该单次目标检测器可以包括单发多检测框检测器(Single-Shot Multi-Box Detector,SSD)和单次查看检测器(You Only Look Once,YOLO)等。

示例性地,在目标对象属于预定类别的概率与第一对象和第二对象之间的尺寸比例相关时,该实施例在训练分类模型时,可以先根据预测位置信息和训练样本的尺寸信息,确定第一对象和第二对象之间的预测尺寸比例。随之基于该预测尺寸比例、预测概率和预定损失函数来训练分类模型。其中,训练样本的尺寸信息例如可以采用前文描述的预定检测模型获得。预测位置信息可以包括在基于训练样本构建的二维坐标系中,第一对象的起始位置坐标和两个维度的宽度等。该实施例可以先根据该预测位置信息确定第一对象的尺寸信息,从而确定第一对象与第二对象之间的预测尺寸比例。

示例性地,可以根据预测尺寸比例和预测概率确定前述关联损失函数的取值,从而确定预定损失函数的取值,以基于该预定损失函数的取值对分类模型进行训练。

示例性地,目标对象可以包括眼睛,相应地,第一对象可以包括视杯,第二对象可以包括视盘。如此,通过确定的视杯与视盘之间的预测尺寸比例来训练分类模型,可以使得训练得到的分类模型来检测眼睛是否患有青光眼,并确定眼睛患有青光眼的预测概率。

图4是根据本公开实施例的基于预测概率、预测位置信息和预定损失函数训练分类模型的原理示意图。

根据本公开的实施例,在目标对象属于预定类别的概率跟第一对象和第二对象的尺寸比例相关时,如图4所示,该实施例400中训练样本具有的标签410可以包括指示目标对象属于预定类别的实际概率411的第一标签和指示第一对象的实际位置信息412的第二标签。预定损失函数除了包括关联损失函数外,还可以包括分类损失函数和回归损失函数。若训练样本通过前文描述的裁剪第一目标图像而得到,则该实施例在基于预定损失函数和采用分类模型420获得的预测概率421、预测位置信息422来训练分类模型时,可以先基于训练样本的尺寸信息430和第一对象的预测位置信息422来确定第一对象和第二对象之间的预测尺寸比例442,并基于训练样本的尺寸信息和第一对象的实际位置信息412来确定第一对象和第二对象之间的实际尺寸比例441。

可以基于预测概率421和实际概率411,确定分类损失函数的取值450(简称为第一取值),基于预测尺寸比例442和实际尺寸比例441,确定回归损失函数的取值470(简称为第二取值),并基于预测概率和预测尺寸比例,确定关联损失函数的取值460(简称为第三取值)。随之,可以基于该第一取值、第二取值和第三取值,确定预定损失函数的取值480,并基于该取值训练分类模型420。

示例性地,训练样本具有的标签还可以包括指示第二物体的实际位置信息的第三标签,该实施例还可以根据该第二物体的实际位置信息和第一物体的实际位置信息来确定实际尺寸比例441。

示例性地,分类损失函数例如可以包括交叉熵损失函数、对数损失函数或平方损失函数等。以交叉熵损失函数为例,该分类损失函数可以表示为:

其中,

示例性地,回归损失函数例如可以包括平方损失函数、绝对值损失函数或Huber损失函数等。以Huber损失函数为例,该回归损失函数可以表示为:

其中,

其中,

示例性地,关联损失函数例如采用以下公式表示:

其中,

本公开实施例通过在考虑关联损失的同时,考虑分类损失和回归损失,可以提高确定的损失函数的取值的准确性,并因此便于提高训练得到的分类模型的精度。

根据本公开的实施例,在得到第一取值、第二取值和第三取值后,例如可以基于分别向第一取值、第二取值和第三取值分配的权重,确定预定损失函数的取值。随之根据该预定损失函数的取值来训练分类模型。其中,权重可以根据实际需求进行设定,如此可以使得分类模型的训练能够满足于不同场景的需求。此种情况下,预定损失函数可以采用如下公式来表示:

其中,向第一取值、第二取值和第三取值分配的权重,实际为向分类损失函数、关 联损失函数和回归损失函数分配的权重。在该实施例中,为分类损失函数、关联损失函数和 回归损失函数分配的权重分别为

图5是根据本公开实施例的分类模型的结构示意图。

如图5所示,该实施例的分类模型500可以包括特征提取层510、第一全连接层520和第二全连接层530。

其中,特征提取层510例如可以包括多个卷积层511~513,以用于对输入分类模型500的训练样本501提取特征。第一全连接层520例如可以包括两个卷积核,用于对特征提取层510所提取的特征进行处理,获得预测概率502,该预测概率502包括目标对象属于预定类别的概率和不属于预定类别的概率。第二全连接层530例如可以包括四个卷积核,用于对特征提取层510所提取的特征进行处理,获得第一对象的预测位置信息503,该预测位置信息的个数可以与第二全连接层中卷积核的个数相等。其中,第一全连接层520可以采用softmax等激活函数构建,第二全连接层530可以采用线性整流函数(Rectified LinearUnit,ReLU)等激活函数构建。

基于该分类模型500,前述采用分类模型获得目标对象属于预定类别的预测概率和第一对象的预测位置信息的操作可以先以训练样本作为特征提取层510的输入,获得训练样本的特征信息。随之以特征信息作为第一全连接层520的输入,获得目标对象属于预定类别的预测概率502。同时以特征信息作为第二全连接层530的输入,获得第一对象的预测位置信息503。

基于该分类模型500,本公开实施例可以实现对分类任务和检测任务的协同训练。从而可以使得训练得到的分类模型适用于检测结果影响分类结果的应用场景,并可以提高该应用场景下分类结果的精度。

根据本公开的实施例,在目标对象为眼睛,第一对象为视杯,第二对象为视盘时,基于以下几个假设,本公开提供的分类模型的训练方法所训练的分类模型可以用于预测眼睛患有青光眼的概率。

假设一:视杯与视盘的面积比与青光眼风险概率呈强相关性。

假设二:视杯与视盘的轮廓接近椭圆。

假设三:视盘的检测相对视杯的检测简单,通过主流的检测算法可以准确获得视盘的外接矩形框。

其中,假设一在医学领域相对认可。根据对视杯与视盘的检测经验可以确定假设二是成立的,因此可以利用目标检测算法获得视杯与视盘的外接矩形,并根据外接矩形的尺寸来获得视杯与视盘的面积比的近似值。由于视盘的形状轮廓比较明显,因此假设三成立。在该场景下,通过前述关联损失函数的设定,可以使得视杯与视盘之间的面积比与青光眼阳性的概率同向变化。采用分类模型获得的预测概率为青光眼阳性的概率。在该场景下,可以构建数据集,该数据集中包括多个样本,每个样本具有青光眼是否为阳性的标签及指示视杯的实际位置信息的标签。可以将该数据集以一定比例(例如4:1的比例)来划分为训练集和测试集。该数据集中各数据分布可以如下表所示。

在该场景下,分类模型例如可以将ResNet34模型作为基础模型,设定前文描述的 权重

其中,AUC(Area under the ROC curve)为ROC曲线下的面积。ROC曲线的横坐标为假阳率,纵坐标为真阳率。基于该预测性能对比结果可知,相对于单独利用端对端的分类模型相比,本公开提供的分类模型的训练方法可以在一定程度上提升预测青光眼阳性的精度。

基于上文描述的分类模型的训练方法,本公开还提供了一种对目标对象进行分类的方法。以下将结合图6对该方法进行详细描述。

图6是根据本公开实施例的对目标对象进行分类的方法的流程示意图。

如图6所示,该实施例的对目标对象进行分类的方法600可以包括操作S610~操作S640。

在操作S610,基于针对目标对象的待处理图像,采用分类模型获得目标对象属于预定类别的预测概率。

根据本公开的实施例,目标对象包括第一对象。可以将待处理图像作为分类模型的输入,经由分类模型处理后获得目标对象属于预定类别的预测概率。该预定类别、目标对象和第一对象与前文描述的类似,分类模型是采用前文描述的分类模型的训练方法训练得到的。

示例性地,可以去除采用前文描述的训练方法所得到的分类模型中,确定第一对象的预测位置信息的第二全连接层,得到对待处理图像进行处理的分类模型。

根据本公开的实施例,在目标对象还包括包围第一对象的第二对象时,该实施例在执行操作S610之前,可以先基于以下操作获得待处理图像:先采用预定检测模型检测包括目标对象的第二目标图像,获得针对第二目标图像中第二对象的第二检测框;随之基于第二检测框裁剪第二目标图像,获得针对目标对象的待处理图像。其中,第二对象、预定检测模型与前文描述的类似,在此不再赘述。

在操作S620,判断操作S610获得的概率是否大于概率阈值。该概率阈值可以根据实际需求进行设定,本公开对此不做限定。例如,可以设定该概率阈值为0.5等。若大于概率阈值,则执行操作S630,否则执行操作S640。

在操作S630,确定目标对象的类别是预定类别。

在操作S640,确定目标对象的类别不是预定类别。

根据本公开的实施例,在分类模型用于预测眼睛患有青光眼的概率的场景下,通过该实施例的对目标对象进行分类的方法,可以确定眼睛是否患有青光眼,预定类别即为青光眼类别。

基于本公开提供的分类模型的训练方法,本公开还提供了一种分类模型的训练装置。以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的分类模型的训练装置的结构框图。

如图7所示,该实施例的分类模型的训练装置700可以包括信息获得模块710和模型训练模块720。

信息获得模块710用于基于针对目标对象的训练样本,采用分类模型获得目标对象属于预定类别的预测概率和目标对象包括的第一对象的预测位置信息。在一实施例中,信息获得模块710可以用于执行前文描述的操作S210,在此不再赘述。

模型训练模块720用于基于预测概率、预测位置信息和预定损失函数,训练分类模型。其中,预定损失函数包括关联损失函数,该关联损失函数表征预测概率与预测位置信息之间的关联关系。在一实施例中,模型训练模块720可以用于执行前文描述的操作S220,在此不再赘述。

根据本公开的实施例,目标对象还包括包围第一对象的第二对象。上述分类模型的训练装置700还包括训练样本获得模块,用于获得针对目标对象的训练样本。该训练样本获得模块包括检测框获得子模块和样本获得子模块。检测框获得子模块用于采用预定检测模型检测包括目标对象的第一目标图像,获得针对第一目标图像中第二对象的第一检测框。样本获得子模块用于基于第一检测框裁剪第一目标图像,获得针对目标对象的训练样本。

根据本公开的实施例,模型训练模块包括比例确定子模块和训练子模块。比例确定子模块用于基于预测位置信息和训练样本的尺寸信息,确定第一对象和第二对象之间的预测尺寸比例。训练子模块用于基于预测尺寸比例、预测概率和预定损失函数,训练分类模型。

根据本公开的实施例,训练样本具有指示目标对象属于预定类别的实际概率的第一标签,以及指示第一对象的实际位置信息的第二标签。预定损失函数还包括分类损失函数和回归损失函数。上述训练子模块包括第一取值确定单元、第二取值确定单元、第三取值确定单元和训练单元。第一取值确定单元用于基于预测概率和实际概率,确定分类损失函数的第一取值。第二取值确定单元用于基于预测尺寸比例和实际尺寸比例,确定回归损失函数的第二取值。第三取值确定单元用于基于预测概率和预测尺寸比例,确定关联损失函数的第三取值。训练单元用于基于第一取值、第二取值和第三取值,训练分类模型。其中,实际尺寸比例由比例确定子模块基于实际位置信息和训练样本的尺寸信息确定的。

根据本公开的实施例,关联损失函数采用以下公式表示:

其中,

根据本公开的实施例,训练单元包括取值确定子单元和训练子单元。取值确定子单元用于基于分别向第一取值、第二取值和第三取值分配的权重,确定预定损失函数的取值。训练子单元用于基于预定损失函数的取值,训练分类模型。

根据本公开的实施例,分类模型包括特征提取层、第一全连接层和第二全连接层。信息获得模块具体用于:以训练样本作为特征提取层的输入,获得训练样本的特征信息;以特征信息作为第一全连接层的输入,获得目标对象属于预定类别的预测概率;以及以特征信息作为第二全连接层的输入,获得第一对象的预测位置信息。

根据本公开的实施例,目标对象包括眼睛,第一对象包括视杯,第二对象包括视盘。

基于本公开提供的对目标对象进行分类的方法,本公开还提供了一种对目标对象进行分类的装置。以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的对目标对象进行分类的装置的结构框图。

如图8所示,该实施例的对目标对象进行分类的装置800可以包括概率获得模块810和类别确定模块820。

概率获得模块810用于基于针对目标对象的待处理图像,采用分类模型获得目标对象属于预定类别的概率,该目标对象包括第一对象。其中,分类模型可以采用前文描述的分类模型的训练装置训练得到。在一实施例中,概率获得模块810可以用于执行前文描述的操作S610,在此不再赘述。

类别确定模块820用于根据概率,确定目标对象的类别是否为预定类别。在一实施例中,类别确定模块820可以用于执行前文描述的操作S620~操作S640,在此不再赘述。

根据本公开的实施例,目标对象还包括包围第一对象的第二对象。上述对目标对象进行分类的装置800还包括检测框获得模块和图像获得模块。检测框获得模块用于采用预定检测模型检测包括目标对象的第二目标图像,获得针对第二目标图像中第二对象的第二检测框。图像获得模块用于基于第二检测框裁剪第二目标图像,获得针对目标对象的待处理图像。

需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的分类模型的训练方法和/或对目标对象进行分类的方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如分类模型的训练方法和/或对目标对象进行分类的方法。例如,在一些实施例中,分类模型的训练方法和/或对目标对象进行分类的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的分类模型的训练方法和/或对目标对象进行分类的方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行分类模型的训练方法和/或对目标对象进行分类的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称 "VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号