首页> 中国专利> 基于注释信息的分类

基于注释信息的分类

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了用于基于注释信息进行分类的系统和技术。在一个示例中，系统基于训练数据和多个图像来训练卷积神经网络。多个图像与多个掩模、多个图像级标签和/或边界框相关联。该系统还基于多个掩模生成第一损失函数，基于多个图像级标签生成第二损失函数，并且基于边界框生成第三损失函数。此外，系统基于第一损失函数、第二损失函数和第三损失函数生成第四损失函数，其中第四损失函数被迭代地反向传播以调谐卷积神经网络的参数。该系统还基于卷积神经网络预测输入图像的分类标签。

著录项

公开/公告号CN112262395A

专利类型发明专利
公开/公告日2021-01-22

原文格式PDF
申请/专利权人通用电气公司;
展开▼

申请/专利号CN201980038768.9
发明设计人赵茜;张敏;戈帕尔·阿维纳什;
展开▼

申请日2019-06-28
分类号G06K9/62(20060101);G06N3/08(20060101);
代理机构11205 北京同立钧成知识产权代理有限公司;
代理人杨贝贝;臧建明
地址美国纽约州
入库时间 2023-06-19 09:36:59

说明书

技术领域

本公开整体涉及人工智能。

背景技术

人工智能(AI)可以用于数字图像的分类和/或分析。例如，AI可以用于图像识别。在某些技术应用中，AI可以用于增强成像分析。在一个示例中，可以采用基于感兴趣区域的深度神经网络来定位数字图像中的特征。然而，使用常规人工技术通常难以实现数字图像的分类和/或分析的准确性和/或效率。此外，用于数字图像分类和/或分析的常规人工技术通常需要劳动密集型过程，诸如像素注释、体素水平注释等。因此，可以改进用于数字图像分类和/或分析的常规人工技术。

发明内容

以下内容提出了本说明书的简化发明内容以便提供对本说明书的某些方面的基本理解。该发明内容不是对本说明书的详尽概述。它既不旨在标识本说明书的关键或重要元素，也不旨在描述本说明书的特定具体实施的任何范围或权利要求的任何范围。其唯一目的是以简化形式呈现本说明书的一些概念，作为稍后呈现的更详细描述的序言。

根据一个实施方案，系统包括训练组件、第一损失函数组件、第二损失函数组件、第三损失函数组件、第四损失函数组件和分类组件。训练组件基于训练数据和多个图像训练卷积神经网络。训练数据与来自至少一个成像设备的多个患者相关联。多个图像与来自多个对象的多个掩模、多个图像的多个图像级标签和/或将感兴趣区域链接到类标签的边界框相关联。第一损失函数组件基于多个掩模生成第一损失函数。第二损失函数组件基于多个图像的多个图像级标签来生成第二损失函数。第三损失函数组件基于将感兴趣区域链接到类标签的边界框来生成第三损失函数。第四损失函数组件基于第一损失函数、第二损失函数和第三损失函数来生成第四损失函数，其中第四损失函数被迭代地反向传播以调谐卷积神经网络的参数。分类组件基于卷积神经网络预测输入图像的分类标签。

根据另一个实施方案，提供了一种方法。该方法包括从至少一个成像设备接收与多个患者相关联的多个图像。该方法还包括从多个对象接收多个掩模，其中每个图像包括将感兴趣对象与对应的类标签相关联的至少一个掩模、用于图像的至少一个图像级标签和/或将感兴趣对象链接到对应类标签的边界框。此外，该方法包括基于多个图像、多个掩模、边界框和/或至少一个图像级标签来训练卷积神经网络，其中该卷积神经网络包括输出卷积特征图的预训练的分类器网络和输出对应定位图的分类/定位网络。该方法还包括基于多个掩模生成第一损失函数。该方法还包括基于图像的至少一个图像级标签来生成第二损失函数。该方法还包括基于将感兴趣对象链接到对应类标签的边界框来生成第三损失函数。该方法还包括基于第一损失函数、第二损失函数和第三损失函数来生成第四损失函数。另外，该方法包括迭代地反向传播第四损失函数以调谐卷积神经网络的参数。该方法还包括基于卷积神经网络预测输入图像的分类标签。

根据又一个实施方案，提供了一种计算机可读存储设备。该计算机可读存储设备包括指令，该指令响应于执行而使得包括处理器的系统执行操作，该操作包括从至少一个成像设备接收与多个患者相关联的多个图像。该处理器还执行操作，该操作包括从多个对象接收多个掩模，其中每个图像包括将感兴趣对象与对应类标签相关联的至少一个掩模、用于图像的至少一个图像级标签和/或将感兴趣对象链接到对应类标签的边界框。处理器还执行操作，该操作包括基于多个图像、多个掩模、边界框和/或至少一个图像级标签来训练卷积神经网络，其中该卷积神经网络包括输出卷积特征图的预训练的分类器网络和输出对应定位图的分类/定位网络。此外，处理器执行操作，该操作包括基于多个掩模生成第一损失函数。此外，处理器执行操作，该操作包括基于图像的至少一个图像级标签来生成第二损失函数。此外，处理器执行操作，该操作包括基于将感兴趣对象链接到对应类标签的边界框来生成第三损失函数。此外，处理器执行操作，该操作包括基于第一损失函数、第二损失函数和第三损失函数来生成第四损失函数。处理器还执行操作，该操作包括迭代地反向传播第四损失函数以调谐卷积神经网络的参数。处理器还执行操作，该操作包括基于卷积神经网络预测输入图像的分类标签。

以下具体实施方式和附图阐述了本说明书的某些例示性方面。然而，这些方面仅指示了可以采用本说明书原理的各种方式中的一些方式。当结合附图考虑时，根据以下对说明书的详细描述，本说明书的其他优点和新颖特征将变得显而易见。

附图说明

结合附图考虑以下具体实施方式，本发明的许多方面、具体实施、目标和优点将变得显而易见，在整个附图中，相同的附图标记表示相同的部件，并且其中：

图1示出了根据本文描述的各个方面和具体实施的示例性机器学习组件的高级框图；

图2示出了根据本文描述的各个方面和具体实施的另一个示例性机器学习组件的高级框图；

图3示出了根据本文描述的各个方面和具体实施的系统，该系统包括示例性机器学习组件和示例性医学成像诊断过程；

图4示出了根据本文描述的各个方面和具体实施的与分割-分类网络相关联的另一示例性系统；

图5示出了根据本文描述的各个方面和具体实施的与实现损失函数的分割-分类网络相关联的另一示例性系统；

图6示出了根据本文描述的各个方面和具体实施的示例性损失函数；

图7示出了根据本文描述的各个方面和具体实施的采用掩模、边界框和/或标签来生成损失函数的示例性系统；

图8示出了根据本文描述的各个方面和具体实施的另一示例性多维可视化；

图9描绘了根据本文描述的各个方面和具体实施的用于基于注释信息来分类和/或定位的另一示例性方法的流程图；

图10是示出合适操作环境的示意性框图；并且

图11是样本计算环境的示意性框图。

具体实施方式

现在参考附图来描述本公开的各个方面，其中相同的附图标号始终用于表示相同的元件。在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对一个或多个方面的透彻理解。然而，应当理解，可以在没有这些具体细节的情况下，或者在有其他方法、部件、材料等的情况下实践本公开的某些方面。在其他实例中，以框图形式示出了公知的结构和设备以有助于描述一个或多个方面。

本发明提供了基于注释信息提供分类和/或定位的系统和技术。例如，本文公开了一种新型端到端深度学习框架，以例如在给定的与感兴趣区域有关的掩模注释的情况下自动检测和/或定位医学图像中的疾病。分类和定位网络可以是完全卷积神经网络，并且可在推断期间输出图像级标签和定位图。因此，与仅使用图像级标签的常规分类相比，使用掩模信息时的分类和/或定位准确率可得到改善。在一个实施方案中，可采用与图像的一个或多个感兴趣区域有关的一个或多个图像级标签、边界框和/或掩模，例如以改善分类器的性能。例如，来自掩模注释、真实弱标签(例如，图像级标签)和/或边界框的加权损失可以通过深度学习框架反向传播，以例如反向传播分类损失和/或分割损失，并且还改善定位结果。此外，通过采用本文所述的新颖的端到端深度学习框架，可改善与图像数据相关联的一个或多个特征的检测和/或定位(例如，与医学成像数据相关联的患者的一个或多个状况的检测和/或定位)。此外，可以改善图像数据(例如，医学成像数据)的分类和/或分析的准确性和/或效率。另外，可以改善用于图像数据(例如，医学成像数据)的分类和/或分析的机器学习模型的有效性，可以改善执行用于图像数据(例如，医学成像数据)的分类和/或分析的机器学习模型的一个或多个处理器的性能，和/或可以改善执行用于图像数据(例如，医学成像数据)的分类和/或分析的机器学习模型的一个或多个处理器的效率。

首先参见图1，示出了根据本主题公开的一个方面的用于基于注释信息来分类和/或定位的示例性系统100。系统100可以由各种系统采用，诸如但不限于，医疗设备系统、医学成像系统、医学诊断系统、医学系统、医学建模系统、企业成像解决方案系统、高级诊断工具系统、模拟系统、图像管理平台系统、护理实施管理系统、人工智能系统、机器学习系统、神经网络系统、建模系统、航空系统、动力系统、分布式动力系统、能量管理系统、热管理系统、运输系统、石油和天然气系统、机械系统、机器系统、设备系统、基于云的系统、加热系统、HVAC系统、医疗系统、汽车系统、飞机系统、水运工具系统、水过滤系统、冷却系统、泵系统、发动机系统、预测系统、机器设计系统等。在一个示例中，系统100可以与分类系统相关联以促进医学成像数据的可视化和/或解释。此外，系统100和/或系统100的部件可以用于使用硬件和/或软件来解决本质上是高度技术性的问题(例如，与处理数字数据相关、与处理医学成像数据相关、与医学建模相关、与医学成像相关、与人工智能相关等)，这些问题不是抽象的并且不能作为一系列精神行为由人类执行。

系统100可包括机器学习组件102，该机器学习组件可包括训练组件104、损失函数组件106和分类组件108。在一个实施方案中，损失函数组件106可包括第一损失函数组件109、第二损失函数组件111、第三损失函数组件113和第四损失函数组件115。本公开中解释的系统、装置或过程的各方面可以构成在机器内体现(例如，在与一个或多个机器相关联的一个或多个计算机可读介质中体现)的机器可执行组件。当由一个或多个机器(例如，计算机、计算设备、虚拟机等)执行时，这类部件可以使机器执行所述操作。系统100(例如，机器学习组件102)可以包括用于存储计算机可执行组件和指令的存储器112。系统100(例如，机器学习组件102)还可以包括处理器110以促进系统100(例如，机器学习组件102)对指令(例如，计算机可执行组件和指令)的操作。

机器学习组件102(例如，训练组件104)可接收医学成像数据(例如，图1所示的医学成像数据)。医学成像数据可与多个患者相关联。此外，医学成像数据可以是一组图像(例如，一组医学图像)。医学成像数据可以是由一个或多个医学成像设备生成的二维医学成像数据和/或三维医学成像数据。例如，医学成像数据可以是经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的电磁辐射图像。在某些实施方案中，医学成像数据可以是在时间间隔期间经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的一系列电磁辐射图像。可以直接从一个或多个医学成像设备接收医学成像数据。可替代地，医学成像数据可以存储在一个或多个数据库中，该一个或多个数据库接收和/或存储与一个或多个医学成像设备相关联的医学成像数据。医学成像设备可以是例如x射线设备、计算机断层扫描(CT)设备、另一种类型的医学成像设备等。除此之外或另选地，机器学习组件102(例如，训练组件104)可接收标签数据(例如，图1所示的标签数据)。例如，医学成像数据可与标签数据相关联，该标签数据包括用于多个图像的多个图像级标签。标签数据中包括的多个图像级标签可以是例如多个图像的多个真实弱标签。除此之外或另选地，机器学习组件102(例如，训练组件104)可接收边界框数据(例如，图1所示的边界框数据)。例如，医学成像数据可以与边界框数据相关联，该边界框数据包括将图像中的一个或多个感兴趣区域链接到类标签的一个或多个边界框。包括在边界框数据中的边界框可识别对象在图像中位于何处和/或可将与对象相关联的感兴趣区域链接到类标签。边界框数据中包括的边界框可包括例如为感兴趣区域提供位置(例如，区域)的一组坐标(例如，左上角坐标、右上角坐标、左下角坐标、右下角坐标等)。此外，包括在边界框数据中的边界框可除此之外或另选地包括与感兴趣区域相关联的位置(例如，区域)的高度值和/或宽度值。除此之外或另选地，机器学习组件102(例如，训练组件104)可接收掩模数据(例如，图1所示的掩模数据)。在一个实施方案中，掩模数据可以是来自多个对象的一组掩模。例如，来自医学成像数据的每个医学图像可与一个或多个掩模相关联。例如，掩模可包括图像中(例如，医学成像数据中)的一个或多个感兴趣区域的一个或多个权重。在一个示例中，掩模可包括使用二进制滤波来限定感兴趣区域的位置的一组像素。在一个实施方案中，医学成像数据和/或掩模数据可用作训练数据，以例如训练卷积神经网络。在某些实施方案中，医学成像数据和/或掩模数据可存储在接收和/或存储与至少一个成像设备相关联的训练数据的数据库中。在某些实施方案中，医学成像数据可与来自预训练的模型的一组权重相关联。

在一个实施方案中，训练组件104可基于医学成像数据(例如，多个图像)和/或掩模数据来训练卷积神经网络。例如，训练组件104可执行机器学习过程的训练阶段，以例如训练卷积神经网络的神经网络模型。卷积神经网络可包括解码器，该解码器由至少一个上采样层和/或至少一个卷积层组成。另外，在某些实施方案中，卷积神经网络可包括输出卷积特征图的预训练的分类器网络。除此之外或另选地，在某些实施方案中，卷积神经网络可包括输出对应定位图的分类/定位网络。在某些实施方案中，卷积神经网络可以是卷积层的弹簧网络。例如，卷积神经网络可对与卷积神经网络的卷积层相关联的医学成像数据执行多个顺序和/或并行的下采样和上采样。在一个示例中，卷积神经网络可执行与医学成像数据的顺序下采样相关联的第一卷积层处理，以及与医学成像数据的顺序上采样相关联的第二卷积层处理。卷积层的弹簧网络可以包括与顺序下采样相关联的第一卷积层处理和与顺序上采样相关联的第二卷积层处理。与卷积神经网络相关联的卷积层的弹簧网络可以更改卷积层滤波器，类似于弹簧的功能。例如，卷积神经网络可基于包括第一尺寸的第一卷积层滤波器、包括与第一尺寸不同的第二尺寸的第二卷积层滤波器、以及包括与第一卷积层滤波器相关联的第一尺寸的第三卷积层滤波器来分析医学成像数据。在某些实施方案中，训练组件104可基于医学成像数据和/或掩模数据(例如，训练数据)来训练卷积神经网络，以确定医学成像数据中是否存在第一类。除此之外或另选地，训练组件104可基于医学成像数据和/或掩模数据(例如，训练数据)来训练卷积神经网络，以形成与神经网络架构相关联的卷积神经网络的至少一部分。神经网络架构可以是例如执行与医学成像数据的一个或多个二进制分类相关联的机器学习的二进制神经网络架构。

损失函数组件106可基于与医学成像数据、多个图像级标签和/或一个或多个边界框相关联的多个掩模来生成损失函数。损失函数可以是例如卷积神经网络的损失函数。在某些实施方案中，损失函数组件106可采用解码器来生成定位图。例如，损失函数组件106可执行与上采样和/或一个或多个卷积神经网络层相关联的解码过程以生成定位图。定位图可包括例如表示医学成像数据的一个或多个区域的概率评分的信息。在一个实施方案中，定位图可包括表示医学成像数据的一个或多个区域的概率评分的可视化。在某些实施方案中，解码器可以是一组解码器。在一个方面，解码器可以是执行与上采样和/或一个或多个卷积神经网络层相关联的不同解码过程的一组解码器。例如，解码器可包括执行与上采样和/或一个或多个卷积神经网络层相关联的第一解码过程的第一解码器，执行与上采样和/或一个或多个卷积神经网络层相关联的第二解码过程的第二解码器，执行与上采样和/或一个或多个卷积神经网络层相关联的第三解码过程的第三解码器等。在另一方面，可在卷积神经网络的训练期间确定包括在该组解码器中的解码器的数量。

第一损失函数组件109可基于与医学成像数据相关联的多个掩模生成第一损失函数。例如，第一损失函数组件109可基于与多个掩模相关联的类别的概率来生成第一损失函数。在一个示例中，第一损失函数组件109可基于与来自卷积神经网络和多个掩模的分类输出相关联的概率生成第一损失函数。第二损失函数组件111可基于与医学成像数据(例如，多个图像)相关联的多个图像级标签来生成第二损失函数。例如，第二损失函数组件111可基于与多个图像级标签相关联的类别的概率来生成第二损失函数。在一个示例中，第二损失函数组件111可基于与来自卷积神经网络的分类输出和多个图像级标签相关联的概率来生成第二损失函数。第三损失函数组件113可基于一个或多个边界框生成第三损失函数。一个或多个边界框可将一个或多个感兴趣区域链接到一个或多个类标签。在一个示例中，第三损失函数组件113可基于将图像中的感兴趣区域链接到类标签的边界框来生成第三损失函数。第四损失函数组件115可基于第一损失函数、第二损失函数和/或第三损失函数来生成第四损失函数。例如，第四损失函数组件115可将第一权重应用于第一损失函数，可将第二权重应用于第二损失函数，和/或可将第三权重应用于第三损失函数。另外，第四损失函数组件115可组合第一损失函数、第二损失函数和/或第三损失函数(例如，第四损失函数组件115可将第一损失函数、第二损失函数和/或第三损失函数相加)。在一个示例中，第二权重可不同于第一权重和/或第三权重。在另一个示例中，第二权重可对应于第一权重和/或第三权重。在一个方面，第四损失函数可迭代地反向传播以调谐卷积神经网络的一个或多个参数。例如，可基于第四损失函数来修改卷积神经网络以改善来自卷积神经网络的分类输出。在某些实施方案中，机器学习组件102(例如，损失函数组件106)可生成包括由损失函数组件106生成的第一损失函数、第二损失函数、第三损失函数和/或第四损失函数的损失函数数据。例如，损失函数数据可包括与多个掩模相关联的第一损失函数、与多个图像级标签相关联的第二损失函数、与边界框相关联的第三损失函数和/或可用于调谐卷积神经网络的一个或多个参数的第四损失函数。

分类组件108可基于卷积神经网络预测输入图像的分类标签。在一个实施方案中，分类组件108可生成可包括输入图像的分类标签的分类数据(例如，图1所示的分类数据)。除此之外或另选地，分类组件108可生成可包括输入图像的定位图的定位数据(例如，图1所示的定位数据)。输入图像的定位图可包括例如表示输入图像的一个或多个区域的概率评分的信息。在一个实施方案中，输入图像的定位图可包括表示输入图像的一个或多个区域的概率评分的可视化。除此之外或另选地，分类组件108可生成预测的边界框数据(例如，图1所示的预测的边界框数据)。预测的边界框数据可以是输入图像的边界框，其将输入图像中的一个或多个感兴趣区域链接到与输入图像相关联的一个或多个类标签。在一个方面，输入图像的预测的边界框可以为输入图像中的感兴趣区域提供位置。除此之外或另选地，分类组件108可生成预测掩模数据(例如，图1所示的预测掩模数据)。预测掩模数据可包括用于输入图像的一组掩模。例如，预测掩模数据可包括输入图像中的一个或多个感兴趣区域的一个或多个权重。在一个示例中，预测掩模数据可包括一组像素，该组像素使用例如二进制滤波来限定输入图像中的一个或多个感兴趣区域的位置。分类组件108采用的卷积神经网络可以是基于第四损失函数来调谐的卷积神经的型式。输入图像可以是例如医学图像。输入图像可以是由一个或多个医学成像设备生成的二维图像(例如，二维医学图像)和/或三维图像(例如，三维医学图像)。例如，输入图像可以是由x射线设备、CT设备、另一种类型的医学成像设备等生成的二维图像(例如，二维医学图像)和/或三维图像(例如，三维医学图像)。在一个示例中，输入图像可以是经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的电磁辐射图像。在某些实施方案中，输入图像可以是在时间间隔期间经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的一系列电磁辐射图像。可以直接从一个或多个医学成像设备接收输入图像。另选地，输入图像可存储在一个或多个数据库中，该一个或多个数据库接收和/或存储与一个或多个医学成像设备相关联的输入图像。在一个方面，卷积神经网络可包括基于卷积特征图输出对应定位图的分类/定位网络。在另一方面，来自一个或多个边界框的边界框的尺寸可与来自卷积特征图的卷积特征图的尺寸匹配。在另一方面，该多个掩模中的掩模的尺寸可与卷积特征图中的卷积特征图的尺寸匹配。除此之外或另选地，基于掩模池化过程，多个掩模中的掩模的尺寸可与来自卷积特征图的卷积特征图的尺寸匹配。

在某些实施方案中，分类组件108可基于卷积神经网络(例如，基于第四损失函数调谐的卷积神经的型式)从输入图像提取指示相关性、推理和/或表达的信息。分类组件108可基于与卷积神经网络相关联的至少一个机器学习模型(例如，基于第四损失函数调谐的卷积神经的型式)的执行来生成经学习的成像输出。在一个方面，分类组件108可生成经学习的成像输出。由分类组件108生成的经学习的成像输出可包括例如与输入图像相关联的学习、相关性、推理和/或表达。在一个方面，分类组件108可使用卷积神经网络(例如，基于第四损失函数调谐的卷积神经的型式)显式或隐式地相对于输入图像执行学习。分类组件108还可采用自动分类系统和/或自动分类过程以便于分析输入图像。例如，分类组件108可采用基于概率和/或统计的分析(例如，考虑到分析效用和成本)来学习和/或生成相对于输入图像的推理。分类组件108可采用例如支持向量机(SVM)分类器来学习和/或生成对成像数据的推理。除此之外或另选地，分类组件108可采用与贝叶斯网络、决策树和/或概率分类模型相关联的其他分类技术。由分类组件108采用的分类器可被显式地训练(例如，经由通用训练数据)以及被隐式地训练(例如，经由接收外部信息)。例如，相对于SVM，可以经由分类器构造器和特征选择模块内的学习或训练阶段来配置SVM。分类器可以是将输入属性向量x＝(x1,x2,x3,x4,xn)映射到输入属于一个类别的置信度的函数—即f(x)＝置信度(类别)。

应当认识到，机器学习组件102的技术特征本质上是高度技术性的并且不是抽象思想。处理和/或分析医学成像数据、确定异常医学成像数据等的机器学习组件102的处理线程不能由人类执行(例如，该处理线程超过单个人类的心智能力)。例如，由机器学习组件102在特定时间段内处理的医学成像数据的量、对医学成像数据的处理速度和/或处理的医学成像数据的数据类型与单人心智在相同时间段内可处理的量、速度和数据类型相比可以分别更大、更快和不同。此外，由机器学习组件102处理的医学成像数据可以是由医学成像设备的传感器生成的一个或多个医学图像。此外，机器学习组件102可以对于执行一个或多个其他功能完全操作(例如，完全通电、完全执行等)，同时还处理医学成像数据。

现在参考图2，示出了根据本公开的各个方面和具体实施的系统200的非限制性具体实施。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。

系统200包括机器学习组件102。机器学习组件102可包括训练组件104、损失函数组件106、分类组件108、可视化组件202、处理器110和/或存储器112。在一个实施方案中，损失函数组件106可包括第一损失函数组件109、第二损失函数组件111、第三损失函数组件113和/或第四损失函数组件115。可视化组件202可生成与由分类组件108分类的输入图像的分类标签相关联的多维可视化。除此之外或另选地，可视化组件202可生成与由分类组件108分类的输入图像的定位信息相关联的多维可视化。例如，可视化组件202可生成输入图像的分类标签和/或输入图像的定位信息的人类可解释的可视化。除此之外或另选地，可视化组件202可生成输入图像和/或医学成像数据的人类可解释的可视化。在一个实施方案中，可视化组件202可基于与输入图像相关联的解剖区域的一部分的分类和/或定位来生成深度学习数据。深度学习数据可以包括例如位于输入图像中的一种或多种疾病的分类和/或位置。在某些实施方案中，深度学习数据可以包括指示位于输入图像中的一种或多种疾病的概率的概率数据。概率数据可以是例如位于输入图像中的一种或多种疾病的数据值的概率阵列。除此之外或另选地，可视化组件202可生成与和输入图像相关联的解剖区域的一部分的分类和/或定位相关联的多维可视化。

多维可视化可以是输入图像的图形表示，其示出一种或多种疾病的分类和/或相对于患者身体的位置。可视化组件202还可生成由医学成像诊断过程提供的诊断的多维可视化的显示。例如，可视化组件202可以在与用户设备的显示器相关联的用户界面上呈现解剖区域的一部分的2D可视化，用户设备诸如但不限于计算设备、计算机、台式计算机、膝上型计算机、监视器设备、智能设备、智能电话、移动设备、手持式设备、平板电脑、便携式计算设备、或与显示器相关联的另一种类型的用户设备。在一个方面，多维可视化可以包括深度学习数据。在另一个方面，深度学习数据也可以作为一个或多个动态视觉元素呈现在3D模型上。在一个实施方案中，可视化组件202可以基于解剖区域的部分的分类和/或定位来改变与多维可视化相关联的深度学习数据的至少一部分的视觉特性(例如，颜色、尺寸、色调、阴影等)。例如，基于深度学习和/或医学成像诊断的结果，解剖区域的部分的分类和/或定位可以被呈现为不同视觉特性(例如，颜色、尺寸、色调或阴影等)。在另一个方面，可视化组件202可以允许用户相对于与多维可视化相关联的深度学习数据来进行放大或缩小。例如，可视化组件202可允许用户相对于在患者身体的解剖区域中识别的一种或多种疾病的分类和/或位置来进行放大或缩小。这样，用户可以查看、分析与输入图像的多维可视化相关联的深度学习数据和/或与其进行交互。

现在参考图3，示出了根据本公开的各个方面和具体实施的系统300的非限制性具体实施。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。

系统300包括机器学习组件102和医学成像诊断过程302。机器学习组件102可以向医学成像诊断过程302提供分类数据和/或定位数据。分类数据和/或定位数据可以包括与输入图像相关联的一个或多个分类和/或定位信息。在一个方面，分类数据和/或定位数据可以由分类组件108生成。除此之外或另选地，在某些实施方案中，机器学习组件102可以向医学成像诊断过程302提供预测的边界框数据和/或预测掩模数据。在一个方面，医学成像诊断过程302可执行深度学习以便于与输入图像和/或医学成像数据相关联的一种或多种疾病的分类和/或定位。在另一个方面，医学成像诊断过程302可基于接收输入图像和/或医学成像数据的卷积神经网络来执行深度学习。由医学成像诊断过程302分类和/或定位的疾病可以包括例如肺部疾病、心脏疾病、组织疾病、骨骼疾病、肿瘤、癌症、肺结核、心脏肥大、肺部充气不足、肺部浑浊、高血压、脊柱退行性疾病、钙质沉着、或与患者身体的解剖区域相关联的其他类型的疾病。在一个方面，医学成像诊断过程302可以确定与输入图像和/或医学成像数据相关联的疾病的预测。例如，医学成像诊断过程302可以确定与输入图像和/或医学成像数据相关联的疾病的概率评分(例如，表示疾病的阴性预后可能性的第一百分比值以及表示疾病的阳性预后可能性的第二值)。

现在参考图4，示出了根据本公开的各个方面和具体实施的系统400的非限制性具体实施。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。

系统400可以是分类-定位网络。在一个实施方案中，系统400可表示由机器学习组件102(例如，训练组件104、损失函数组件106、分类组件108和/或可视化组件202)执行的机器学习过程和/或另一个过程。图像402(例如，输入图像)可由卷积神经网络404处理。图像402可为例如医学图像。例如，图像402可以是由一个或多个医学成像设备生成的二维图像(例如，二维医学图像)和/或三维图像(例如，三维医学图像)。在一个示例中，图像402可以是由x射线设备、CT设备、另一种类型的医学成像设备等生成的二维图像(例如，二维医学图像)和/或三维图像(例如，三维医学图像)。在另一个示例中，图像402可以是经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的电磁辐射图像。在某些实施方案中，图像402可以是在时间间隔期间经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的一系列电磁辐射图像。可以直接从一个或多个医学成像设备接收图像402。另选地，图像402可以存储在一个或多个数据库中，该一个或多个数据库接收和/或存储与一个或多个医学成像设备相关联的图像402。在一个实施方案中，图像402可以是由机器学习组件102分析的输入图像(例如，由分类组件108分类的输入图像)。

卷积神经网络404可输出卷积特征图406，该卷积特征图可由创建评分图410的卷积神经网络408(例如，分类和定位网络)采用。在一个方面，卷积神经网络404可将图像402编码成卷积特征图406。在一个实施方案中，卷积神经网络404可以是卷积层的弹簧网络。例如，卷积神经网络可对与卷积神经网络404的卷积层相关联的图像402执行多个顺序和/或并行下采样和上采样以生成卷积特征图406。在一个示例中，卷积神经网络404可以执行与图像402的顺序下采样相关联的第一卷积层处理以及与图像402的顺序上采样相关联的第二卷积层处理以生成卷积特征图406。卷积层的弹簧网络可以包括与顺序下采样相关联的第一卷积层处理和与顺序上采样相关联的第二卷积层处理。与卷积神经网络相关联的卷积层的弹簧网络可以更改卷积层滤波器，类似于弹簧的功能。例如，卷积神经网络404可基于包括第一尺寸的第一卷积层滤波器、包括与第一尺寸不同的第二尺寸的第二卷积层滤波器、以及包括与第一卷积层滤波器相关联的第一尺寸的第三卷积层滤波器来分析图像402，以生成卷积特征图406。卷积特征图406可以是例如表示应用于先前卷积层的卷积层滤波器的输出的数据。例如，来自卷积特征图406的第一卷积特征图可包括表示应用于先前卷积层的第一卷积层滤波器的输出的第一数据，来自卷积特征图406的第二卷积特征图可包括表示应用于先前卷积层的第二卷积层滤波器的输出的第二数据，来自卷积特征图406的第三卷积特征图可包括表示施加到先前卷积层的第三卷积层滤波器的输出的第三数据等。在另一个实施方案中，卷积神经网络408可为基于卷积特征图406生成评分图410的1x1卷积层。评分图410可包括与图像402的感兴趣区域相关联的类别的预测评分。

在一个方面，在卷积神经网络404的训练期间，图像402的掩模416可经由掩模池化418与卷积特征图406的尺寸匹配。例如，掩模池化418可将掩模516与下采样掩模420(例如，预测掩模)进行比较。下采样掩模420的尺寸可例如对应于掩模416的尺寸。在一个示例中，在卷积神经网络404的训练期间，掩模416可以是与来自卷积特征图406的至少一个卷积特征图的尺寸匹配的图像402的感兴趣区域的掩模。此外，掩模池化418可执行合理的掩模池化，以将掩模416(例如，预测掩模)与相同尺寸的下采样掩模420(例如，下采样的真实掩模)进行比较。在一个实施方案中，图像402的类标签可以是隐式的，并且可以基于掩模416来确定。例如，与掩模416相关联的高于定义阈值的掩模元件可发信号通知类别的存在。为了进行测试，评分图410可提供具有定位图422的预测分类标签。定位图422可包括例如表示图像402的一个或多个区域的概率评分的信息。在某些实施方案中，定位图422可包括表示图像402的一个或多个区域的概率评分的可视化。

系统400还可包括解码器411。该解码器411可包括上采样412和/或卷积神经网络层414。在一个方面，解码器411可被实现为可重复的分割网络，其中上采样412和卷积神经网络层414可为重复一定次数的块。在另一方面，解码器411可以生成定位图422。例如，解码器411可执行与上采样412和/或卷积神经网络层414相关联的解码过程以生成定位图422。解码器411可提供与图像402相关联的改进的定位结果。在一个实施方案中，在卷积神经网络404的训练期间，与解码器411相关联的多个解码器块可被视为超参数。在另一个实施方案中，上采样412可以执行双线性插值以将评分图412上采样为特定尺寸。在另一个实施方案中，卷积神经网络层414可被配置为识别网络，该识别网络包括一组滤波器、批量归一化过程和/或一组整流线性单元以生成用于定位图422的一组预测。解码器411还可在图像402的最终分类和/或定位结果中提供更平滑和更准确的热图。在另一方面，系统400可以基于与感兴趣区域有关的掩模416和/或图像402的图像级标签来提供分类器的改善的性能。

系统400还可以包括全局池化424、预测标签426和/或图像级标签428，以便于在给定弱且更丰富的注释信息时提高分类准确率。全局池化424可以执行与评分图410相关联的全局池化过程(例如，全局平均池化过程)。例如，全局池化424可以修改评分图410的维度(例如，减小维度或增加维度)。可以基于评分图410和图像级标签428生成预测标签426。例如，可以采用图像级标签428和评分图410的全局池化424来生成预测标签426。图像级标签428可以是一组图像的一组标签，其中每个图像用标签注释。标签可以是与图像相关联的描述(例如，疾病的文本描述等)。例如，可以用图像中包括的特定疾病来标记与图像级标签428相关联的图像。预测标签426可包括用于评分图410的一个或多个预测类别。例如，预测标签426可以是评分图410的一组预测类标签。在一个实施方案中，系统400还可以包括边界框430。边界框430可包括一个或多个边界框。例如，边界框430可以是一个或多个边界框，其可以将一个或多个感兴趣区域链接到与预测标签426和/或图像级标签428相关联的一个或多个类标签。在一个示例中，边界框430可以将图像402中的感兴趣区域链接到与预测标签426和/或图像级标签428相关联的类标签。在一个方面，边界框430的尺寸可与卷积特征图406的尺寸匹配。例如，边界框430可为图像402中的感兴趣区域提供位置，并且边界框430的尺寸可与来自卷积特征图406的至少一个卷积特征图的尺寸匹配。在一个实施方案中，边界框430可用于生成边界框预测432。该边界框预测432可以是例如预测的边界框。例如，边界框430可以是真实边界框，并且边界框预测432可以是预测的边界框。在一个方面，边界框预测432可以使用例如对象检测技术为边界框430提供预测。在某些实施方案中，可基于卷积神经网络434生成边界框预测432。卷积神经网络434可例如为促进图像402内的对象检测的1x1卷积层。

现在参考图5，示出了根据本公开的各个方面和具体实施的系统500的非限制性具体实施。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。

系统500可以是包括损失函数502的分类-定位网络。在一个实施方案中，系统500可表示由机器学习组件102(例如，训练组件104、损失函数组件106、第一损失函数组件109、第二损失函数组件111、第三损失函数组件113、第四损失函数组件115、分类组件108和/或可视化组件202)执行的机器学习过程和/或另一个过程。系统500可包括图像402、卷积神经网络404、卷积特征图406、卷积神经网络408、评分图410以及包括上采样412和卷积神经网络层414的解码器411。系统500还可包括掩模416、掩模池化418、下采样掩模420、定位图422、全局池化424、预测标签426、图像级标签428、边界框430、边界框预测432、卷积神经网络434和损失函数502。损失函数502可以是在卷积神经网络404的训练期间基于下采样掩模420(例如，下采样的真实掩模)和掩模416(例如，预测掩模)创建的损失函数。除此之外或另选地，可以基于预测标签426和/或图像级标签428创建损失函数502。除此之外或另选地，可以基于边界框430和/或边界框预测432来创建损失函数502。在一个实施方案中，损失函数502可对应于由第四损失函数组件115生成的第四损失函数。损失函数502可例如由以下等式表示：

LOss＝λ

在Loss

其中

现在参考图6，示出了根据本公开的各个方面和具体实施的损失函数502的非限制性示例。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。

如上所述，损失函数502可由以下等式表示：

Loss＝λ

例如，损失函数502可基于与下采样掩模420和/或定位图422相关联的类别的第一概率来生成。除此之外或另选地，可以基于与预测标签426、图像级标签428和/或定位图422相关联的类别的第二概率生成损失函数502。除此之外或另选地，可以基于与边界框430和/或边界框预测432相关联的类别的第三概率来生成损失函数502。通过采用损失函数502和/或注释信息(例如，掩模416和/或下采样掩模420)可提高分类准确率。系统400和/或系统500还可以输出改进的定位图(例如，更准确的定位图)。例如，损失函数502和/或注释信息(例如，掩模416和/或下采样掩模420)可用于提供与定位图422相关联的改进的定位信息。

在采用系统400和/或系统500的非限制性实施方案中，对数据集进行的实验可由从数据库提取的医学病症和非医学病症X射线图像组成。医学病症可以包括例如肺部疾病、心脏疾病、组织疾病、骨骼疾病、肿瘤、癌症、肺结核、心脏肥大、肺部充气不足、肺部不透明、高血压、脊柱退行性疾病、钙质沉着、气胸或与患者身体的解剖区域相关联的其他类型的医学病症。医学病症掩模可例如由放射科医生注释。总共1806个图像可分成用于训练的1444个图像(例如，80％的图像)、用于验证的180个图像(例如，10％的图像)和用于测试的182个图像(10％的图像)，如下表I所示。实验结果在下表II中示出。系统400和/或系统500的测试准确率为0.923，并且AUC为0.979，dice系数为0.5，这优于仅用图像级标签训练的传统分类网络。

根据表II中的实验结果可以看出，通过提供更丰富的注释信息(例如，掩模)，可以提高分类准确率，并且卷积神经网络还可以输出改进的定位图(例如，更准确的定位图)。这可以通过两个任务的相同基础预测模型来实现。由于与系统400和/或系统500相关联的可选卷积神经网络框架、与系统400和/或系统500相关联的可重复分割网络以及与系统400和/或系统500相关联的可调谐掩模尺寸，系统400和/或系统500也可以是灵活的并且可泛化为其他应用。这样，系统400和/或系统500可以对分类和/或定位联合建模。此外，系统400和/或系统500可将分类和/或定位应用于医学成像数据(例如，X射线图像)和/或其他数字图像中的疾病检测(例如，医学病症检测等)。

现在参考图7，示出了根据本公开的各个方面和具体实施的系统700的非限制性具体实施。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。

系统700包括卷积神经网络702、分类检测分割网络704和损失函数706。卷积神经网络702可以是与机器学习相关联的深度人工神经网络。在一个实施方案中，卷积神经网络702可将图像701编码成一组卷积特征图。图像701可以是例如卷积神经网络702的输入图像。在一个实施方案中，图像701可以是医学图像。例如，图像701可以是由一个或多个医学成像设备生成的二维图像(例如，二维医学图像)和/或三维图像(例如，三维医学图像)。在一个示例中，图像701可以是由x射线设备、CT设备、另一种类型的医学成像设备等生成的二维图像(例如，二维医学图像)和/或三维图像(例如，三维医学图像)。在另一个示例中，图像701可以是经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的电磁辐射图像。在某些实施方案中，图像701可以是在时间间隔期间经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的一系列电磁辐射图像。可以直接从一个或多个医学成像设备接收图像701。另选地，图像701可以存储在一个或多个数据库中，该一个或多个数据库接收和/或存储与一个或多个医学成像设备相关联的图像701。在一个实施方案中，图像701可对应于图像402和/或由机器学习组件102接收的医学成像数据。

在某些实施方案中，卷积神经网络702可以是卷积层的弹簧网络。例如，卷积神经网络702可对与卷积神经网络702的卷积层相关联的图像701执行多个顺序和/或并行下采样和上采样以生成例如一组卷积特征图。在一个示例中，卷积神经网络702可执行与图像701的顺序下采样相关联的第一卷积层过程以及与图像701的顺序上采样相关联的第二卷积层过程以生成例如一组卷积特征图。卷积层的弹簧网络可以包括与顺序下采样相关联的第一卷积层处理和与顺序上采样相关联的第二卷积层处理。与卷积神经网络相关联的卷积层的弹簧网络可以更改卷积层滤波器，类似于弹簧的功能。例如，卷积神经网络702可基于包括第一尺寸的第一卷积层滤波器、包括与第一尺寸不同的第二尺寸的第二卷积层滤波器、以及包括与第一卷积层滤波器相关联的第一尺寸的第三卷积层滤波器来分析图像701，以生成例如一组卷积特征图。在某些实施方案中，卷积神经网络702可对应于卷积神经网络404。

分类检测分割网络704可用于对与图像701相关联的一个或多个感兴趣区域进行分类和/或定位。例如，分类检测分割网络704可以接收由卷积神经网络702生成的一组卷积特征图，以促进与图像701相关联的一个或多个感兴趣区域的分类和/或定位。在一个示例中，分类检测分割网络704可以生成与和图像701相关联的一个或多个感兴趣区域的分类和/或定位相关联的评分图。评分图可提供例如具有定位图的预测分类标签。在某些实施方案中，分类检测分割网络704可对应于卷积神经网络408、评分图410、解码器411(例如，上采样412和/或卷积神经网络层414)、全局池化424和/或预测标签426。损失函数706可以是基于掩模708、边界框714和/或标签720创建的损失函数。掩模708可例如在卷积神经网络702的训练期间生成。掩模708可包括图像701中的一个或多个感兴趣区域(例如，提供给卷积神经网络702的图像701)的一个或多个权重。在一个示例中，掩模708可包括使用二进制滤波来限定图像701(例如，提供给卷积神经网络702的图像701)中的感兴趣区域的位置的一组像素。在一个实施方案中，掩模708可对应于掩模416。边界框714可以将一个或多个感兴趣区域链接到与标签720相关联的一个或多个类标签。在一个示例中，边界框714可以将图像701(例如，提供给卷积神经网络702的图像701)中的感兴趣区域链接到与标签720相关联的类标签。在一个方面，边界框714的尺寸可与由卷积神经网络702生成的卷积特征图匹配。例如，边界框714可为图像701(例如，提供给卷积神经网络702的图像701)中的感兴趣区域提供位置，并且边界框714的尺寸可与由卷积神经网络702生成的至少一个卷积特征图的尺寸匹配。在一个示例中，边界框714可以是预测的边界框。在另一个示例中，边界框714可以是真实边界框。在一个实施方案中，边界框714可以对应于边界框430和/或边界框预测432。标签720可为例如图像级标签。在一个方面，标签720可以是与图像701(例如，提供给卷积神经网络702的图像701)相关联的描述(例如，疾病的文本描述等)。例如，标签720可利用包括在图像701中的特定疾病来标记图像701(例如，提供给卷积神经网络702的图像701)的至少一部分。在某些实施方案中，标签720可标记图像701(例如，提供给卷积神经网络702的图像701)中的一个或多个感兴趣区域。例如，标签720可标记(例如，提供描述)与边界框714相关联的感兴趣区域。在一个实施方案中，标签720可以对应于图像级标签428和/或预测标签426。在一个实施方案中，损失函数706可对应于由第四损失函数组件115生成的第四损失函数。例如，损失函数706可对应于损失函数502。在某些实施方案中，掩模708可在由分类检测分割网络704接收之前通过扩张710和/或池化712处理。扩张710可为例如扩张池化过程。例如，扩张710可以是应用于具有一组限定间隙的掩模708的卷积。池化712可以是例如将掩模708与掩模708的下采样型式(例如，预测掩模)进行比较的掩模池化过程。在某些实施方案中，边界框714可在由分类检测分割网络704接收之前由填充掩模716和/或池化718处理。填充掩模716可以是例如用掩模填充边界框714的至少一部分的过程。池化712可以是例如将边界框714与掩模708和/或掩模708的下采样型式(例如，预测掩模)进行比较的掩模池化过程。

图8示出了根据本文所述的各个方面和具体实施的示例性多维可视化800和示例性输入图像801。在图8所示的实施方案中，多维可视化800可例如为患者显示医学成像诊断。例如，多维可视化800可以显示在成像数据(例如，输入图像801)中识别的一个或多个病症的一个或多个分类和/或一个或多个定位。然而，应当理解，多维可视化800可以与位于成像数据中的一个或多个特征的另一种类型的分类和/或定位相关联。在一个方面，多维可视化800可包括用于医学成像诊断的定位数据802。定位数据802可以是与由机器学习组件102处理的输入图像和/或医学成像数据相关联的病症的预测位置。基于由机器学习组件102提供的信息，定位数据802的视觉特性(例如，颜色、尺寸、色调、阴影等)可以是动态的。例如，定位数据802的第一部分可包括第一视觉特性，定位数据802的第二部分可包括第二视觉特性，定位数据802的第三部分可包括第三视觉特性等。在一个实施方案中，与多维可视化800相关联的显示环境可包括热棒804。该热棒804可包括与定位数据802的不同值对应的一组颜色。例如，热棒804中的第一颜色(例如，红色)可对应于定位数据802的第一值，热棒804中的第二颜色(例如，绿色)可对应于定位数据802的第二值，热棒804中的第三颜色(例如，蓝色)可对应于定位数据802的第三值，等等。

图9示出了根据所公开的主题的方法和/或流程图。为了简化说明，将方法描述和示出为一系列动作。应当理解和认识到，本发明不受所示出的动作和/或动作顺序的限制，例如，动作可以以各种顺序和/或同时发生，并且具有本文未呈现和描述的其他动作。此外，可能不需要所有示出的动作来实现根据所公开的主题的方法。此外，本领域技术人员将理解并认识到，方法可以另选地通过状态图或事件表示为一系列相互关联的状态。另外，应当进一步认识到，在下文以及整个说明书中公开的方法能够存储在制品上，以便有助于将这种方法传输和转移到计算机。如本文中所用，术语“制品”旨在涵盖能够从任何计算机可读设备或存储介质访问的计算机程序。

参见图9，示出了根据本主题创新的一个方面的用于基于注释信息进行分类和/或定位的方法900的非限制性具体实施。在902处，(例如，通过训练组件104)从至少一个成像设备接收与多个患者相关联的多个图像。多个图像可与多个患者相关联。此外，该多个图像可以是一组医学图像。多个图像可以是由一个或多个医学成像设备生成的二维图像和/或三维图像。例如，多个图像可以是经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的电磁辐射图像。在某些实施方案中，多个图像可以是在时间间隔期间经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的一系列电磁辐射图像。可以直接从一个或多个医学成像设备接收多个图像。另选地，多个图像可以存储在一个或多个数据库中，该一个或多个数据库接收和/或存储与一个或多个医学成像设备相关联的多个图像。医学成像设备可以是例如x射线设备、CT设备、另一种类型的医学成像设备等。在一个实施方案中，来自多个图像中的每个图像可与一个或多个掩模相关联。

在904处，(例如，通过训练组件104)接收来自多个对象的多个掩模，其中每个图像包括将感兴趣对象与对应类标签相关联的至少一个掩模、用于图像的至少一个图像级标签和/或将感兴趣对象链接到对应类标签的边界框。掩模可以是用于掩蔽图像(例如，来自多个图像的图像)中的一个或多个区域的滤波器。例如，掩模可包括图像(例如，来自多个图像的图像)中的一个或多个感兴趣区域的一个或多个权重。在一个示例中，掩模可包括使用二进制滤波来限定感兴趣区域的位置的一组像素。该至少一个图像级标签可以是一组图像的一组标签，其中每个图像用标签注释。标签可以是与图像相关联的描述(例如，疾病的文本描述等)。例如，可以用图像中包括的特定疾病来标记与至少一个图像级标签相关联的图像。在一个实施方案中，可以采用至少一个图像级标签来生成与评分图相关联的预测标签。预测标签可包括评分图的一个或多个预测类别。例如，预测标签可以是评分图的一组预测类标签。边界框可以将一个或多个感兴趣区域链接到与至少一个图像级标签相关联的一个或多个类标签。在一个示例中，边界框可以将来自多个图像的至少一个图像中的感兴趣区域链接到与至少一个图像级标签相关联的类标签。在一个方面，边界框的尺寸可与由卷积神经网络生成的卷积特征图匹配。在另一方面，边界框可以为来自多个图像的图像中的感兴趣区域提供位置。在一个示例中，边界框可以是预测的边界框。在另一个示例中，边界框可以是真实边界框。

在906处，基于多个图像、多个掩模、边界框和/或至少一个图像级标签(例如，通过训练组件104)来训练卷积神经网络，其中该卷积神经网络包括解码器，该解码器由至少一个上采样层和至少一个卷积层、输出卷积特征图的预训练的分类器网络和/或输出对应定位图的分类/定位网络组成。解码器可被实现为可重复分割网络，其中至少一个上采样层和/或至少一个卷积神经网络层可为重复一定次数的块。

在908处，基于多个掩模(例如，由第一损失函数组件109)生成第一损失函数。在一个方面，可以通过采用解码器生成定位图来生成第一损失函数。在某些实施方案中，可在卷积神经网络的训练期间确定与解码器相关联的解码器的数量。在另一方面，可以基于与多个掩模相关联的类别的概率来生成第一损失函数。在一个实施方案中，可以在卷积神经网络的训练期间基于下采样掩模(例如，下采样的真实掩模)和另一个掩模(例如，预测掩模)生成第一损失函数。在另一个实施方案中，可以基于下采样掩模和/或定位图来生成第一损失函数。例如，可以基于与下采样掩模和/或掩模相关联的类别的概率来生成第一损失函数。

在910处，基于与多个图像相关联的至少一个图像级标签(例如，由第二损失函数组件111)生成第二损失函数。在一个方面，可以通过采用解码器生成定位图来生成第二损失函数。在某些实施方案中，可在卷积神经网络的训练期间确定与解码器相关联的解码器的数量。在另一方面，可以基于与至少一个图像级标签相关联的类别的概率生成第二损失函数。在一个实施方案中，可以基于图像级标签、预测标签和/或定位图生成第二损失函数。例如，可以基于与图像级标签、预测标签和/或定位图相关联的类别的概率来生成第二损失函数。

在912处，基于将感兴趣对象链接到对应类标签的边界框(例如，由第三损失函数组件113)生成第三损失函数。感兴趣对象可以是例如图像中的感兴趣区域。在一个方面，可以通过采用解码器生成定位图来生成第三损失函数。在某些实施方案中，可在卷积神经网络的训练期间确定与解码器相关联的解码器的数量。在另一方面，可以基于与边界框相关联的类别的概率来生成第三损失函数。

在914处，基于第一损失函数、第二损失函数和第三损失函数(例如，由第四损失函数组件115)生成第四损失函数。例如，可将第一权重应用于第一损失函数，可将第二权重应用于第二损失函数，并且可将第三权重应用于第三损失函数。另外，可以组合第一损失函数、第二损失函数和第三损失函数(例如，可以将第一损失函数、第二损失函数和第三损失函数相加)。在一个示例中，第二权重可不同于第一权重和/或第三权重。在另一个示例中，第二权重可对应于第一权重和/或第三权重。

在916处，(例如，由第三损失函数组件113)迭代地反向传播第四损失函数以基于训练数据调谐卷积神经网络的参数。例如，第四损失函数可被提供给解码器的至少一个卷积神经网络层。另外，第四损失函数可从至少一个卷积神经网络层反向传播到卷积神经网络以修改卷积神经网络的一个或多个部分。

在918处，基于卷积神经网络(例如，通过分类组件108)预测输入图像的分类标签、定位图和/或边界框。用于预测分类标签的卷积神经网络可以是基于第四损失函数进行调谐的卷积神经的型式。图像可以是例如医学图像。输入图像可以是由一个或多个医学成像设备生成的二维图像(例如，二维医学图像)和/或三维图像(例如，三维医学图像)。例如，输入图像可以是由x射线设备、CT设备、另一种类型的医学成像设备等生成的二维图像(例如，二维医学图像)和/或三维图像(例如，三维医学图像)。在一个示例中，输入图像可以是经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的电磁辐射图像。在某些实施方案中，输入图像可以是在时间间隔期间经由一组传感器(例如，与医学成像设备相关联的一组传感器)捕获的一系列电磁辐射图像。可以直接从一个或多个医学成像设备接收输入图像。另选地，输入图像可存储在一个或多个数据库中，该一个或多个数据库接收和/或存储与一个或多个医学成像设备相关联的输入图像。输入图像的定位图可包括例如表示输入图像的一个或多个区域的概率评分的信息。在一个实施方案中，输入图像的定位图可包括表示输入图像的一个或多个区域的概率评分的可视化。输入图像的边界框可以是将输入图像中的一个或多个感兴趣区域链接到与输入图像相关联的一个或多个类标签的预测边界框。在一个方面，输入图像的边界框可以为输入图像中的感兴趣区域提供位置。在某些实施方案中，方法900还可包括将来自多个掩模的掩模的尺寸与来自卷积特征图的卷积特征图的尺寸匹配。在某些实施方案中，方法900还可包括基于掩模池化过程，将来自多个掩模的掩模的尺寸与来自卷积特征图的卷积特征图的尺寸匹配。在某些实施方案中，方法900还可包括生成与输入图像的分类标签相关联的多维可视化。在某些实施方案中，解码器可生成定位图。例如，解码器可执行与至少一个上采样层和/或至少一个卷积神经网络层相关联的解码过程以生成定位图。

已经关于若干部件之间的交互描述了前述系统和/或设备。应当认识到，这样的系统和部件可以包括本文指定的那些部件或子部件、一些指定的部件或子部件和/或附加的部件。子部件也可以实现为通信地耦接到除包括在父部件内的部件的其他部件的部件。更进一步，可以将一个或多个部件和/或子部件组合成提供聚合功能的单个部件。部件还可以与在本文中为了简洁起见而未具体描述但本领域技术人员已知的一个或多个其他部件交互。

为了提供所公开的主题的各个方面的上下文，图10和图11以及以下讨论旨在提供对其中可实现所公开的主题的各个方面的合适的环境的简要概括描述。

参考图10，用于实现本公开的各个方面的合适环境1000包括计算机1012。计算机1012包括处理单元1014、系统存储器1016和系统总线1018。系统总线1018将包括但不限于系统存储器1016的系统组件耦接到处理单元1014。处理单元1014可以是各种可用处理器中的任何一种。双微处理器和其他多处理器架构也可用作处理单元1014。

系统总线1018可以是多种类型的总线结构中的任一种，包括存储器总线或存储器控制器、外围总线或外部总线以及/或者使用各种可用总线架构的本地总线，这些总线架构包括但不限于工业标准架构(ISA)、微通道架构(MSA)、扩展ISA(EISA)、智能驱动电子设备(IDE)、VESA本地总线(VLB)、外围部件互连件(PCI)、卡总线、通用串行总线(USB)、高级图形端口(AGP)、个人计算机存储器卡国际协会总线(PCMCIA)、火线(IEEE 1394)和小型计算机系统接口(SCSI)。

系统存储器1016包括易失性存储器1020和非易失性存储器1022。基本输入/输出系统(BIOS)(包含在计算机1012内的元件之间传输信息的基本例程，诸如在启动期间)存储在非易失性存储器1022中。以举例说明而非限制的方式，非易失性存储器1022可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存存储器或非易失性随机存取存储器(RAM)(例如，铁电RAM(FeRAM))。易失性存储器1020包括随机存取存储器(RAM)，其充当外部高速缓存存储器。以举例说明而非限制的方式，RAM能以多种形式提供，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)、直接Rambus RAM(DRRAM)、直接Rambus动态RAM(DRDRAM)和Rambus动态RAM。

计算机1012还包括可移除/不可移除、易失性/非易失性计算机存储介质。图10示出了例如磁盘存储装置1024。磁盘存储装置1024包括但不限于如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存存储器卡或记忆棒的设备。磁盘存储装置1024还可以单独包括存储介质或与其他存储介质组合，该其他存储介质包括但不限于光盘驱动器，诸如光盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字通用磁盘ROM驱动器(DVD-ROM)。为了便于将磁盘存储设备1024连接到系统总线1018，通常使用可移除/不可移除的接口，诸如接口1026。

图10还描绘了充当用户和合适的操作环境1000中所述的基本计算机资源之间的中介的软件。例如，此类软件包括操作系统1028。可以存储在磁盘存储装置1024上的操作系统1028用于控制和分配计算机系统1012的资源。系统应用程序1030利用操作系统1028通过例如存储在系统存储器1016中或磁盘存储装置1024上的程序模块1032以及程序数据1034对资源的管理。应当认识到，本公开可以用各种操作系统或操作系统的组合来实现。

用户通过输入设备1036将命令或信息输入到计算机1012中。输入设备1036包括但不限于诸如鼠标、轨迹球、触笔、触摸板、键盘、麦克风、操纵杆、游戏板、卫星天线、扫描仪、电视调谐卡、数码相机、数码摄像机、网络摄像头等指向设备。这些和其他输入设备经由接口端口1038通过系统总线1018连接到处理单元1014。接口端口1038包括例如串行端口、并行端口、游戏端口和通用串行总线(USB)。输出设备1040使用与输入设备1036相同类型的端口中的一些端口。因此，例如，USB端口可以用于向计算机1012提供输入，并将信息从计算机1012输出到输出设备1040。提供输出适配器1042以示出存在如监视器、扬声器和打印机的一些输出设备1040，以及需要特殊适配器的其他输出设备1040。通过举例说明而非限制的方式，输出适配器1042包括在输出设备1040和系统总线1018之间提供连接方式的视频和声卡。应当指出的是，其他设备和/或设备的系统提供输入能力和输出能力两者，诸如远程计算机1044。

计算机1012可使用到一个或多个远程计算机(诸如，远程计算机1044)的逻辑连接而在联网环境中操作。远程计算机1044可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的设备、对等设备或其他公共网络节点等，并且通常包括许多或全部的相对于计算机1012描述的元素。出于简洁的目的，对于远程计算机1044仅示出了存储器存储设备1046。远程计算机1044通过网络接口1048逻辑连接到计算机1012，然后经由通信连接1050而被物理连接。网络接口1048涵盖有线和/或无线通信网络，诸如局域网(LAN)、广域网(WAN)、蜂窝网络等。LAN技术包括光纤分布式数据接口(FDDI)、铜质分布式数据接口(CDDI)、以太网、令牌环等。WAN技术包括但不限于点到点链路、如综合业务数字网络(ISDN)及其上的变体的电路交换网络、分组交换网络和数字用户线(DSL)。

通信连接1050是指用于将网络接口1048连接到总线1018的硬件/软件。虽然为了清楚说明而在计算机1012内示出了通信连接1050，但是该通信连接也可在计算机1012外部。仅出于举例的目的，连接到网络接口1048所需的硬件/软件包括内部和外部技术，诸如调制解调器，包括常规电话级调制解调器、电缆调制解调器和DSL调制解调器、ISDN适配器，以及以太网卡。

图11是本公开的主题可以与其交互的样本计算环境1100的示意性框图。系统1100包括一个或多个客户端1110。一个或多个客户端1110可以是硬件和/或软件(例如，线程、进程、计算设备)。系统1100还包括一个或多个服务器1130。因此，除了其他模型之外，系统1100可以对应于两层客户端服务器模型或多层模型(例如，客户端、中间层服务器、数据服务器)。服务器1130还可以是硬件和/或软件(例如，线程、进程、计算设备)。例如，服务器1130可以容纳线程以通过采用本公开来执行转换。客户端1110和服务器1130之间的一种可能的通信可以是在两个或更多个计算机进程之间传输的数据分组的形式。

系统1100包括可用于促进客户端1110和服务器1130之间的通信的通信框架1150。客户端1110操作地连接到一个或多个客户端数据存储库1120，其可用于存储客户端1110本地的信息。类似地，服务器1130操作地连接到一个或多个服务器数据存储库1140，其可用于存储服务器1130本地的信息。

应当注意，本公开的各个方面或特征可以在基本上任何无线电信或无线电技术中利用，例如，Wi-Fi；蓝牙；全球微波接入互操作性(WiMAX)；增强型通用分组无线电业务(增强型GPRS)；第三代合作伙伴计划(3GPP)长期演进(LTE)；第三代合作伙伴计划2(3GPP2)超移动宽带(UMB)；3GPP通用移动电信系统(UMTS)；高速分组接入(HSPA)；高速下行链路分组接入(HSDPA)；高速上行链路分组接入(HSUPA)；GSM(全球移动通信系统)EDGE(GSM演进的增强数据速率)无线电接入网络(GERAN)；UMTS地面无线电接入网(UTRAN)；LTE高级(LTE-A)；等。另外，本文描述的一些或所有方面可以在传统电信技术(例如，GSM)中利用。此外，移动以及非移动网络(例如，互联网、诸如互联网协议电视(IPTV)的数据服务网络等)可以利用本文所述的方面或特征。

尽管上面已经在一个和/或多个计算机上运行的计算机程序的计算机可执行指令的一般上下文中描述了本主题，但本领域技术人员将认识到，本公开内容也可以或可能与其他程序模块结合来实现。通常，程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、部件、数据结构等。此外，本领域技术人员应当认识到，可以用其他计算机系统配置来实践本发明的方法，这些其他计算机系统配置包括单处理器或多处理器计算机系统、小型计算设备、大型计算机、以及个人计算机、手持式计算设备(例如，PDA、电话)、基于微处理器或可编程的消费者或工业电子产品等。所例示的方面还可以在分布式计算环境中实践，在该环境中，由通过通信网络链接的远程处理设备执行任务。然而，本公开的一些(如果不是全部)方面可以在独立计算机上实践。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备中。

如本申请中所用，术语“部件”、“系统”、“平台”、“接口”等可以指代和/或可以包括计算机相关实体或与具有一个或多个特定功能的操作机相关的实体。本文公开的实体可以是硬件、硬件和软件的组合、软件、或执行中的软件。例如，部件可以是但不限于是在处理器上运行的进程、处理器、对象、可执行文件、执行的线程、程序和/或计算机。通过举例说明的方式，在服务器上运行的应用程序和服务器都可以是部件。一个或多个部件可以驻留在进程和/或执行的线程内，并且部件可以位于一台计算机上和/或分布在两台或更多台计算机之间。

在另一个示例中，相应部件可以根据其上存储有各种数据结构的各种计算机可读介质执行。部件可以诸如根据具有一个或多个数据分组(例如，来自一个部件的数据，该部件与本地系统、分布式系统中的另一个部件进行交互，和/或经由信号跨网络(诸如互联网)与其他系统交互)的信号经由本地和/或远程进程进行通信。作为另一个示例，部件可以是具有由电气或电子电路操作的机械零件提供的特定功能的装置，该电气或电子电路由处理器所执行的软件或固件应用程序操作。在这种情况下，处理器可以在装置的内部或外部，并且可以执行软件或固件应用程序的至少一部分。作为又一个示例，部件可以是通过电子部件而非机械零件提供特定功能的装置，其中电子部件可以包括处理器或用于执行至少部分地赋予电子部件功能性的软件或固件的其他装置。在一个方面，部件可以例如在云计算系统内经由虚拟机来仿真电子部件。

此外，术语“或”旨在表示包含性的“或”而不是排他性的“或”。也就是说，除非另有指明或从上下文中清楚，否则“X采用A或B”旨在表示任何自然的包含性置换。也就是说，如果X采用A；X采用B；或者X采用A和B两者，则在任何前述情况下都满足“X采用A或B”。此外，本说明书和附图中使用的冠词“一”和“一个”通常应解释为是指“一个或多个”，除非另有指明或从上下文中清楚是指单数形式。

如本文中所用，利用术语“示例”和/或“示例性”来表示用作示例、实例或说明。为了避免疑问，本文所公开的主题不受此类示例的限制。此外，本文中描述为“示例”和/或“示例性”的任何方面或设计不必被解释为比其他方面或设计更优选或有利，也不意味着排除本领域普通技术人员已知的等效示例性结构和技术。

可以使用标准编程或工程化技术将本文所述的各个方面或特征实现为方法、装置、系统、或制品。此外，可以通过实现本文所公开的方法中的至少一者或多者的程序模块来实现本公开中公开的各个方面或特征，程序模块被存储在存储器中并且至少由处理器执行。硬件和软件或硬件和固件的其他组合可以实现或实施本文描述的方面，包括所公开的方法。如本文中所用，术语“制品”可以涵盖能够从任何计算机可读设备、载体或存储介质访问的计算机程序。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条…)、光盘(例如，紧凑盘(CD)、数字通用盘(DVD)、蓝光盘(BD)…)、智能卡、以及闪存存储器设备(例如，卡、棒、密钥驱动器…)等。

如在本说明书中采用的，术语“处理器”可以基本上指任何计算处理单元或设备，包括但不限于单核处理器；具有软件多线程执行能力的单处理器；多核处理器；具有软件多线程执行能力的多核处理器；具有硬件多线程技术的多核处理器；并行平台；以及具有分布式共享存储器的并行平台。另外，处理器可以指集成电路、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂可编程逻辑设备(CPLD)、分立栅极或晶体管逻辑部件、分立硬件部件、或被设计为执行本文所述的功能的其任意组合。另外，处理器可以利用纳米级架构(诸如但不限于基于分子和量子点的晶体管、开关和门)以便优化空间使用或增强用户设备的性能。处理器也可以被实现为计算处理单元的组合。

在本公开中，术语诸如“存储”、“存储装置”、“数据存储”、“数据存储装置”、“数据库”、以及与部件的操作和功能相关的基本上任何其他信息存储部件用于指代“存储器部件”、体现在“存储器”中的实体、或包括存储器的部件。应当认识到，本文所述的存储器和/或存储器部件可以是易失性存储器或非易失性存储器，或者可以包括易失性和非易失性存储器两者。

以举例说明而非限制的方式，非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)、闪存存储器、或非易失性随机存取存储器(RAM)(例如，铁电RAM(FeRAM))。例如，易失性存储器可以包括RAM，其可以充当外部高速缓存存储器。以举例说明而非限制的方式，RAM能以多种形式提供，诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)、直接Rambus RAM(DRRAM)、直接Rambus动态RAM(DRDRAM)和Rambus动态RAM(RDRAM)。另外，本文的系统或方法的公开的存储器部件旨在包括但不限于包括这些和任何其他合适类型的存储器。

应当认识和理解，关于特定系统或方法描述的部件可以包括与关于本文公开的其他系统或方法描述的相应部件(例如，分别命名的部件或类似命名的部件)相同或类似的功能。

上面已经描述的内容包括提供本公开的优点的系统和方法的示例。当然，无法出于描述本公开的目的而描述部件或方法的每个可想到的组合，但本领域的普通技术人员可以认识到，本公开的许多另外组合和置换是可能的。此外，关于在具体实施方式、权利要求书、附录和附图中使用术语“包括”、“具有”、“拥有”等的程度，此类术语旨在以类似于术语“包括”的方式为包括性的，如“包括”在权利要求中被用作过渡词时那样解释。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于注释信息的分类 [P] . 中国专利： CN112262395A . 2021-01-22
2. 一种基于决策树的注释分类方法 [P] . 中国专利： CN110851175A . 2020-02-28
3. Classification and localization based on annotation information [P] . US11074482B2 . 2021-07-27

机译：基于注释信息的分类和定位
4. CLASSIFICATION BASED ON ANNOTATION INFORMATION [P] . 美国专利： US2020012904A1 . 2020-01-09

机译：基于注释信息的分类
5. CLASSIFICATION AND LOCALIZATION BASED ON ANNOTATION INFORMATION [P] . 美国专利： US2020012895A1 . 2020-01-09

机译：基于注释信息的分类与定位