首页> 中国专利> 使用多个实例学习来训练标志检测器的方法和系统

使用多个实例学习来训练标志检测器的方法和系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

公开使用多个实例学习来训练标志检测器的方法、系统和装置。包括多个训练袋的训练数据被接收。该多个训练袋包括多个正向训练袋，每个包括多个正向的经注释的实例，以及多个负向训练袋，每个都包括至少一个负向的经注释的实例。基于正向训练袋和负向训练袋通过训练第一弱分类器来初始化分类函数。使用分类函数评估所有训练实例。对多个剩余分类器中的每一个，基于在每个正向袋中由分类函数评估的每个实例的空间上下文信息计算成本值梯度。基于成本值梯度计算与每个剩余弱分类器相关的梯度值。选择多个剩余弱分类器中的一个弱分类器。选定的弱分类器具有最低的相关梯度值。确定与选定的弱分类器相关的权重参数。将选定的弱分类器加入分类函数。

著录项

公开/公告号CN102436587A

专利类型发明专利
公开/公告日2012-05-02

原文格式PDF
申请/专利权人西门子公司;西门子公司;
展开▼

申请/专利号CN201110335625.X
发明设计人 D·刘;S·K·周;P·斯沃博达;D·科马尼丘;C·铁真;
展开▼

申请日2011-09-22
分类号G06K9/62;
代理机构中国专利代理(香港)有限公司;
代理人王岳
地址美国新泽西州
入库时间 2023-12-18 04:59:56

法律信息

法律状态公告日

法律状态信息

法律状态
2017-11-03

未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20160127 终止日期:20160922 申请日:20110922

专利权的终止
2016-01-27

授权

授权
2013-04-24

实质审查的生效 IPC(主分类):G06K9/62 申请日:20110922

实质审查的生效
2012-05-02

公开

公开

说明书

本申请要求享有于2010年9月22日提交的申请号为61/385,226的美国临时申请，以及于2011年5月16日提交的申请号为61/486,520的美国临时申请的权益，其全部内容在此引入以供参考。

技术领域

本发明涉及使用具有噪声注释的训练数据来训练标志检测器(landmark detector)。

背景技术

在对象检测中，比如标志检测，最大的障碍之一是获取精确的注释。标志被定义为清楚并且独特的用于其它任务比如图像配准的解剖学结构。某些组成标志的解剖学结构包括肺尖、肝顶，和气管的分叉。获取注释往往是一个非常繁琐和/或容易出错的任务。通常情况下，为了方便精确的标志检测，需要大量的精确的经注释的训练数据。对标志检测器的训练在精确地发现医疗图像和医疗体积中的解剖学标志的位置中是重要的。

要适当地训练标志检测器以精确地检测标志，标志位置在训练数据内的精确注释是必要的。例如，一个领域的专家可以通过准确地指示训练数据图像和体积中的基础真实位置(ground truth position)来提供准确注释。另一方面，初学的注释者可以提供可以在与基础真实位置的容忍距离内的噪声注释。因此，使用来自专家与初学注释者的注释训练数据的混合物在训练标志检测器期间，可能存在提供正向训练样本的精确注释，和其中正确训练样本被实际上定位的情况下只提供粗略指示的噪声注释的混合物。

发明内容

多实例学习(MIL)是与标准的有监督的学习方法相比可以被更好装配以处理噪声注释的学习框架。然而，为了使用MIL训练分类器来精确并高效地检测物体或者标志，本发明认识到仍然需要大量的训练数据并且大量的不精确注释可能仍然会导致高误差率。此外，如果训练数据图像本身不是最佳质量的，比如当图像模糊时，真正物体位置可能仍然很难检测。

在本发明的一个实施例中，标志检测器可以通过使用多实例学习被训练。包括多个训练袋的训练数据被接收。该多个训练袋包括多个正向训练袋(positive training bag)，每个都包括多个正向的经注释的实例，以及多个负向训练袋，每个都包括至少一个负向的经注释的实例。基于正向训练袋和负向训练袋通过训练第一弱分类器来初始化分类函数。使用分类函数评估所有的训练实例。对多个剩余分类器中的每一个，基于在每个正向袋中由分类函数评估的每个实例的空间上下文信息计算成本值梯度。基于成本值梯度计算与每个剩余弱分类器相关的梯度值。选择多个剩余弱分类器中的一个弱分类器。选定的弱分类器具有最低的相关梯度值。确定与选定的弱分类器相关的权重参数。将选定的弱分类器加入分类函数。

在一个实施例中，计算成本值梯度是基于空间上下文信息。空间上下文信息可以在训练袋级别上，通过确定每个训练袋的展开来计算空间上下文信息。每个袋的展开可以通过相对各自的训练袋中的多个实例归一化每个训练的分数来确定。空间上下文信息还可以在实例级上并使用秩条件秩选择滤波器来计算。训练袋级别上和实例级别上的空间上下文信息可以被结合。

在一个实施例中，通过计算数据项和空间调整项(spatial regularization term) 并使用二者得到成本值梯度来计算成本值梯度。数据项使用平滑最大值函数来计算。空间调整项通过计算每个训练袋的全变差调整值来计算。

在一个实施例中，在将每个选定的弱分类器加入到分类函数之后修剪 (pruning)操作被执行。

本发明的这些以及其他优点对参考下文详细说明和附图的本领域技术人员来说是显而易见的。

附图说明

图1示出了根据本发明的一个实施例的训练标志检测器的方法；

图2示出了根据本发明的一个实施例的用于训练标志检测器的经注释的训练图像；

图3示出了传统的多实例学习和增强(boosting)算法与根据本发明的实施例的训练标志检测器的方法相比较的实验结果；

图4示出了使用不同的多实例学习算法的距离误差的图，该算法包括根据本发明的一个实施例的训练标志检测器的方法；

图5示出了根据使用本发明实施的实验得到的真正向(true positive)与假正向(false positive)比率；

图6描绘了基于使用本发明实施的实验对测试数据的检测结果的可视化；

图7示出了根据本发明的一个实施例的训练标志检测器的又另一个方法；

图8描绘了根据本发明的一个实施例，来自两个分数图的两个级别集的外围级别；

图9描绘了根据本发明的一个实施例的示出用于检测气管分叉的真正向比率和假正向的接收机操作特性曲线；

图10描绘了用于比较MILBoost和根据本发明的一个实施例的训练标志检测器的方法的两个分数图；

图11描绘了根据本发明的一个实施例的示出用于检测肝尖的真正向比率和假正向的接收机操作特性曲线；

图12是能够实现本发明的计算机的高层次结构框图。

具体实施方式

本发明提供了一种用于使用多实例学习来训练标志检测器以便精确地检测医学图像和体积(比如二维荧光检查图像和三维计算机断层造影(CT)体积) 的方法和系统。在医学图像中，标志通常位于空间上彼此分开以及来自标记检测器的响应应该在空间上群集。因此，本发明使用训练数据中实例的空间结构来解决上述使用含有噪声注释的训练数据来训练检测器的问题。

此处描述的本发明的实施例给出了对在结合空间上下文信息同时使用多实例学习来训练标志检测器的方法的理解。数字图像通常是由一个或多个对象(或形状)的数字表示组成。这里，对象的数字表示通常在识别和操作对象方面被描述。该操作是在计算机系统的内存或其他电路/硬件中完成的虚拟操作。因此，应该理解的是，本发明的实施例可以在计算机系统内使用该计算机系统内存储的数据被执行。

图1示出了根据本发明的一个实施例的训练标志检测器的方法。在步骤102 中，多个经注释的训练数据被接收。该多个经注释的训练数据包括包含多个正向注释实例的多个正向袋，以及包含至少一个负向注释实例的多个负向袋。在有监督的学习中，训练数据以{x_i，l_i}的形式被提供，其中x_i∈R^d是每个实例(表示注释)的特征向量而l_i是二进制标签，指示是正向的(l_i＝1)或是负向的(l_i＝0)。在多实例学习中，训练数据被提供为袋，其中每个袋i具有n_i个实例每个正向袋包含n_i≥1个实例。尽管正向袋中的所有实例被最初注释为正向的，一个实例实际上是正向的而剩余的实例(比如像素或者体素)通常是负向的。哪个实例是正向的是未知的。每个负向袋包含只一个负向实例。

例如，图2a-2d的每个示出了经注释的训练图像。图2a和2b示出了正向注释202和206以及负向注释204和208。注释202和206表示气管分叉的注释。注释204和208代表左肺顶部的注释。注释202，204，206，和208是清楚的正向的且经专家精准注释过的注释。图2c和2d示出了框210和216，每个代表正向训练袋，以及框212和218，每个代表负向训练袋。例如，框210内的所有体素形成正向袋，由于实例中至少一个是正向实例，正如注释202所表示的。该训练图像中的所有剩余体素实际上是负向实例。

训练包含多个正向袋和多个负向袋的多个经注释的训练数据的目标是获悉标志分类器H(x_i)或分类函数，其可以为图像或体积中的每个像素或体素分配标签(例如，正向的或者负向的)。

该实例分类器或者分类函数为每个训练袋中的每个训练实例分配分数。该分数由下式表示：

$y_{ij} \equiv H (x_{ij}) = Σ_{t = 1}^{T} λ_{t} h_{t} (x_{ij})$ (式1)

其中i索引每个训练袋，并且j索引每个训练袋中的每个实例。h_t代表每个基础分类器或弱分类器，λ_t表示与每个弱分类器相关的系数或者权重参数，并且T代表弱分类器的数量。

每个训练实例y_ij的分数可以通过使用逻辑S状函数被转换为实例概率P_ij(其表示该实例为正向的概率)以得到：

$p_{ij} = \frac{1}{1 + \exp (- y_{ij})}$ (式2)

个体训练袋是正向的概率由下式表示：

$p_{i} = 1 - Π_{j} {(1 - p_{ij})}^{\frac{1}{n_{i}}}$ (式3)

因此，指示给定的训练袋是正向的可能性的概率由下式表示：

$L (H) = \underset{i}{Π} {p_{i}}^{l_{i}} {(1 - p_{i})}^{(1 - l_{i})}$ (式4)

其中l_i∈{0，1}代表每个训练袋i的标签。

为了使实例分类器将上述可能最大化，为每个弱分类器h_t∈{-1，1}(二进制分类器)执行一系列的增强搜索以使最大化，其中每个实例的权重w_ij通过L关于y_ij的变化的导数来给出，其由下式表示：

$w_{ij} \equiv \frac{\partial \log L (H)}{{\partial y}_{ij}} = \frac{l_{i} - p_{i}}{p_{i}} p_{ij}$ (式5)

使用线性搜索来确定弱分类器组合系数，或者权重参数λ_t以使 logL(H+λ_th_t)最大化。

多个弱分类器(其中T代表基础分类器的总数)必须被训练。

回到图1，在步骤104中，通过基于正向训练袋和负向训练袋训练第一弱分类器初始化分类函数。该分类通过为每个训练袋分配分数来训练第一弱分类器，其产生代表特定训练袋是否是正向的概率。

在步骤106中，使用分类函数评估所有训练实例。在这一点上，该分类函数包含该第一弱分类器并且基于该被训练过的第一弱分类器，所有训练实例被评估。

如果不止一个基础分类器，或者弱分类器要训练，并且只要还有剩余弱分类器要训练，该方法进行到步骤108来重复地训练每个弱分类器。对于多个剩余的弱分类器中的每一个，每个弱分类器都将通过考虑训练袋的空间上下文信息以及每个训练袋中的实例被训练。空间上下文信息的执行将在下文中更详细的被讨论。根据上文所列步骤在训练第一弱分类器后，每个剩余的弱分类器都被训练。

在步骤108中，基于空间上下文信息针对分类函数评估的每个正向训练袋中的每个实例计算成本值梯度。该成本值梯度可以由上述式5来表示。该成本值梯度可以考虑袋级上，实例级上，或者袋级和实例级上的空间上下文信息。空间上下文信息被并入上述权重的计算中。下文将描述并入空间上下文信息的详细讨论。

在步骤110，基于成本值梯度计算与每个弱分类器相关的梯度值。这些梯度值用于确定哪个弱分类器将是下一个被加入到分类函数中的弱分类器。

在步骤112，选择多个剩余的弱分类器中具有最低的相关梯度值的弱分类器。此弱分类器的选择也基于并入成本值梯度中的空间上下文信息，其为计算梯度值的基础。如何确定空间上下文信息的详细讨论将在下文讨论。

假定每个训练袋i的分数记为s_i，并且训练袋i中的每个实例的分数记为s_ij。分数以下述方式与上述讨论的实例可能性相关：

$s_{i} = \log \frac{1}{1 - p_{i}}$ 和 $s_{ij} = \log \frac{1}{1 - p_{ij}}$ (式6)

当任何给定的弱分类器具有低精度时，分数高的实例趋于分散到空间，并且偏离在用于分类器的分数图内只有一个“肿块(bump)”或者真正向实例的假设。为了捕获分散的概念，每个训练袋的展开可以被定义如下：

$d_{i} = \frac{1}{n_{i} (n_{i - 1})} \underset{j}{Σ} \underset{k}{Σ} {| | r_{ij} - r_{ik} | |}_{1} p_{ij} p_{ik}$ (式7)

其中r_ij代表袋i中的实例j的位置。d_i越高，特定训练袋中的实例的分散度越高。相反，d_i越低，分散度越低。

假定训练袋和实例分数遵循加法法则，每个训练袋的分数可以被表示为：

$s_{i} = \frac{1}{d_{i} n_{i}} \underset{j}{Σ} s_{ij} = q_{i} \underset{j}{Σ} s_{ij}$ (式8)

因数n_i，表示训练袋中实例的数量，在式7被用于相对它包含的实例的数量归一化训练袋分数。这确保含有更多实例的训练袋不会自动地具有更高的相关分数。假设由式8给出的具有完全相同实例分数总和的两个训练袋，并且假设每个训练袋具有相同数量得实例，具有较低展开的训练袋将具有更高的分数。因此，每个训练袋中的实例之间的空间关系被考虑。

假设每个正向训练袋中只有一个正向实例，只有这个正向实例应该接收到高的分数而所有剩余实例应该接收到低的分数。然而，如果训练数据中存在噪声注释，该正向实例的身份被隐藏，导致学习期间的不确定性，从而导致噪声分数图。因此，将实例级上的空间上下文信息并入多实例学习中来解决这个问题。

在图像处理中，经常使用非线性滤波器来消除噪声以及恢复信号。秩条件秩选择(RCRS)滤波器特别对于信号恢复是公知的。特别的，可以基于相邻体素的分数使用中值滤波器来对相邻体素分类并将每个体素原始值替换为中间值。关于此处描述的实施例的中值滤波器的应用可以如下表示：

$s_{ij}^{'} = \underset{k \in N_{j}}{Σ} s_{ik} m_{ik} ({s_{iu}}_{u \in N_{j}})$ (式9)

其中N_j代表相邻实例j。在中值滤波器的情况中，如果s_ik与中间值相等，则m_ik的值＝1，否则为0。尽管式9表示为线性求和，RCRS滤波器是非线性的，因为系数m_ik取决于分类的分数列表。

训练袋级上和实例级上并入空间上下文信息的上述概念可以结合并如下表示：

$s_{i} = q_{i} \underset{j}{Σ} s_{ij}^{'} = q_{i} \underset{j}{Σ} \underset{k \in N_{j}}{Σ} s_{ik} m_{ik} ({s_{iu}}_{u \in N_{j}}) = q_{i} \underset{j}{Σ} s_{ij} q_{ij}$ (式10)

其中q_ij是在空间相邻内的实例分数上的函数，并且是给定训练袋 i中的所有实例的分数和位置上的函数。函数q_ij和将空间群集并入多实例学习中。

利用式6和式10，可以得到：

$p_{i} = 1 - Π_{j} {(1 - p_{ij})}^{q_{i} q_{ij}}$ (式11)

以及通过式1，可以得到：

$w_{ij} \equiv \frac{\partial \log L (H)}{{\partial y}_{ij}} = q_{i} q_{ij} \frac{l_{i} - p_{i}}{p_{i}} p_{ij}$ (式12)

通过在多实例学习中并入空间上下文信息，训练实例分类器识别具有较低展开的正向袋。对q_i的计算是高效的因为只有对正向袋中的实例评估成对距离并且因为中值滤波器只在小的相邻区域中被执行。

在步骤114中，与选定弱分类器相关的权重参数被确定。使用线性搜索来确定该权重参数以实现减少与式5所示的成本值梯度相关的成本函数，或者换句话说，将logL(H+λ_th_t)最大化。

在步骤116中，将选定的弱分类器加入分类函数。该选定的弱分类器加入分类函数，其将在此用于训练所有剩余的弱分类器。选定的弱分类器代表最有可能加强分类函数用于进一步训练其他弱分类器的分类器。

如果还有剩余的弱分类器要进行训练，该方法回到步骤108并迭代地执行步骤108到116来训练剩余的弱分类器。

如果没有剩余的弱分类器，该方法进行到步骤118。在步骤118，输出包含所有经训练的弱分类器的经训练的分类函数。所有选定的弱分类器被加入到分类函数用于标志检测器以便精确地检查标志。

在步骤120，使用经训练的分类函数检测输入图像中的标志。该输入图像可以从3D体积导出。该3D体积可以是C形臂CT体积，计算机断层造影(CT) 体积，磁共振成像(MRI)体积，等等。该3D体积可以从图像获取装置，比如 C形臂图像获取系统接收，或者可以是从计算机系统的内存或存储器，或者某一其他计算机可读媒体中装载的事先存储的体积。

本发明使用噪声注释以及还有清楚的注释来指导实验。收集经专家注释的 400个CT 3D体积。该注释识别两个标志：气管分叉和左肺顶部。在图2a到2d 中标志202代表气管分叉标志，并且在图2a到2d中标志204代表左肺顶部标志。在400个CT 3D体积中选择100个用于测试并且300个被选择用于训练。从被选择作为训练体积的300个CT 3D体积中，随机地选择200个训练体积通过在每个维度上均匀地扰动在-16mm到16mm范围内的标志基础真实位置生成噪声注释。在学习期间，正向袋相邻区域的宽度被设置为60立方毫米，以噪声注释为中心。这个设置模拟其中在每个维度中注释错误应小于+/-30毫米的质量控制。

此处相应于图1所述的方法与传统的多实例学习以及增强算法比如 MILBoost和AdaBoost相比较。图3a和3b示出了当使用AdaBoost，MILBoost，以及此处描述的方法200个噪声注释和变化数量的清楚(没被干扰的)注释被用于训练气管分叉检测器时的结果。302代表AdaBoost结果，304代表MILBoost 结果以及306代表此处相应图1所述的方法的结果。图3a，图3b中所示的Q50 和Q95距离误差分别地指按距离误差升序分类的体积的50百分位(中间值)和 95百分位。95％距离误差图表提供了鲁棒性的量度。给定小数量的清楚注释，此处相应图1所述的方法比MILBoost和AdaBoost具有更小的误差率。此外，此处相应图1所述的方法仅仅需要30个清楚的注释以粗略地实现与使用100个清楚注释的AdaBoost相同的性能。丢弃噪声注释在任何被测试的算法中不能产生更好的结果，这意味着噪声注释为训练检测器提供有用的信息。

每个体积的距离误差是N个最高分数实例的基础真实和中间位置之间的距离。不同的算法具有不同的N值，其产生最小的误差。因此，每个算法具有其自己的最佳检测器阈值。

图4示出了当利用经调整的检测器阈值清楚注释的个数固定在10以及噪声注释的个数固定在200时使用AdaBoost，MILBoost，以及此处所述的方法的距离误差。402代表AdaBoost结果，404代表MILBoost的结果，以及406代表此处相应图1所述的方法的结果。根据图4，示出此处所述的方法需要更少数量的最高分数实例来估计标记位置，需要N＝5以达到最小误差，而AdaBoost则需要 N＝50来达到最小误差。这暗示与AdaBoost和MILBoost相比，此处相应图1 所述的方法中的高分值实例与基础真实位置更接近。

图5a和5b示出了在不同的N或者等价地、不同的检测器阈值上的真正向与假正向的比率。图5a显示了用于气管分叉检测器的结果以及图5b显示了用于左肺顶部检测器的结果。记录前N个实例在N个不同值上的各自位置，并且对每个N来说，计数在远离基础真实位置的2.5个体素上的实例的数量。将这些实例标记为假正向。502代表AdaBoost结果，504代表MILBoost结果，以及 506代表此处相应图1所述的方法的结果。根据图5a和5b，可以看出此处所述的方法对不同的N具有最高的真正向与假正向的比率。这意味着与AdaBoost 和MILBoost相比高分数实例更接近基础真实。分别由508和510表示的C_BAG与 C_INST示出独立地使用袋级和实例级的空间上下文信息的结果。结合在袋级和实例级上(由506示出的结果)的两个空间上下文信息提供最好的结果。

图6a-6c的每个描绘了对测试数据的检测结果的可视化。图6a示出了使用 AdaBoost用于气管分叉检测器的实例分数图。图6b示出了使用MILBoost用于气管分叉检测器的实例分数图。图6c示出了使用此处相应图1所述的方法用于气管分叉检测器的实例分数图。根据图6c，可以看到此处相应图1所述的方法的检测器响应高度地集中在基础真实位置上，而图6a和6b的检测器响应更发散。

图7示出了根据本发明实施例的用于训练标志检测器的又另一个方法。在步骤702中，接收多个经注释的训练数据。所述多个经注释的训练数据包括多个正向袋，每个正向袋包括多个正向的经注释的实例，以及多个负向袋，每个负向袋包含至少一个负向的经注释的实例。

通过将n成为具有相应标签l_i，i-1，...，n的训练袋的数量，每个袋i包括用于训练的n_i实例：通过下式表示分配给每个实例的分数：

$f (x_{i}^{j}) = y_{i}^{j} = Σ_{t = 1}^{T} λ_{t} h_{t} (x_{i}^{j})$ (式13)

其中h_t代表弱分类器，λ_t∈R代表与每个弱分类器相关的权重参数，以及T 代表弱分类器的数量。

在步骤704中，基于正向训练袋和负向训练袋通过训练第一弱分类器来初始化分类函数。该分类通过为每个训练袋分配分数来训练第一弱分类器，其产生代表该特定的训练袋是否是正向的概率。

在步骤706中，使用分类函数评估所有训练实例。在这一点上，该分类函数包括该第一弱分类器以及所有训练实例都基于被训练的第一弱分类器被评估。

如果训练不止一个基础分类器，或者弱分类器，并且只要还有剩余的弱分类器要训练，该方法迭代地进行到步骤708来训练每个弱分类器。对于多个剩余弱分类器中的每一个，每个弱分类器都将通过考虑训练袋的空间上下文信息以及每个训练袋中的实例被训练。空间上下文信息的执行将在下文中更详细地被讨论。根据上述步骤训练第一弱分类器后，每个剩余的弱分类器都被训练。

在步骤708中，基于空间上下文信息针对分类函数评估的每个正向训练袋中的每个实例计算成本值梯度。该成本值梯度包括数据项和空间调整项。该空间调整项用于开发正向袋中的实例的空间关系。数据项和空间调整项都将在下文中更详细地讨论。成本值梯度可以由下式表示：

$▿ C (f) (x_{i}^{j}) = ▿ D (f) (x_{i}^{j}) + λ ▿ R (f) (x_{i}^{j})$ (式14)

其中 $f = Σ_{k = 1}^{t - 1} λ_{k} h_{k} .$

在步骤710中，基于成本值梯度计算与每个弱分类器相关的梯度值。这些梯度值用于确定哪个弱分类器是下一个被加入到分类函数中的弱分类器。

在步骤712中，选择多个剩余的弱分类器中具有最低的相关梯度值的弱分类器。选定的弱分类器是具有最低相关梯度值的弱分类器。选择此弱分类器基于将空间上下文信息并入相关梯度值的权重。下文讨论如何执行空间上下文信息的详细讨论。与弱分类器相关的梯度(从其中选择最佳弱分类器)可由下式表示：

$Σ_{i = 1}^{n} Σ_{j = 1}^{n_{i}} ▿ C (f) (x_{i}^{j}) h_{t} (x_{i}^{j})$ (式15)

成本值梯度与成本函数相关，其被最小化以确定最佳弱分类器。在一个实施例中，该成本函数包括数据项D和调整项R。因此，全部成本由下式表示：

C(f)＝D(f)+λR(f)(式16)

其中λ≥0是代表多少调整应用于结果的权重参数。通过计算成本函数的梯度对每个弱分类器执行增强来得到成本值梯度。

关于数据项D(f)，为每个实例分配分数y_i，并计算下述数据项成本：

$D (f) = Σ_{i = 1}^{n} \frac{\exp (- l_{i} y_{i})}{N_{l_{i}}}$ (式17)

其中N_-1＝#{i|1≤i≤n，l_i＝-1}代表负向袋的数量并且 N₊₁＝#{i|1≤i≤n，l_i＝+1}代表正向袋的数量。通过归一化，负向袋和正向袋相等地贡献于成本函数。

在此处描述的方法中，成本函数必须只针对正向袋修改。目的是为全部正向袋分配分数y_i并通过将exp(-y_i)加到成本函数以处罚低的分数。理想的情况下，由于最大值函数是不可微分的，代替地可以使用具

有平滑参数k的平滑最大值函数。该平滑的最大值函数表示为：

$y_{i} = \frac{1}{k} \log (Σ_{j = 1}^{n_{i}} \exp ({ky}_{i}^{j}))$ (式18)

当参数k接近无穷大时式16所示的函数接近最大值函数并且对于所有的 k＞0是可微分的。因此，用于成本函数的全部数据项可表示为：

$D (f) = Σ_{i = 1}^{n} \frac{\exp (\frac{- l_{i}}{k} \log (Σ_{j = 1}^{n_{i}} \exp ({ky}_{i}^{j})))}{N_{l_{i}}}$ (式19)

每个训练袋i中的每个实例的梯度如下表示：

$▿ D (f) (x_{i}^{j}) = \frac{- l_{i} \exp (- l_{i} y_{i})}{N_{l_{i}}} (\frac{\exp ({ky}_{i}^{j})}{Σ_{h = 1}^{n_{i}} \exp ({ky}_{n}^{h})})$ (式20)

式18所示的公式达到两个目的：当正向袋中的恰好一个实例具有高的分数时其将具有高分数以及只有当该袋中的每个实例都具有低分数时其将具有低分数。袋i的概率表示为：

$p_{i} = \frac{Σ_{j = 1}^{n_{i}} \exp (y_{i}^{j})}{1 + Σ_{j = 1}^{n_{i}} \exp (y_{i}^{j})}$ (式21)

式19所表示的概率等同于；

$σ (y_{i}) = \frac{1}{1 + \exp (- y_{i})}$ (式22)

其中y_i是利用具有平滑参数k＝1的平滑的最大值函数计算的袋i的分数并且σ(·)是逻辑函数。

通过使用具有足够高的平滑参数k的平滑最大值函数，数据项将不会赞成或惩罚在正向袋中的任何具体分数分布，除非赞成具有至少一个高分数的袋。

关于调整项R(f)可以由全变差(TV)调整来表示：

$R = Σ_{i = 1}^{n} \frac{Σ_{j = 1}^{n_{i}} | | {▿ y}_{i}^{j} | |}{n_{i}}$ (式23)

其中是离散梯度的范数。如果经注释的训练数据包含2D图像或3D 体积，正向袋将最有可能具有网格结构。对2D图像，梯度表示为：

${▿ y}_{i}^{j} = {(y_{i}^{j_{right}} - y_{i}^{j}, y_{i}^{j_{lower}} - y_{i}^{j})}^{T}$ (式24)

其中j_righl是位于右手边的实例的索引而j_lower是在下方的实例的索引。

TV调整考虑到分数图中的顶点和赞成高分数被分配到的空间连接的实例的子集合。具有低周长的子集合是被赞成的。可由coarea公式解释这一点：

$\int Ω | | ▿ y | dx = \int_{- \infty}^{\infty} | P ({y > t}, Ω) dt$ (式24)

其中P({y＞t}，Ω)是集合Ω中的水平集合{{x∈Ω|y(x)＞t}}的周长。执行上述TV调整的检测器将输出其水平集合具有低周长的分数。

图8描绘了来自两个分数图的两个水平集合的周长级别。图8中所示的两个分数图是具有相应的水平集合806的分数图802，以及具有相应的水平集合 808的分数图804。水平集合806具有12个单位的周长，而水平集合808具有8 个单位的周长。因此，水平集合808具有更低的TV调整值。

上述的TV调整是不可微分的，而是凸的。可以使用子梯度或平滑近似来达到该调整。平滑近似可以通过将范数替换为来达到，

其中ε＞0是常量以及d是维度。该调整然后平滑具有0梯度的点。袋中每个实例的梯度(起因于平滑的调整项)由下式表示：

$▿ R (f) (x_{i}^{j}) = - div (\frac{{▿ y}_{i}^{j}}{n_{i} \cdot \sqrt{Σ_{k = 1}^{d} {(▿ y_{i}^{j})}_{k}^{2} + ϵ}})$ (式26)

其他调整也是可能的。比如：

$R = λ Σ_{i = 1}^{n} Σ_{j = 1}^{n_{i}} {| | {▿ y}_{i}^{j} | |}^{2}$ (式27)

使用式27导致确保分类器不会被强烈地改变的调整。当存在其中邻近概率应该类似的袋时，这是期望的。

在步骤714中，确定与选定的弱分类器相关的权重参数。使用线性搜索来确定该权重参数以实现减少与成本值梯度相关的成本函数。

在步骤716中，将选定的弱分类器加入分类函数。该选定的弱分类器加入分类函数，这将由此用于训练所有剩余的弱分类器。选定的弱分类器表示最有可能加强分类函数用于进一步训练其他弱分类器的分类器。

在步骤718中，在训练每个弱分类器时可以应用修剪操作以便减少计算负担。该修剪操作使用经训练的弱分类器计算所有负向实例的分数，在训练袋中执行负向实例的权重微调(weight trimming)，并且包括来自所有训练实例的具有高分数的负向袋来代替微调的负向实例。为了减少计算负荷，拒绝阈值必须被设置为在过程的早期拒绝假负向。例如，如果有需要分类的实例x，并且拒绝阈值θ(t)其中如果t∈R，t＜T并且则在没有评估剩余T-t个弱分类器的情况下实例x可能被拒绝。

使用下述拒绝阈值考虑到保留每个正向袋中的至少一个实例：

$θ (t) = \min_{{1 \leq i \leq n_{i}, l_{i} = 1}} [\max_{{1 \leq j \leq n_{i}}} Σ_{s = 1}^{t} λ_{s} h_{s} (x_{i}^{j})]$ (式28)

如果还有剩余的弱分类器要进行训练，该方法回到步骤708并迭代地执行步骤708到718来训练剩余的弱分类器。

如果没有剩余的弱分类器，该方法进行到步骤720。在步骤720中，输出包含所有经训练的弱分类器的经训练的分类函数。所有选定的弱分类器被加入到分类函数用于标志检测器使用以精确地检测标志。

在步骤722中，可以使用经训练的分类函数检测输入图像中的标志。该输入图像可以从3D体积导出。该3D体积可以是C形臂CT体积，计算机断层造影(CT)体积，磁共振成像(MRI)体积，等等。该3D体积可以从图像获取装置，比如C形臂图像获取系统接收，或者可以是从计算机系统的内存或存储器，或者某一其他计算机可读媒体中装载的事先存储的体积。

使用此处相应图7所述的方法来实施实验以训练标志检测器来检测气管分叉。训练数据集包含具有1个实例的80个训练袋(每个实例都是来自专家的精确或清楚的注释)以及具有1000个实例的194个训练袋(其中一个代表了气管分叉的真实位置，一个实例是未知的)。每个弱分类器通过矩形特性的柱状图来表示。负向实例取样自训练数据集在不同于正向袋中实例的位置的所有位置上。如果一个实例与精确物体位置的距离小于或等于2.5mm则它被认为是正向的。作为比较，使用没有空间调整的MILBoost来训练数据集，并将结果与此处相应图7所述的使用空间调整的方法相比较。

图9描绘了接收机运行特性(ROC)曲线，其示出使用MILBoost和使用此处相应图7所述的方法的真正向比率以及假正向的数量。通过ROC曲线，可以显而易见的看到此处相应图7所述的执行空间调整的方法在检测气管分叉中显示了显著的改进。

对固有模糊不清的数据集执行第二个实验，在这个实验中其训练标志检测器来检测肝尖。通常，由于肝的上部是平的所以对肝尖的检测是很困难的，这给合适地注释带来了困难。为了训练，使用100个训练袋(每个具有一个精确的注释)以及200个正向袋(在每个袋内具有1000个例子)。

图10示出了两个分数图，一个分数图来自执行没有空间调整的MILBOOst，另一个分数图来自执行此处相应图7所述的方法。分数图902代表由使用 MILBoost训练的分类器引起的分数图并且分数图904代表由使用此处相应图7 所述的方法训练的分类器引起的分数图。空间调整的影响在分数图904中是很明显的，与没有使用空间调整的分数图902相比其表现为更加密集的高分数群集。

图11描绘了接收机运行特性(ROC)曲线，其示出使用MILBoost和使用此处相应图7所述的方法的真正向比率以及假正向的数量。通过ROC曲线，可以显而易见的看到此处相应图7所述的执行空间调整的方法在检测肝尖中显示了显著的改进。

上述的用于训练标志检测器的方法可以在计算机上使用公知的计算机处理器，内存单元，存储设备，计算机软件，以及其他构件执行。图12示出了这样计算机的高层结构图。计算机1202包括处理器1204，其通过执行计算机程序指令控制计算机1202的所有操作，该计算机程序指令定义这样的操作。计算机程序指令可以存储在存储设备1212，或其他计算机可读媒体(如，磁盘，CD ROM，等等)中并且当需要执行计算机程序指令时被装载到内存1210中。因此，图1 和7的方法的步骤可以通过存储在内存1210和/或存储器1212中的计算机程序指令来定义并通过执行该计算机程序指令的处理器1204来控制。图像获取设备 1220可以连接到计算机1202以将图像输入到计算机1202中。可以将图像获取设备1220与计算机1202实现为一个设备。通过网络使图像获取设备1220和计算机1202无线通信也是可以的。计算机1202还包括一个或多个网络接口1206 用于通过网络与其他设备通信。计算机1202还包括其他输入/输出设备1208(如，显示器，键盘，鼠标，扬声器，按钮，等等)，其实现用户与计算机1202的交互。本领域技术人员可以认识到实际计算机的实现也可以包含其他的组件，而图12是用于说明目的的这样计算机的某些组件的高层次表示。

上述详细描述可以理解为在每个方面是说明性和示意性的，而非是限制性的，并且本发明此处公开的范围并不是由详细描述来确定的，而是由根据通过专利法允许的全部宽度解释的权利要求来确定。可以理解的是此处示出和描述的实施例只是对本发明原理的说明并且各种修改可以通过本领域技术人员在不偏离本发明的范围和精神的情况下被实施。本领域的技术人员可以在不偏离本发明的范围和精神的情况下实施各种其他特征的组合。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 使用多个实例学习来训练标志检测器的方法和系统 [P] . 中国专利： CN102436587B . 2016.01.27
2. 使用多个实例学习来训练标志检测器的方法和系统 [P] . 中国专利： CN102436587A . 2012-05-02
3. Method and system for training a landmark detector using multiple instance learning [P] . 欧洲知识产权局专利： EP2434434A3 . 2013-02-27

机译：使用多实例学习训练地标检测器的方法和系统
4. Method and system for training a landmark detector using multiple instance learning [P] . 美国专利： US8588519B2 . 2013-11-19

机译：使用多实例学习训练地标检测器的方法和系统
5. Method and system for training a landmark detector using multiple instance learning [P] . 欧洲知识产权局专利： EP2434434A2 . 2012-03-28

机译：使用多实例学习训练地标检测器的方法和系统