首页> 中国专利> 一种确定异常程度的方法、相应的计算机可读介质和分布式癌症分析系统

一种确定异常程度的方法、相应的计算机可读介质和分布式癌症分析系统

摘要

目前的癌症筛查方法不适合大规模应用并且对患者不透明。该问题可通过确定异常程度的方法来解决,所述方法包括以下步骤:a)接收全切片图像(11,w,722),所述全切片图像(11,w,722)描绘了细胞的至少一部分;b)使用神经网络(600)对所述全切片图像(11,w,722)的至少一个图像分块(13,601,721,721’,721”)进行分类,以确定与所述至少一个图像分块(13,601,721,721’,721”)相关联的局部异常程度值(15,a_j,519,719,719’,719”),所述局部异常程度值(15,a_j,519,719,719’,719”)表示相关联的至少一个片段描述了癌细胞的至少一部分的似然性;和c)基于所述至少一个图像分块(13,601,721,721’,721”)的局部异常程度值(15,a_j,519,719,719’,719”)确定所述全切片图像(11,w,722)的异常程度(17)。

著录项

  • 公开/公告号CN112543934A

    专利类型发明专利

  • 公开/公告日2021-03-23

    原文格式PDF

  • 申请/专利权人 H-LABS股份有限公司;

    申请/专利号CN201980049827.2

  • 发明设计人 贝尔德·拉尔曼;

    申请日2019-06-19

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);H04L9/32(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N5/02(20060101);

  • 代理机构31260 上海晨皓知识产权代理事务所(普通合伙);

  • 代理人成丽杰

  • 地址 德国海德尔堡

  • 入库时间 2023-06-19 10:21:15

说明书

技术领域

本申请涉及一种确定异常程度的方法、相应的计算机可读介质和分布式癌症分析系统。

背景技术

癌症筛查计划依赖于通过可信赖的专家对癌症病变进行一致的早期检测。如果癌症发现得足够早,就可以进行局部治疗并因此通常可以有效地避免患者的健康风险。在许多情况下,癌症筛查包括进行活检,活检是潜在癌变区域的小组织样本。这种活检通常在常规医疗检查期间进行,或者在预先医疗检查后的特殊指征下进行。与任何其他病理组织标本一样,活检通过专家(通常是经委员会认证的病理学家)在载玻片上制备后进行评估。病理学家在一定程度上接受过可到职专家团体的培训,并全权负责诊断。通常,病理学家会向同事征求第二种意见。患者本人通常不知道且也不了解组织标本的诊断过程,从未见过且也不了解为他或她做出这一重要医疗决定的人或其资格。结果,患者最终依赖于一个相当不透明的过程。这一过程导致相关的利益攸关方对整个系统的信任有限。这种感觉可以通过许多研究得到客观支持,这些研究显示了在癌症诊断中医疗决策质量的巨大差异。而且,病理样本的评价没有黄金标准,导致诊断结果差异较大。因此,需要一种客观的筛查方法,其能够产生可比较的结果,并对参与方透明。

宫颈癌是全世界女性癌症死亡的主要原因之一。宫颈癌是女性第四大最常见的恶性肿瘤,并且每年导致新增约530,000例病例、270,000例死亡。此外,宫颈癌的全世界死亡病例中约有85%发生在不发达国家或发展中国家,且低收入和中等收入国家的死亡率是富裕国家的18倍。

认识到宫颈肿瘤开始于上皮内变化,所述变化通常需要多年才能发展成侵袭性疾病,导致在筛查中使用宫颈脱落细胞学检查(如用刷子)。这样,检测到的宫颈上皮内瘤变可以及早治疗,以防止宫颈癌的发展。建议全世界所有性活跃的妇女进行宫颈癌筛查。

目前,这种筛查主要基于宫颈细胞涂片的形态学和细胞学检查,即所谓的巴氏(PAP)试验,其是在定期对性活跃妇女进行妇科常规检查的基础上进行。不幸的是,高达30-50%的PAP试验结果为假阴性,使得PAP试验不是令人满意的解决方案。此外,PAP试验在许多低收入和中等收入国家中尚未得到有效实施。因此,超过85%的全球癌症病例和相关死亡发生在这些国家。

例如,通过测序技术进行基因检测是进一步的诊断似然性,这适用于几乎所有类型的癌症。而且,基因检测的检测特异性不足。无论如何,仅靠基因检测是不够的。

在这方面,为了支持宫颈癌筛查中的人乳头瘤病毒(HPV)基因检测,基于生物标志物的免疫细胞学起着至关重要的作用。例如,在与液基细胞学相关的双重染色中,使用p16和Ki67蛋白对细胞样品进行检测。这些检测在初级筛查和作为女性HPV阳性的分诊中显示出有希望的结果。不幸的是,迄今为止,只有经过专门训练的人类专家在最佳设置下才能获得这些检测的良好准确性结果。因此,准确性也很大程度上取决于人类专家。

每种癌症类型的样本均显示出非常具体的形态特征集合。病理学家通常接受至少十年的培训,然后才成为通常仅在几个特定领域的专家。在每一个领域,他们经过训练以识别指示特定疾病形式或不同癌症等级的特定模式(在宫颈癌中,例如,宫颈上皮内瘤变等级通过数字0-3进行量化)。当使用组织学或细胞学生物标记来突出特定的空间模式时,这就更加复杂了。不幸的是,尽管此类检测的标准方案通常是指定的和预先确定的,但实验室之间仍存在相当大的差异。例如,用于制备和执行实际样品染色的物质的化学行为中不可避免的实验室间差异导致了可变性。

引入整体诊断差异的最重要因素是人类专家本身。人类非常擅长对空间模式进行视觉解释,并且往往能够以高准确度重现决策,因为他们倾向于坚持在自己大脑中建立的决策模式。然而,这导致在较大的人类专家群体中观察者之间的高度差异。

总之,当考虑所有区域差异以及实验室中基本实验过程的可变性和不同专家时,很明显,诊断过程中的所有这些因素的组合将导致诊断质量的巨大可变性。

甚至,基于生物标志物的免疫细胞学检测(如Roche-Ventana CINtec检测)提供了广泛的文献。即使在其非常一般的工作流程中,也要求专家遵循非常复杂的视觉筛查程序。此外,需要做出非常复杂的决定,即使是专家也很难客观地遵循这些决定。对于双重染色的宫颈上皮细胞,存在特定的标准,包括p16和Ki67的空间位置,例如它们以特定的外观在同一细胞内的共定位,使得例如一个红色细胞核必须与一个棕色染色在同一显微镜平面内。然后,专家必须决定染色强度是“弱”还是“强”,以正确应用检测。这个非常困难。此外,Ki67信号强度(红色)可以用含有斑点或颗粒状染色图案和核仁红色染色的细胞核均匀染色,而阴性细胞包括仅用一种蓝色复染剂染色的宫颈上皮细胞,或仅用棕色和/或核染色剂或仅用红色核染色剂。然后在70多页的篇幅中,用各种不同类型的模式的例子来具体说明这套非常通用的标准。描述了整个载玻片的一般特定程序,要求细胞学家或病理学家以10倍或20倍的放大倍数系统地扫描整个载玻片,以蛇形方式寻找癌症事件。在上述文献中还提到的一个具体问题是细胞群的处理,这些细胞群可能会出现,并且具有描述其评估的专用的进一步特殊协议。

所有这些例子表明,像CINtec plus检测这样的细胞学检测的解释是非常复杂的,很难标准化和复制。因此,观察者之间的差异显然是这种检测最关键的挑战。

总之,在癌症筛查中细胞学或组织学活检的分析是基于上述的图像的视觉解释。视觉解释可以使用例如人工神经网络来完成。近年来,基于深度学习的人工神经网络已经在许多领域受到关注,并且在模式识别方面取得了很好的准确性。一般来说,人工神经网络和人工智能自计算机出现之初就被广泛应用于临床决定支持系统中。除了细胞学评估之外,人工神经网络已经用于放射学图像中的肺癌筛查。从20世纪90年代开始,提出了在细胞病理学中的神经网络的概念。通常,经过适当训练的人工神经网络具有容忍模糊和噪声数据的能力。人工神经网络被提议与其他传统算法处理技术一起用于定量病理学系统的开发。绝大多数神经网络应用是用于宫颈病理学,本申请对此进行了进一步扩展。

许多提出的神经网络应用与乳腺和甲状腺细胞病理学以及泌尿道细胞病理学有关。神经网络在胃肠系统的细胞病理学中的应用程度较低,并且在渗出性细胞病理学中的应用程度更低。尽管如此,仍然有细胞病理学子学科尚未使用神经网络,尤其是除了淋巴结、呼吸系统、软组织、骨骼和皮肤、肝脏和胰腺、中枢神经系统和眼睛等之外的细胞病理学。此外,目前可用的算法不使用上下文信息,并且几乎完全避免使用细胞核特征。通常,不考虑干扰诊断的噪声(例如甲状腺细胞病理学中的胶体存在)。可用的算法在很大程度上依赖于每种组织类型和解剖部位的染色和细胞特征。

最后,将新知识添加到神经网络是一个大问题,因为通过过拟合训练数据可能会破坏鲁棒性和分类。

发明内容

因此,本申请的目的是提供一种方法和系统,以足够的确定性检测癌细胞。此外,本申请的目的是提供一种能够以自动方式处理全切片图像的方法和系统。另外,本申请的目的是减少检测结果的可变性。此外,本申请的目的是降低细胞检测的成本和处理时间。此外,本申请的目的是使诊断过程对患者透明。

本申请的目的通过权利要求1、12和13的主题来解决。

特别地,本申请的目的通过一种确定异常程度的方法来解决,所述方法包括以下步骤:

a)接收全切片图像,所述全切片图像描绘了细胞(特别是人类细胞)的至少一部分;

b)使用神经网络对全切片图像的至少一个图像分块进行分类,以确定与所述至少一个图像分块相关联的局部异常程度值,所述局部异常程度值表示相关联的至少一个片段描述了癌细胞的至少一部分的似然性;和

c)基于所述至少一个图像分块的局部异常程度值确定全切片图像的异常程度。

本申请的核心方面是可以使用神经网络自动处理全切片图像以确定异常程度。因此,不需要单独的特征检测器,例如角点检测器。因此,本申请依靠神经网络技术,提供了端到端的学习系统。此外,神经网络中的每一层都类似于用于评估图像分块的硬标准,即每一层都充当复杂的特征检测器。因此,使用神经网络的另一个优点是可以获得可比较的结果。另外,另一个优点在于将全切片图像分割成至少一个图像分块。因此,每个图像分块可以并行处理,从而获得更快的处理速度。本申请还允许在不同位置处理上述方法的每个步骤。例如,全切片图像可以在第一位置生成,并且可以在第二位置进行分类和确定。这样,容易实现所述方法的全局应用。因此,每次检测的成本显著下降。在本申请的上下文中,术语“局部”可以解释为涉及在全切片图像上的特定区域、全切片图像的特定特征,例如,全切片图像的颜色通道或其他特征。

在一个实施例中,所述方法可包括将全切片图像分割成多个图像分块(特别是使用K均值聚类算法),每个图像分块的尺寸相同。

因此,所述方法还可以包括分割步骤,其中所述全切片图像被分割成多个图像分块。优选地,所述图像分块的尺寸相同,例如正方形。在一个实施例中,所述图像分块的尺寸取决于神经网络的实现。例如,神经网络可以实现为卷积神经网络,其中分块的尺寸取决于核定义。因此,神经网络的非常有效的实现是可能的。

在一个实施例中,全切片图像的异常程度可以由函数(特别是max-函数)、局部异常程度值(15,a_j,519,719,719’,719”)的统计集合,或者取决于局部异常程度值(15,a_j,519,719,719’,719”)的平均函数来表示。

使用函数来确定异常程度的优点在于,可以使用适当的方法来确定异常程度。因此,在某些情况下,使用用于确定局部异常程度值的最大值的max-函数可以产生良好的结果。在其他情况下,计算局部异常程度值的平均值可能更合适。在一个实施例中,函数取决于待检测的疾病和/或癌症类型。

在一个实施例中,每个图像分块的尺寸可以在32×32像素至1000×1000像素、200×200像素至700×700像素之间,或者大于1000×1000像素。

在一个实施例中,神经网络被实现为卷积神经网络,所述神经网络包括:

-至少五十层,

-至少二十个池化层,

-至少四十个卷积层,

-每个所述卷积层中有至少二十个内核,

-至少一个全连接层,

-softmax-分类器层,和/或

-使用对数和/或逻辑函数作为激活函数的神经元。

在一个实施例中,所述神经网络的最后一层可以由具有两个类别的softmax-分类器层制成。

作为上述实施例的结果,神经网络实现可能有较大的可变性。重要的是,当与各自的池化、二次采样和内核定义相结合时,使用更深(即更多的层)的网络通常会提高分类结果的精度。例如,具有超过五十层(优选地超过八十层)的网络能够检测和概括图像分块的更精细的子结构。在一个优选实施例中,softmax-分类器层被用作最后一层,表示分类过程的最终结果。因此,离散的类(最好是两个)的集合可以用作分类结果数据。

在一个实施例中,所述方法可以包括使用存储在知识库中的训练数据训练神经网络,所述训练数据包括多个元组,每个元组表示图像分块、训练异常值和似然值。

为了训练神经网络,通常需要大量的训练样本。对于本申请,这些样本包括关于图像分块的数据、训练异常值和/或似然值。训练异常值可以包括癌症的程度,例如格利森值(Gleason value)或格利森评分(Gleason score),其是介于1和5之间的值。在格利森值的情况下,评分为1表示癌性前列腺与正常前列腺组织非常相似。评分为5表示所述组织没有任何或只有几个可识别的腺体。1和5之间的值是1和5级的等级。似然值表示对训练异常值的置信度。因此,非常高的似然值表示训练异常值到各个图像分块的分配最有可能为真。图像分块可以存储为元组中的指针或链接,因此不需要将整个图像分块存储在知识库中。这减少了存储在知识库本身中的必要数据,并且在不需要分块本身的情况下提高了查找速度。训练异常值可以表示为浮点或整数值。似然值可以存储为浮点。

在一个实施例中,所述方法可以包括:

-接收更新的全切片图像,以更新知识库;

-将更新的全切片图像分割成多个图像分块;

-特别是由人类专家为所述多个图像分块的至少一个子集的每个图像分块确定训练异常程度值;

-在使用更新的知识库进行训练时,如果确定添加多个图像分块的子集和相关联的训练异常程度值提高了神经网络的精度,则使用多个图像分块的子集和相关联的训练异常程度值更新知识库。

前述实施例可使知识库有效更新以训练神经网络。也就是说,仅当确定所述更新实际上提高了由神经网络进行的预测的精度时,知识库才被更新。因此,所述实施例防止了不必要的知识库更新,这些更新实际上并未增强处理能力。

在一个实施例中,知识库的更新还可以包括:

-使用所述神经网络为所述多个图像分块中的每一个计算所预测的异常程度值和相关联的似然值;

-基于多个图像分块中的每一个所预测的异常程度值和相关联的似然值来确定优先级值;和

-基于所确定的优先级值来确定图像分块的子集。

在一个实施例中,通过使用二维优先级映射函数p(d,1)→[0,1]来计算优先级值,计算如下:

“a”为异常值,和“l”为似然值。使用此优先级值,可以使用阈值来确定图像分块的子集,其中仅将图像分片添加到具有大于阈值的优先级值的子集。结果是,上述实施例提供了专家要考虑的图像分块的预选。这样,减少了待审查和待发送的图像分块的数量。因此,减少了发送给专家的数据量。

在一个实施例中,确定在使用更新的知识库进行训练时,添加图像分块的子集和相关联的训练异常程度值提高了神经网络的精度可包括:

-使用图像分块的子集和相关联的训练异常程度值更新验证数据库,所述验证数据库尤其包括知识库的至少一个子集;

-使用验证数据库训练神经网络;

-使用在验证数据库上训练的神经网络来预测独立验证队列中的数据,以计算第一精度值;

-使用在知识库上训练的神经网络来预测独立验证队列中的数据,以计算第二精度值;

-比较第一精度值和第二精度值,以确定在使用更新的知识库进行训练时,添加图像分块的子集和相关联的训练异常程度值是否提高了神经网络的精度。

因此,总计有三个数据库可以用于本申请的方法。所述知识库可以捕获当前产生神经网络的知识,所述神经网络导致最佳精度。所述验证数据库可以捕获知识库的数据以及专家的附加数据,这些数据可以为使用神经网络的预测带来更好的精度结果。所述独立验证队列存储地面真实数据,所述数据可用于检测在知识库上进行训练的神经网络和在验证库上训练的神经网络的精度。由此,可以比较两种神经网络的实现方式,并且可以选择最佳的实现方式用于进一步处理。

在一个实施例中,所述方法可以包括在区块链的区块中存储由人类专家确定的图像分块的至少一个子集的每一个的训练异常程度值。

可使用记录交易的分布式数据结构在区块链中存储人类专家的知识。重要的是,当在区块链中存储训练的异常程度值和图像分块的指示时,对于患者和其他医生/专家而言是高度透明的,其数据用于训练用于对他或她的组织样本进行分类的神经网络。结果是,本申请的方法提供了透明的解决方案,其中患者、其他专家和医生始终知道哪些知识有助于对患者的组织样本的评估。

在一个实施例中,区块链(特别是使用链接和/或指针)显示了图像分块、相关联的训练异常程度值和确定存储在知识库中的训练数据的异常程度值的专家。

在一个实施例中,区块链的每个区块包括标头,所述标头包括前一个区块的标头的哈希值和默克尔树的根节点的哈希值,默克尔树表示存储在知识库中的所有数据。

因此,区块链是区块的链,其中区块通过指针彼此链接,指针可以是哈希值。添加专家的新评估(即,新训练的异常程度值和相关联的图像分块)到知识库代表交易,所述交易由区块链进行记录。为此,每个区块存储对相关联的图像分块以及相关联的全切片图像的链接,并且特别是存储做出训练异常程度值评估的专家。由于区块链通常是交易的公共账本,使用链接来指示相关联的图像分块具有以下优点:未经授权的用户不能访问用于训练神经网络的图像数据,而只能访问与图像相关联的评估。因此,保护了图像分块免受未授权的访问。

在一个实施例中,奖励函数可以与每个向区块链贡献评估的人类专家相关联,尤其是使用标识号,奖励函数的值尤其取决于相关联的人类专家做出的贡献的数量。

使用奖励函数的优点是可以激励专家贡献可用于训练神经网络的数据,并因此提高神经网络的精度。奖励函数可以例如触发以某种货币(例如比特币或任何其他货币)向人类专家支付一定数量的钱,作为对贡献的奖励。而且,待支付给专家的值可以根据特定的人类专家已经增加的贡献数量而变化。例如,可以使用下降指数函数对奖励函数进行建模。因此,高的值(例如10)可以是第一次贡献的初始奖励,而低的值(例如1)可以是第十次贡献的奖励。这使得首次贡献对专家来说更具吸引力,并防止虚假和低质量的数据充斥区块链。

在一个实施例中,区块链可以实现验证数据库。

在一个实施例中,奖励函数的值还可以取决于相关联的人类专家的贡献的数量,所述贡献提高了至少部分地基于相关联的人类专家的评估进行训练并通过预测独立验证队列来确定的神经网络的精度值。

如果奖励函数不仅取决于贡献的数量,还取决于每个贡献的质量,则更有优势。这样,如果贡献提高了用贡献训练的神经网络的预测精度,超过了没有贡献的神经网络的预测精度,则有必要给予更高的奖励。这确保了人类专家有动力贡献大量高质量的评估。此外,防止了低质量评估的区块链泛滥。

在一个实施例中,奖励函数可以被实现为区块链上的智能合约。

在一个实施例中,区块链可以实现脚本语言,其中智能合约可以实现为与区块链上的交易相关联的脚本语言中的脚本,其中当包括所述脚本的新区块被添加到区块链时,可以执行所述脚本。

因此,可以使用智能合约来实现奖励函数。这提供了一种全自动机制,以将新数据添加到区块链并奖励提供新数据的人类专家。因此,提供了这种方案的非常高效的实现方式。

总之,使用区块链来存储人类专家的评估会产生复杂的反馈回路,以提高神经网络的精度。

在一个实施例中,区块链的每个区块还可以包括元数据,所述元数据包括指示人类专家的地理位置、人类专家的资格、人类专家的经验年数和/或人类专家所属的协会。

在一个实施例中,所述方法还可以包括选择存储在区块链中的数据的至少一个子集作为验证数据库。

在一个实施例中,可以基于存储在区块链中的元数据来选择存储在区块链中的数据的子集。

利用上述实施例,可以基于元数据过滤用于训练神经网络的数据。例如,由于监管限制,可能有必要仅根据在特定国家执业的专家贡献的数据来训练神经网络。上述实施例提供了一种适应这种要求的简单方法。

在一个实施例中,所述方法还包括在第二区块链中存储神经网络的指示(例如,神经网络的哈希值)。所述指示可以包括对用于训练神经网络的所有训练数据的进一步指示。

在本专利申请的范围内,区块链可以指任何数字账本技术,例如区块链、缠结(Tangle)或哈希图(Hashgraph)。

利用上述实施例,提供了神经网络的不可变版本历史。因此,对于每个利益相关者而言,在神经网络的那个版本中使用了那些数据是高度透明的。

特别地,所述问题还通过一种存储有指令的计算机可读介质来解决,当所述指令被至少一个处理器来执行时,使得至少一个处理器实现根据前述实施例中的任一个的方法。

上述解决方案的优点类似于或等同于上述方法。

特别地,上述问题还可通过一种分布式癌症分析系统来解决,所述系统包括以下组成部分:

-分割实体,用于接收全切片图像,所述全切片图像描绘了细胞、特别是人类细胞的至少一部分;和

-计算实体,用于使用神经网络计算全切片图像的异常程度。

在一个实施例中,所述分布式癌症分析系统可以包括包含训练数据的知识库,其中所述计算实体还用于使用训练数据来训练神经网络。

在一个实施例中,所述计算实体可以用于使用函数(特别是max-函数)、与至少一个图像分块相关联的局部异常程度值的统计集合和/或根据与至少一个图像分块相关联的局部异常程度值的平均函数来计算全切片图像的异常程度。

在一个实施例中,分布式癌症分析系统可以包括通信接口,所述通信接口用于将多个图像分块的至少一个子集分配给至少一个专家,其中所述分割实体还用于将所述全切片图像分割成多个图像分块。

在一个实施例中,所述分布式癌症分析系统可以包括优先化实体,所述优先化实体用于确定要通过通信接口传输给至少一个专家的图像分块的子集,其中所述优先化实体还可以用于基于为每个图像分块计算的优先级值来确定候选图像分块的子集。

在一个实施例中,所述分布式癌症分析系统可以包括检测实体,所述检测实体用于:

-接收验证数据库的验证训练数据,所述验证训练数据包括至少一个验证集,所述验证数据库尤其包括由至少一个专家确定的知识库的至少一个子集;

-使用接收到的验证数据训练神经网络;

-使用在验证数据上训练的神经网络来预测独立验证队列中的数据,以计算第一精度值;

-使用在知识库上训练的神经网络来预测独立验证队列中的数据,以计算第一精度值;

-比较第一和第二精度值,以确定当用更新的知识库进行训练时,添加所述图像分块的子集和相关联的训练异常程度值是否提高了神经网络的精度。

在一个实施例中,所述分布式癌症分析系统还包括区块链,其用于存储区块中图像分块的至少一个子集的每一个的训练异常程度值的区块链,所述训练异常程度值由人类专家确定。

在一个实施例中,所述区块链可以用于指示图像分块、相关联的训练异常程度值以及确定存储在知识库中的训练数据的训练异常程度值的专家。

在一个实施例中,所述区块链的每个区块可以包括标头,所述标头包括前一个区块的标头的哈希值和默克尔树的根节点的哈希值,所述默克尔树指示存储在知识库中的所有数据。

上述的分布式癌症分析系统的益处和优点等同于或类似于上述的确定异常程度的方法的优点。

在替代实施例中,上述方法的确定步骤可以基于指示至少一个图像分块的局部异常值的局部值来确定指示全切片图像的异常的值。

在一个实施例中,指示异常的值可以指示异常腺体的面积,特别是在前列腺和/或组织区域中。

其替代方法可识别由癌组织影响的区域,例如全切片图像的50%。

从属权利要求显示了其他实施例。

附图说明

下面结合附图描述本申请的实施例。

图1示出了确定异常程度的方法的流程图。

图2示出了确定异常程度的系统的示意图。

图3示出了显示改善所使用的神经网络的精度的方法的不同阶段的流程图。

图4示出了显示图3所述方法的第一阶段的流程图。

图5示出了显示图3所述方法的第二阶段的流程图。

图6示出了显出图3所述方法的第三阶段的流程图。

图7示出了显示图3所述方法的第四阶段的流程图。

图8示出了提高神经网络精度的系统的示意图。

图9示出了可与本申请一起使用的卷积神经网络的示意图。

图10示出了区块链的示意图。

具体实施方式

图1示出了确定异常程度值10的方法的流程图。在第一步中,在分割阶段12期间处理全切片图像11。全切片图像11描绘了可能是癌性的人体细胞的一部分。此外,全切片图像11可以示出已经用生物标记物处理(例如CINTEC检测)过的细胞。因此,在全切片图像中的某些区域出现变色,表示某些化学反应。然后,全切片图像11在分割阶段12中被分割成多个图像分块13。每个图像分块代表全切片图像的一部分。因此,多个图像分块13一起形成全切片图像11。优选地,图像分块13的尺寸相同。在本实施例中,图像分块13的尺寸均为30×30像素。在其他实施例中,可能是其他分块尺寸,例如100×100像素、200×200像素或1000×1000像素的尺寸。全切片图像11通常具有非常高的分辨率,例如包括超过1600万像素。

在下一步骤中,在预测阶段14处理图像分块13,其中为每个图像分块计算局部异常程度值15。在本实施例中,所述局部异常程度值15通过卷积神经网络进行计算。重要的是,每个图像分块13可以并行处理。所述神经网络的架构将参照图9进行详细解释。

在确定了每个图像分块13的局部异常程度值15之后,在评估阶段16期间计算异常程度17。因此,异常程度值17基于多个图像分块13。在本实施例中,异常程度17仅仅是每个图像分块的不同局部异常程度值15的最大值。这是由于对于人体细胞的癌变事实,这足以使人体细胞的单个部位显示出癌变特征了。

图2示出了实现图1的方法的相应系统。图2的系统20包括图像处理实体30,其包括分割实体22以及计算实体24。计算实体24通信地耦合到存储有训练数据26的数据库25,其使用训练数据26来训练神经网络。神经网络用于确定异常程度值。例如,由分割实体22读取全切片图像21。分割实体22用于将全切片图像21分割成多个图像分块23。多个图像分块23可以存储为一个集合或一个阵列。也可能是其他数据结构,例如哈希映射或排序列表。计算实体24还用于处理多个图像分块23以确定结果27,即异常程度。为此,计算实体24使用神经网络来处理多个分块23中的每个分块。异常程度27最终由图像处理实体30返回给用户。

在图2所示的实施例中,知识库25可以远离图像处理实体30存储。这样,知识库25和计算实体24之间的通信链路可以实现为互联网连接。也可能是其他类型的网络,例如内部网。全切片图像21可以在世界各地的任何实验室中获得,即全切片图像21也可以通过互联网连接传送到分割单元22。

图3示出了提高图1所示方法的精度的方法的不同阶段。从图3可以明显看出,所述方法包括预测阶段100、优先化阶段200、决策阶段300和改进阶段400。现在将参照图4至图7详细描述每个阶段。

图4示出了预测阶段100的不同子阶段。在第一划分阶段110,全切片图像w被分割成多个图像分块t_1至t_n。在下一步骤中,使用神经网络来预测每个图像分块t_j的预测异常值a_j和似然值l_j。预测值可以与指向图像分块t_j的指针一起存储为元组。因此,可以在异常预测阶段120期间生成元组阵列。

例如,神经网络可以预测元组(a_1,l_1)=(4,30%)。因此,神经网络已经预测了图像分块t_1的格利森等级为4,和似然性为30%。对每个图像分块重复相同过程,生成一个阵列,其大小等于在划分阶段110期间生成的图像分块t_1至t_n的数量。

在列表创建阶段130中生成完整列表,其中所有预测的异常值和似然值连同指向它们各自的图像分块的指针一起被分组到列表L_w中。

图5详细说明了优先化阶段的工作方式。在优先化阶段处理列表L_w。使用二维优先级映射函数处理所述列表中的每个条目,即单个预测的异常值以及似然值和指向相关图像分块的指针。例如,具有计算定义的函数:

因此,对于上述元组(4,30%),按照下式计算所生成的优先级值:

对存储在L_w中的每个元组重复相同的过程。将结果一起分组到优先级元组S_w的列表中,其中每个元组的形式为(t_j,a_j,l_j,p(t_j,l_j))。

在下一个候选排除阶段230中,对列表S_w进行过滤,过滤掉所有具有低优先级的元组。例如,排除在列表S_w中优先级低于0.5的所有条目。然后,在分发阶段240期间将所生成的列表C分发给专家E。专家E可以是本领域的人类专家,例如病理学家。人类专家E可以位于世界各地,并因此在分发阶段240期间的分发可以使用互联网或任何其他电子通信手段来完成。重要的是,仅向专家分发列表C,而不是整个列表S_w。

图6显示了决策阶段300。在审查阶段310,每个专家审查存储在候选列表C中的数据。专家利用他们的知识和经验对各自的图像分块做出决定,提供训练异常值和似然性。例如,专家可以简单地同意由神经网络产生的预测。在另一种情况下,专家可以将神经网络做出的预测更正为不同的预测。在此过程中,可以通过图形用户界面来支持专家,其中专家可以容易地查看每个图像分块,并对训练异常程度和似然值做出决定。在异常确定阶段320期间,由专家进行训练异常的确定。在下一阶段,在知识库扩展阶段330期间将不同的训练异常值a_w进行组合以生成验证数据库VD。因此,验证库VD包括用于训练神经网络的原始知识库25的数据,所述神经网络用于预测每个图像分块的预测的异常和似然值。

图7示出了在精度比较阶段410期间进一步处理验证数据库VD。在精度比较阶段410期间,基于存储在验证数据库VD中的数据来训练神经网络。然后,神经网络用于预测存储在独立验证队列中的异常值。独立验证队列存储异常值、图像切片和似然值。这样,所述独立验证队列包括基础事实数据,其可用于比较在验证数据库VD和原始知识库25上训练的神经网络的结果。

因此,使用在知识库25上训练的神经网络为独立验证队列计算第一精度值。然后为在验证数据库VD上训练的神经网络计算第二精度值。最后,可以比较第一精度值和第二精度值,显示哪个训练数据在独立验证队列上带来了更好的预测结果。精度可以计算为

因此,在确定阶段420,可以确定那个训练数据带来了更好的结果。如果验证数据库VD产生了更好的精度值,则所述方法进行到是-分支,继续网络替换阶段430。在网络替换阶段430,知识库25被验证数据库VD替换。此外,用于在阶段120中计算预测的神经网络被在验证数据库VD上训练的神经网络替代。如果确定阶段420发现知识库25比在验证数据库上训练的神经网络带来更好的结果,则使用否-分支,并且过程结束。

图8示出了用于实现图3至图7的方法的系统500。图8示出了分布式癌症分析系统500(Distributed Cancer Analysis System,简称为DCAS),其包括验证数据库515、独立验证队列516和知识库517。知识库517通信地耦合到分析系统510的计算实体512。知识库517存储训练数据509,其可通过使用计算实体512来训练神经网络,以将图像分块分类成局部或预测的异常程度和似然性对503。分割实体511用于接收全切片图像501并生成一组图像分块502,这些图像分块被发送到计算实体512。如上所述,优先化实体513为由计算实体512确定的异常程度和似然性对503的列表中的条目确定优先级值。

基于优先级值,优先化实体513通过将计算出的优先级值与阈值(例如,0.7或0.5)进行比较来确定候选图像分块的列表504。候选图像分块的列表504被发送到通信接口514,所述通信接口514通信地连接三个专家E、E’、E”。专家E、E’、E”位于分析系统510之外,并且可以位于世界各地。每个专家E、E’、E”处理接收到的候选图像分块的列表504,以产生各自的验证集505、505’、505”。也就是说,每个专家E、E’、E”对于验证图像分块预测的异常程度值或改变这些值,并因此创建训练异常程度值。在审查了候选图像分块的列表504之后,专家E、E’、E”将审查过程的结果作为验证集505、505’、505”发送到验证数据库515。验证数据库515包括知识库517的训练数据509以及由专家E、E’、E”获得的附加数据。

验证数据库515将验证训练数据506发送到在分析系统510中包括的检测实体518。使用验证训练数据506,检测实体518训练神经网络,并使用经训练的神经网络来预测在独立验证队列516中的数据。独立验证队列516还将其验证数据508发送到检测实体518。检测实体518还用于计算在验证训练数据506上训练的神经网络的第一精度值。然后,将计算出的精度值与在知识库517的训练数据509上训练的神经网络的精度值进行比较。如果在验证训练数据506上训练的神经网络达到的精度值大于在知识库的训练数据509上训练的神经网络的精度值,则验证训练数据506替换在知识库517中的数据。此外,随后通过使用计算实体512在验证训练数据506上训练的神经网络来处理图像分块。

图9是卷积神经网络600的示意图,其可用于实现本申请的方法和系统。图9示出了可以由神经网络600处理的输入图像分块601。由于神经网络600是卷积神经网络,所以使用多个内核来处理输入图像分块601。特别地,每个内核以连续的方式扫描输入图像分块601的像素,例如以逐行方式从左上角到右下角。参数(即所谓的步幅)表示在每次移动中每个内核移动的像素数。

此外,内核尺寸决定了由所述内核扫描的补丁的尺寸。因此,根据输入图像分块601的尺寸、内核尺寸和步幅,确定在第一卷积层中的特征图603的尺寸。每个特征图603代表一个特征检测器。例如,第一特征图可以用于检测角点。因此,所生成的特征图603是在输入图像分块601中检测到的角点的图。第二特征图可以指示边缘。

在卷积神经网络600的下一层中,二次采样604生成四个第二特征图605。在所述层中,对前一层的特征图603进行二次采样,以便生成输入图像分块601的更紧凑的表示。这对于减小卷积神经网络的尺寸以提高训练和预测速度尤其有用。从四个第二特征图605向前,另一个卷积606以与前述相同的方式生成更多个第三特征图607。根据生成的第三特征图607,输出的是前馈神经网络的输入,在所述实施例中,前馈神经网络是完全连接的并且包括608和609两层。

重要的是,神经网络600的最后一层609是所谓的softmax层,其中输入图像分块601被分类为许多类别中的一个。

卷积神经网络600中的每一层都由大量具有权重的神经元(即激活函数)构建。根据输入的权重和值,神经元的输出被激活或被停用。可能的激活函数包括例如对数(logit)函数、反正切(arc tan)函数或高斯函数(Gaussian Function)。使用反向传播算法和使用训练数据来确定与激活函数相关联的权重,从而进行神经网络600的训练。

卷积神经网络的许多不同架构都有可能实现本申请各方面的发明构思。例如,在不同的卷积层中,内核的数量可以变化。此外,层数也可以变化。可能的架构包括VGG-net、RES-net、通用对抗网络(General Adversial Networks)、带有初始模块的谷歌LeNet。

卷积神经网络的训练可以在云服务中进行,使得计算分布在多台机器上,利用并行性来提高训练速度。

图10示出了区块链700的示意图,其可用于存储用于训练神经网络600的信息和/或也可以存储经训练的神经网络。一般而言,区块链是不断增长的记录列表,这些记录相互彼此链接。每条记录都代表着在区块链中的交易。在这种情况下,由专家E、E’、E”将数据添加到知识库中代表交易,并因此可以使用区块链700记录将数据添加到知识库的事实。以这种方式,对患者而言,那些数据用于训练神经网络600是透明的。

图10示出了三个区块710、710’、710”,记录了至少三次交易,即,为图像分块添加三个训练异常程度值。每个区块还可以包含更多的交易,但是为了简单起见,以下描述仅限于单次交易的情况。

例如,区块710’包括标头711’和数据块715’。标头711’包括哈希值712’,存储前一个区块710的标头的哈希值。结果是,在区块链700中的区块710’之前的区块是唯一可识别的。此外,标头711’包括默克尔根值713’。默克尔根值713’是默克尔树的根节点的哈希值。默克尔树可用于识别用于训练神经网络的所有训练异常值。

数据块715’包括到存储在区块链700外部的数据块716’的链接。此外,数据块715’存储到图像分块717’的链接,异常程度值719’与图像分块717’相关联。此外,数据块715’存储训练异常程度值719’以及到全切片图像718’的链接,图像分块721是所述全切片图像的一部分。甚至,数据块715’存储到专家E、E’、E”的链接,所述专家对所链接的全切片图像的链接的图像分块进行评估,并确定存储在区块710’中的异常程度值。

此外,区块链700可以被配置为仅允许专家E、E’、E”向区块链700插入数据,所述区块链700接受了适当的教育并且具有必要的资格。这可以使用区块链技术的脚本机制来实现。脚本可以定义在可以将条目添加到区块链之前需要满足的条件。这些机制也被称为智能合约。

值得指出的是,区块链技术并不依赖于单个中央服务器,而是一种在点对点网络的所有对等点之间共享的分布式数据结构。使用信任机制将数据添加到区块链,这在本领域是众所周知的。因此,网络中的所有对等点通常接受当前最长的链作为最值得信任的链。此外,区块链700的内容是公开可用的,并因此任何用户都可以识别存储在区块链700中的所有记录。这允许用户/患者/医生审查对区块链700做出贡献的所有专家以及他们对存储在区块链700中的图像分块的审查。这在诊断过程中提供了前所未有的透明度。

附图标记

10 确定异常值的方法

11 全切片图像

12 分割阶段

13 图像分块

14 预测阶段

15 每个分块的局部异常程度值

16 评估阶段

17 异常程度

20 癌症分析系统

21 全切片图像

22 分割实体

23 一组图像分块

24 计算实体

25 知识库

26 训练数据

27 结果

30 图像处理实体

100 预测阶段

103 异常和似然性的对

104 L_w对列表

110 划分阶段

120 异常预测阶段

130 列表创建

200 优先化阶段

201 成对的优先级和

210 优先化

220 分类阶段

230 候选排除阶段

240 分发阶段

300 决策阶段

310 审查阶段

320 异常确定阶段

330 知识库(KB)扩展阶段

400 改进阶段

410 精度比较阶段

420 确定阶段

430 网络替换阶段

440 离开网络

500 分布式癌症分析系统(DCAS)

501 全切片图像

502 一组图像分块

503 异常程度和似然性对的列表

504 候选图像分块的列表

505,505’,505” 验证集

506 验证训练数据

507 独立验证数据

508 验证数据

509 训练数据

510 分析系统

511 分割实体

512 计算实体

513 优先化实体

514 通信接口

515 验证数据库

516 独立验证队列

517 知识库

518 检测实体

519 异常程度

600 卷积神经网络

601 输入图像分块

602 第一卷积

603 八个第一特征图

604 二次采样

605 四个第二特征图

606 第二卷积

607 十六个第三特征图

608 前馈层/全连接层

609 输出层

700 区块链

710,710’,710” 区块

711,711’,711” 标头

712,712’,712” 前一个标头的哈希值

713,713’,713” 默克尔根

714,714’,714” WID哈希

715,715’,715” 数据块

716,716’,716” 到数据块的链接

717,717’,717” 到图像分块的链接

718,718’,718” 到全切片图像的链接

719,719’,719” 异常程度

720,720’,720” 数据块

721,721’,721” 图像分块

722 全切片图像

E,E’,E” 专家

w 全切片图像

t_1,…,t_j…,t_n 图像分块的序列

l_j 似然性

a_j 异常程度

p 优先级

L_w 全切片图像的异常事件列表

S_w 列表

C S_w的子集

V 专家任务列表

a_w 最终异常程度值

VB 验证数据库

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号