首页> 中国专利> 确定用于从临床数据获得的标识的可靠性指标的方法和该可靠性指标用于支持一个标识胜过其它标识的用途

确定用于从临床数据获得的标识的可靠性指标的方法和该可靠性指标用于支持一个标识胜过其它标识的用途

摘要

本发明涉及用于确定至少一组标识的可靠性指标的方法和设备,该至少一组标识根据从样本群中收集的临床数据而获得。这些标识是通过检测来自所述样本群的临床数据中的特性获得的,并且每一个标识生成对所述样本群分层的第一组分层值。提供至少一个附加且平行分层源到从样本群获得的这些标识,到所述标识的所述至少一个附加且平行分层源独立于这些标识并且生成第二组分层值。针对各个相应样本进行比较,其中将第一分层值与真实参考分层值相比较,并且其中将第二分层值与真实参考分层值相比较。利用相似性度量指标来对这些标识赋值,该相似性度量指标指示第一和第二分层值是否与真实参考分层值相匹配。随后,这些相似性度量指标被实现为在确定所述标识的可靠性时的输入。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-01-14

    授权

    授权

  • 2011-11-23

    实质审查的生效 IPC(主分类):G06F19/24 申请日:20090924

    实质审查的生效

  • 2011-08-31

    公开

    公开

说明书

技术领域

本发明涉及用于确定可靠性指标的方法和设备,该可靠性指标用于根据从样本群收集的临床数据而获得的至少一组标识(signature),这些标识是通过检测来自样本群的临床数据中的特性而获得的,其中每个标识生成将样本群分层的第一组分层值。

背景技术

为了临床应用的目的,高吞吐量的分子测量经常经过分析以识别出有助于对生物样本分层的数据集中的模式。一种这样的应用是例如从基因表达数据选择特征子集,该特征子集可以被用作特定类别的患者的诊断标识。这种诊断标识可以用于疾病、疾病病期和/或治疗选择(例如针对某些疾病的治疗方案的肯定和否定响应)的临床诊断。应当注意,在发现这样的标识期间患者的临床状态典型地是已知的。该“地面实况”通常作为临床研究的一部分(从中获得样本)而可获得,或者可以通过使用分子测量而不是用于标识发现(例如DNA甲基化作用、蛋白质组学和SNP)的测量来检测某种分子特性来获悉“地面实况”。将多种统计的和机器学习算法应用到这样的数据集以便发现在这些测量中的用于诊断(即,可用于区分临床状态)的模式是常用的。此外,在生物学家和临床医生中正产生以下意识:对于大多数疾病和所关心的状况而言,将发现单个变量(单变量)标识是不太可能的;多个变量(多变量)标识被认为是必需的,这增加了标识发现的组合的挑战。困扰该领域的一个困难是数据集总是表征为测量有余但案例不足(case poor),即存在明显多于患者的测量。因此,模式发现方法变得易于发现寄生模式,即基于给定的数据预测良好但基于新案例则预测不佳的模式。这也被称为过拟合。用于通过丢弃某些被认为低质量的或不太可能与临床问题有关的测量来减少测量数量的各种方案,比如用于重采样和交叉验证的方案,已被应用以克服过拟合,但该问题不能完全通过这些方法来克服。

发明内容

本发明的目的是提供一种克服这样的过拟合问题的改进的方法。

根据一个方面,本发明涉及一种确定根据从样本群收集的临床数据确定的至少一组标识的可靠性的方法,这些标识是通过检测来自样本群的临床数据中的特性获得的,其中每个标识生成对样本群分层的第一组分层值,该方法包括:

提供至少一个附加和平行分层源到从所述样本群获得的标识,所述至少一个平行分层源独立于这些标识并且生成用于样本群的第二组分层值,

对于各个相应样本而言,比较:

第一组分层值与真实参考分层值,

第二组分层值与真实参考分层值,

利用相似性度量指标对这些标识赋值,该相似性度量指标指示第一和第二分层值是否与真实参考分层值匹配,并且

将该相似性度量指标实现为在确定这些标识的可靠性时的输入。

因此,现在有可能针对这些标识的“对准”将这些标识与特定的平行分层标准比较并且因此帮助消除寄生模式。

在一个实施例中,将相似性度量指标实现为输入的步骤包括:

识别哪些标识具有指示它们的分层值与真实参考分层值不匹配的相似性度量指标,并且对于那些被识别的标识:

确定指示这些标识的分层值与至少一个平行分层源的分层值如何对准的对准指标,该对准指标指示这些标识的可靠性。

为了说明的目的,参照详细描述中的表I和II,这意味着对于一种标识,确定与真实参考分层值相比,该标识对于哪些样本进行了错误分类(在此情况下,假阴性(FN)或假阳性(FP))。第二步骤是,将这些错误分类与平行分层源比较,即执行另一个“可靠性步骤”。该比较表明它们中的两个与平行分层源匹配。应当注意,表1和2主要目的用于列出(错误)分类的所有可能的组合而不描绘具有例如100或200个样本的现实实例。

在一个实施例中,确定对准指标的步骤包括确定标识的分层值与由至少一个平行分层源生成的分层值匹配的频率,该数字指示标识的可靠性。

参照表III,所述实施例在标识1、2和3三个标识之间进行选择是有利的。应当再次注意,这仅仅是为了说明的目的并且不反映真实的情形,在真实情形中样本的数量典型地将大得多。在该情形中,所有标识表现出仅50%的正确分类(与真实值相比)。在缺少该附加的一个或多个平行分层源时,将不可能区分这三个标识。然而,通过更详细地观看标识1的表,两个错误分类与平行分层源匹配(样本2和4);对于标识2,也有两个错误分类与平行分层源匹配(样本4和5);但是对于标识3,三个错误分类与平行分层源匹配(样本2、5和7)。在该特定情况下,对准指标简单地为“计数”(或百分比),即与平行标准匹配的数量,即“2”、“2”和“3”。因而,标识3将被认为是比其余标识更可靠的标识,因为四个错误分类中的3个与平行分层源匹配。

为了进一步说明,假设存在例如从正设法将癌症患者分层为侵略性的和非侵略性的基因表达获得的两个标识S1和S2。通过仅使用所述标识(基本模态,基因表达),只可能说两个标识产生例如4个错误分类并且因此在哪个标识更可能是临床相关的或生物学相关的这方面不可能有把握前进。平行分层源(例如临床预后指数)也给出了相同患者到侵略性和非侵略性的独立分层。平行分层使得有可能观察到与S1相比,S2产生与临床预后指数相比较的更多的错误分类。基于此可以断定:S1是比S2“更好的”标识,因为S1与平行分层更“一致”。因此,与S2相比,S1将具有更高的可靠性指数。

在一个实施例中,平行分层基于一种或多种下述测量:

临床信息,或

成像数据,或

从高吞吐量分子测量获得的数据,或

分子测量的生物学注解。

在一个实施例中,该方法进一步包括连续地重复所述比较步骤、所述赋值步骤和所述实现步骤直到满足预定义的标准为止。

在一个实施例中,重复所述比较步骤直到满足了预定义的标准为止是基于实现可靠性指标以在一个步骤中对标识排名并且作为用于选择哪些标识应当在后续步骤中被考虑的选择标准。

因此,通过使用可靠性指标的这种迭代应用,依赖于平行标准的分层能力,过拟合的效应被消除或至少被减少。

在一个实施例中,预定义的标准包括基于下列一个或多个的一个或多个结束迭代的标准:

- 固定数量的迭代

- 期望的对准性能

- 期望的可靠性性能。

应注意,这不是穷举性列表。

根据另一个方面,本发明涉及一种计算机程序产品,其用于在该产品在计算机上运行时命令处理单元执行上述方法步骤。

根据又一个方面,本发明涉及一种用于确定至少一组标识的可靠性指标的设备,该至少一组标识根据从样本群收集的临床数据而获得,这些标识是通过检测来自样本群的临床数据中的特性而获得的,其中每个标识生成对样本群分层的第一组分层值,该设备包括:

用于提供至少一个附加且平行分层源到从所述样本群获得的标识的装置,所述至少一个平行分层源独立于这些标识并且生成用于样本群的第二组分层值,

用于对于各个相应样本进行以下比较的处理器:

第一组分层值与真实参考分层值,

第二组分层值与真实参考分层值,

用于利用相似性度量指标对这些标识赋值的处理器,该相似性度量指标指示第一和第二分层值是否与参考分层值匹配,以及

用于将该相似性度量指标实现为确定这些标识的可靠性时的输入的处理器。

本发明的各方面中的每一个可以与任意一个其它方面组合。本发明的这些和其它方面将根据下文描述的实施例而清楚并且参照这些实施例而被阐明。

附图说明

本发明的这些实施例将参照附图仅通过实例的方式予以描述,在附图中

图1示出根据本发明的方法的流程图,

图2描绘了将平行标准到添加到标识发现过程,以及

图3示出根据本发明的设备。

具体实施方式

图1示出根据本发明的确定至少一组标识的可靠性指标的方法的流程图,该至少一组标识根据从样本群收集的临床数据而获得。

在步骤(S1)101中,通过检测来自样本群的临床数据中的特性生成这些标识。作为实例,样本群可以包括从潜在的癌症患者收集的样本并且临床数据可以是在这些样本上执行的高吞吐量分子测量。对这样的数据的分析结果将给出一组标识,即,为此特定类型的癌症的特性的标识。由于术语标识(或者也称为分子标识)是指临床数据中表示遍及所有样本的共同特征的任何特性。可以应用各种方法获得这样的标识,例如通过使用诸如遗传算法(GA)之类的搜索方法,其产生特征子集,该特征子集用于导出为一组样本提供测试分类的标识。关于这种基于GA的试验的进一步的细节可以在“Schaffer, A. Janevski, and M. Simpson, "A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data," presented at Proceedings of the 2005 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology, CIBCB 2005, La Jolla, CA, USA, 2005”中找到,该文献全文通过引用于此并入。这些标识生成第一分层值,其针对所述标识对样本群分层。这意味着,每个样本仅有一个分层赋值,其中每个样本可以被赋值为“侵略性的”或“非侵略性的”,或标记为“0”或“1”,或者在甚至特定的数值范围上,例如从1到3。因此,在存在100个样本标识的情况下,特定标识为这100个样本中的每一个提供比如0或1的分层值。

如前所讨论,本发明处理以下情形:由于与相对较大数量的测量相比有非常少的样本的原因,数据本身不足以保证“良好”标识。这种数据的分析易于发现偶然地看起来非常好地表征该数据的寄生模式。如稍后将更详细地讨论的,通过另外地表征模式,可能从“真实”(更有希望的)模式中认出寄生模式。

在步骤(S2)103中,从所述样本群提供至少一个平行分层源,其中所述至少一个平行分层源独立于这些标识并且生成用于样本群的第二组分层值。这意味着,提供了用于表征的附加源,但是其中该附加源是使用不同方法获得的。因此,对于各个相应样本,除了这些标识之外,还提供了平行分层源,并且该平行分层源生成第二分层值,例如“侵略性的”或“非侵略性的”,或者“0”或“1”。这意味着,利用分层值为样本1赋值,即,例如将样本1分层为“非侵略性的”,并且作为附加源,该平行分层源将样本也分层为“非侵略性的”。因此,一个源是从临床数据获得的标识,并且平行分层源可以例如是从临床信息获得的,所述临床信息例如为预后指数,比如对于乳腺癌而言的下列指数:Nottingham Prognosis Index (Pinder, Elston等人. 2003)、National Institutes of Health Consensus (NIH 2001)和the St. Gallen Consensus Conference (Ciatto, Cecchini等人. 1990)。添加这种平行分层的原因是,使得能够针对这些标识与特定的平行分层标准的“对准”来比较这些标识。这将在稍后更详细地被讨论。一般地,本发明的目的是:通过使用完全不同的方法设法得到相同种类的分层(例如侵略性的对比非侵略性的)。

这样的平行分层源的其它实例是从成像数据获得的源,该成像数据是来自任何相关的成像模态(MRI、CT,具有或不具有造影剂)的数据,这种数据可以通过以下方式分析:该方式以与对“核心”的分析相似的方式对样本分层,例如高吞吐量分子测量。这典型地通过分析图像特征(形状、纹理等)并输出每个图像/样本的类别(例如侵略性的或非侵略性的)来完成。其它平行分层源是高吞吐量分子测量:基因表达数据、DNA甲基化作用、质谱蛋白质组学。只要来自这样的测量的数据按照与“核心”高吞吐量测量相似地表征样本的方式被分析,则可能使用所述输出来驱动基本的标识发现过程。另一些的平行分层源是注解:高吞吐量分子测量中的特征可以例如基于它们的生物属性而被表征。广泛使用的用于注解的源例如是基因本体论(参见geneontology.org),其中基因针对它们的分子功能、生物过程和细胞成分来进行注解。这种注解也可以用于表征关于所述分子功能的一组特征(例如基因)。随后所述数据的该视图可以以与上述对样本分层的其它类型方式相同的方式来使用。

在步骤(S3)105中,针对各个相应样本,执行比较步骤,其中将第一分层值和第二分层值与真实参考分层值比较。真实参考分层值被认为是“地面实况”,因为该数据来自回顾性研究,例如在癌症患者中,将有5年或10年的跟踪并且因此将会知道该癌症是否恢复。因此,在该步骤中,针对样本n,将样本n的第一分层值和平行分层源的第二分层值(例如基于图像数据)与地面实况值相比较。

在步骤(S4)107中,这些标识利用相似性度量指标来赋值,该相似性度量指标指示第一和第二分层值是否与真实参考分层值匹配。作为实例,如果样本n的参考分层值(地面实况值)为“侵略性的”并且第一分层值和第二分层值分别为“侵略性的”和“非侵略性的”,则相似性度量指标可以是“真”和“假”,或者“真阳性”和“假阳性”。这也可以被标记为“+”和“-”。针对所有n个样本,重复该操作,即,针对各个相应样本,将第一分层值和第二分层值与真实参考值比较。

表I

样本真实参考分层值第一分层值第二分层值样本1侵略性侵略性侵略性样本2侵略性非侵略性侵略性样本3侵略性侵略性非侵略性样本4侵略性非侵略性非侵略性样本5非侵略性侵略性侵略性样本6非侵略性非侵略性侵略性样本7非侵略性侵略性非侵略性样本8非侵略性非侵略性非侵略性

表I示出实例来说明该方法如何可以使用两个分层(“侵略性的”和“非侵略性的”)和8个样本以其最简单的形式实现。第一列示出样本,第二列是真实参考分层值“地面实况”,第三列是第二分层值“平行分层值”且第四列是第一分层值“预测的类”。给定每个测试样本的“真”类,则我们知道导出的标识是否正确地预测样本的类。

参照(S4)107,表II中示出利用相似性度量指标对标识赋值。“TP”表示“真阳性”,“TN”表示真阴性,“FP”表示假阳性,且“FN”表示假阴性。因此,对于样本1,作为实例,用于平行分层的相似性度量指标是“TP”,因为真实值指示样本1是侵略性的并且第一和第二分层值预测相同。另一方面,对于样本2,平行分层预测阴性,而地面实况值预测阳性。因此,用于第二分层值的相似性度量指标为“FN”(它预测阴性并且它是假的),而第二分层值(所预测的类)预测与地面实况相同并且因此被给定相似性度量指标变为“TP”(预测的阳性且它是真的)。针对所有样本重复该操作。

表II

样本真实参考平行标识1样本1侵略性TPTP样本2侵略性FNTP样本3侵略性TPFN样本4侵略性FNFN样本5非侵略性FPFP样本6非侵略性TNFP样本7非侵略性FPTN样本8非侵略性TNTN

应当注意,表1和2主要是为了说明且没有描绘具有例如100或200个样本的现实实例。

在一个实施例中,确定这些分类是否与临床预后指数一致,其中那些错误分类(其中正被测试的标识是错误的(FN:假阴性或FP:假阳性)并且平行分层(在该实例中为临床指数)是正确的(TP:真阳性或TN:真阴性))得以处罚。为了简化起见,在该实施例中,假设临床预后指数是固定的(基于临床数据的一次计算)。关心的部分是可变的部分,即这些标识。典型地想要减少FN和FP的总数量。在该实施例中,那些不正确的(例如样本4和5)但是其中平行分层是正确的(例如样本3和6)的标识被赋予比其中指数和分类器二者都不正确的(例如样本4和5)的预测组合更大的处罚权重。这是因为我们能够推断样本4和5的标识与平行分层更一致。因此,以此方式,可能通过将平行分层用作附加信息源来区分这四个标识(参见样本3-6)。在缺少该平行分层的情况下,将不可能区分这四个“FN”标识。

在步骤(S5)109中,将相似性度量指标用作在确定标识的可靠性时的输入。在一个实施例中,使用相似性度量指标作为输入的步骤是基于确定这样的对准指标,该对准指标基于至少一个平行分层的第二分层值来指示至少一组标识如何对准。该对准指标可以包括对匹配数量的计数,其中该匹配为至少一组标识的相似性度量指标与至少一个平行分层的相似性度量指标的匹配。随后匹配数量指示标识的可靠性。

表III

样本真实参考平行标识 1标识 2标识 3样本1侵略性TPTPTPTP样本2侵略性FNFNTPFN样本3侵略性TPTPFNTP样本4侵略性FNFNFNTN样本5非侵略性FPTPFPFP样本6非侵略性TNFPTNTN样本7非侵略性FPTNTNFP样本8非侵略性TNTNTNTN计数  223

表III示出多相似性的一个实例,其中标识的数量为3,即S1-S3,并且其中正使用一个平行分层。表III示出其中每个标识对样本中的五个正确地分类的情形。因此,在缺少平行分层的情况下,不可能区分这三个标识。然而,如前所讨论,对准指标可以简单地通过计数标识不正确地分类并且平行分层也不正确地分类的情况的数量来确定。对于标识1,两个错误分类与平行分层匹配(样本2和4),对于标识2,也是两个错误分类与平行分层匹配(样本4和5),但是对于标识3,三个错误分类与平行分层匹配(样本2、5和7)。在该特定情况下,对准指标简单地为“计数”,即与平行分层匹配的数量,即“2”、“2”和“3”。因此,标识3将被认为是比其余标识更可靠的标识。

这可以经由数学表达式通过更一般的方式表达。假设,存在N个样本S={s1,s2,…,sN}和M个分层类:C={c1,c2,…,cM}(例如侵略性=c1且非侵略性=c2)。对于每个样本,参考分层值被给出如下:

REF = {<si, ri> | i = 1..N, ri ∈ C}                        (1)

该分析也将分层值赋值给每个样本:

ANALYSIS = {<si, ri1> | i = 1..N, ri1 ∈ C}         (2)

该平行标准也将分层值赋值给每个样本:

PARALLEL = {<si, ri2> | i = 1..N, ri2 ∈ C}        (3)

该相似性度量基本上是取分层对的函数:

SIMILARITY(<si, ri1>, <si, ri2>)                           (4)

并且返回某个结果。

实例1:

SIMILARITY1(<si, ri1>, <si, ri2>) = count(ri1 ≠ ri2)。

实例2:

SIMILARITY2(<si, ri1>, <si, ri2>) = <count(ri1 ≠ ri2) & ri2=cA, count(ri1 ≠ ri2) & ri2=cB>,

其中cA可以是例如侵略性的,而cB可以是非侵略性的。

这可以被称为SIMILARITY(ANALYSIS,REF),SIMILARITY(ANALYSIS,PARALLEL)和SIMILARITY(ORTHOGONAL,REF)。可靠性指标随后通过比较来自这些调用的结果来确定。在先前的实例中,相似性是基于SIMILARITY(ANALYSIS,ORTHOGONAL)。

表III的实例公开了以下情形:其中同时比较3个(或更多)分层正被比较,或MULTI-SIMILARITY(<si, ri1>, <si, ri2>, <si, ri3>,….),其中可能通过比较输入分层来定义相似性。该可靠性在这里实际上可以与相似性相同,即,作为实例它可被称为MULTI-SIMILARITY(ANALYSIS, PARALLEL, REF)。

应当注意,这些标识可以与“真实值”更加一致并且与平行分层完全不一致。在这种情况下,对准指标简单地是可以例如由只是正在监视数据的专家确定的指标。

在一个实施例中,确定新的一组标识并且重复所述确定对准指标的步骤。这可以例如重复数百次。选择在分层样本方面更好的并且与平行分层源对准的那些标识以供后续步骤中的进一步评估。因此,通过连续生产标识,执行搜索,从而在多次重复之后得到一组标识。使用平行分层源的定性改进使得有可能朝向一组更好的标识连续地驱动该搜索,该组更好的标识与(多个)平行分层更加对准并且与没有平行分层的相同方法比较减小了过拟合。在“Schaffer, D.,A.Janevski等人.(2005). A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data. Proceedings of the 2005 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology, CIBCB 2005, La Jolla, CA, USA, IEEE”中讨论了标识发现的迭代性质,该文献全文通过引用于此并入。

图2图示地描绘了这种连续重复的结果,其中数据1是“核心”模态,即,可以通过高吞吐量分子测量数据集获得的分类器。仅仅分析该数据的结果将给出一组标识(标识1)。数据2是所述平行分层数据。当利用平行分层驱动标识发现时;获得另一组标识作为输出(标识2)。唯一要求是数据1和数据2在这样的样本组上,所述样本组来自不同模态时显著交叠。

图3示出根据本发明的用于确定至少一组标识的可靠性指标的设备300,其中该至少一组标识根据从样本群收集的临床数据而获得。这些标识是通过检测来自样本群的临床数据中的特性获得的。而且,这些标识生成第一组分层值,其关于这些标识而对样本群分层。该设备包括用于提供至少一个平行分层到从所述样本群获得的标识的装置301,该至少一个平行分层独立于这些标识并且生成关于平行分层的第二组分层值。该设备还包括用于执行上文提及的图1中的方法步骤的处理器301。

所公开的实施例的某些特定细节是为了说明而非限制的目的而提出的,以便提供对本发明的清楚的且全面的理解。然而,本领域技术人员应当理解,本发明可以在不确切地与本文提出的细节一致的其它实施例中实践,而不明显脱离本公开内容的精神和范围。而且,在本文中,为了简洁和清楚的目的,省略了公知设备、电路和方法的详细描述,从而避免了必要的细节和可能的混乱。

附图标记包含在权利要求中,然而所包含的附图标记仅仅是为了清楚的目的并且不应当被解释为限制权利要求的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号