首页> 中国专利> 用于预测能够分泌至体液中的蛋白质的方法及系统

用于预测能够分泌至体液中的蛋白质的方法及系统

摘要

本发明涉及用于预测蛋白向体液中的分泌的方法及系统。在实施方式中,一种方法利用包含所收集蛋白的分泌性质的特征集来根据该特征集对分类器进行训练,从而识别与可能分泌至生物流体中的蛋白对应的蛋白特征。另一种方法使用已训练的分类器及所接收蛋白序列的鉴定特征,确定所述蛋白序列分泌至生物流体中的概率。在实施方式中,一种系统预测蛋白向生物流体中的分泌。所述系统包括经配置的组件,其用来构建包含所收集蛋白的性质的蛋白特征集、训练分类器来预测可能分泌至生物流体中的蛋白的特征、接收蛋白序列以及将所接收的蛋白序列鉴定为分泌蛋白。

著录项

  • 公开/公告号CN102177434A

    专利类型发明专利

  • 公开/公告日2011-09-07

    原文格式PDF

  • 申请/专利权人 乔治亚大学研究基金公司;

    申请/专利号CN200980139659.2

  • 发明设计人 崔娟;大卫·普特;徐鹰;

    申请日2009-08-10

  • 分类号G01N33/00(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人丁香兰;庞东成

  • 地址 美国乔治亚州

  • 入库时间 2023-12-18 03:13:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-09-28

    未缴年费专利权终止 IPC(主分类):G01N33/00 授权公告日:20140402 终止日期:20150810 申请日:20090810

    专利权的终止

  • 2014-04-02

    授权

    授权

  • 2011-11-16

    实质审查的生效 IPC(主分类):G01N33/00 申请日:20090810

    实质审查的生效

  • 2011-09-07

    公开

    公开

说明书

关于联邦政府所资助的研发的声明

在本发明的开发过程中所进行的部分工作使用了由国家科学基金会(National Science Foundation)依据NSF/ITR-IIS-0407204授予的美国政府基金。因此,在本发明中美国政府享有确定的权利。

技术领域

本发明一般涉及对人类蛋白的计算分析,更特别地涉及预测蛋白向体液(例如血液)中的分泌。

背景技术

基因和蛋白表达的改变提供了关于组织或器官生理状态的重要线索。在恶性转化中,肿瘤细胞中的遗传改变能够破坏自分泌和旁分泌信号传导系统,从而导致可以分泌至癌细胞外部的一些类型的蛋白(例如生长因子、细胞因子和激素)的过表达(Hanahan和Weinberg,2000;Sporn和Robers,1985)。通过复杂的分泌途径,这些蛋白及其他分泌蛋白可以进入唾液、血液、尿、脑脊髓(脊髓)液、精液、阴道液、眼内液或其他体液。

对各种癌症样本的基因组学研究已鉴定出许多持续过表达的基因,而且其中一些基因编码分泌蛋白(Buckhaults等,2001;Welsh等,2003;Welsh等,2001)。举例而言,在卵巢癌中前列腺蛋白基因和骨桥蛋白基因具有升高的表达水平,而在结肠直肠癌、乳腺癌和前列腺癌中MIC1基因发生过表达。与健康个体相比,在具有这些癌症的患者的血清中已检测到这些分泌蛋白的丰度升高(Kim等,2002;Mok等,2001;Welsh等,2003)。另外已发现一些所述分泌蛋白已显示出与癌症不同发展阶段相关的血清中不同水平的浓度升高,这表示其或许可以用作癌症分型和分期的标记物(Huang等,2006)。

就准确预测哪些蛋白可能分泌至体液中而言,还存在困难和挑战。一种困难在于,必须对大量的蛋白序列和生物流体样品进行分析和分类。

对数据进行分类是一项为决定或预测数据项的类别而执行的普通任务。传统的线性分类器对所收集数据项的群体进行检查,其中每个数据项属于两种类别中的一种,并且利用所收集的数据项的性质来“训练”所述分类器,从而决定新的数据项会在哪个类别中。一种传统的分类器是支持向量机(SVM)。对于SVM,将数据项视作p维向量(p个数值的列表),并且使用SVM来确定是否能够用p-1维超平面对这些数据项进行分离。对SVM的使用是目前可利用的数据分类技术和回归分析技术。虽然一些研究已着眼于可以分泌至细胞外部的蛋白,但是目前还不存在用来预测能够分泌至特定体液(例如血液或尿)中的蛋白的可利用的方法。将针对胞外分泌蛋白而设计的预测程序用作可预测能够进入体液的蛋白的近似工具来使用,并不能给出可靠的预测。因此,所需的是如下方法和系统:允许利用一些蛋白特征对分类器进行训练,从而将能够进入体液的蛋白与不能进入体液的蛋白区分开。此外,为了优化所述分类器的性能以便能够准确预测进入体液的蛋白分泌,需要用来进行特征选择的方法和系统。

为了诊断癌症和其他疾病,对于哪些来自在患病组织(例如癌)中高度表达和异常表达的基因的蛋白能够分泌至体液中,必须做出准确的预测。与解决此问题相关的困难在于,目前对在蛋白分泌至细胞外部之后的下游定位的理解非常有限,并且现有的知识不足以提供关于蛋白分泌至体液的有用线索。因此,所需的是用来预测哪些人类蛋白可能会分泌至体液中的数据分类方法。

人类血清蛋白质组是非常复杂的混合物,其具有高度丰富的蛋白,例如清蛋白、免疫球蛋白、转铁蛋白、触珠蛋白和脂蛋白,以及由不同组织(患病组织或正常组织)所分泌的或者由人体全身的细胞所泄露的蛋白和肽(Adkins等,2002;Schrader和Schulz-Knappe,2001)。在研究人类血清蛋白质组时具挑战性的问题在于,循环中的原生血液蛋白中大多数的丰度比所关心的推定蛋白的丰度高出数个量级。所以,在事先不知道在血液中应寻找何种蛋白或蛋白特征的情况下,在数千或可能更多的原生血液蛋白中以实验手段检测此类分泌蛋白及其在血液中升高的相对丰度是非常困难的。因此,所需的是采用新型计算手段的方法和系统,以便预测在癌症组织中异常高度表达且能够分泌至体液中的蛋白,从而为对体液(例如人类血清)的定向蛋白质组学工作提供目标列表,并能够更加实际地解决对体液中标记物蛋白的鉴定。

已经进行了大量的研究来预测在真核生物和原核生物中能够分泌到细胞表面或细胞外环境中的蛋白,并且有若干公共的预测服务器可供使用(Guda,2006;Horton等,2007;Menne等,2000;Nair和Rost,2005)。多数这些方法的建立是以对蛋白亚细胞定位的一般理解为基础,而多数蛋白的定位是通过分选事件的级联完成的,所述分选事件由小(信号)肽或能够实现位点特异性摄取、滞留和转运的基序来指导(Doudna和Batey,2004;Tjalsma等,2000)。根据诸如氨基酸组成、蛋白质结构域的共现及注释的蛋白功能等信息,已使用各种统计学习方法开发了这些程序(Guda,2006;Mott等,2002)。

虽然现有的研究关心蛋白是否分泌到细胞外部,但这些研究对预测蛋白最终会在哪里却并不关心。虽然现有的研究或许已经确定了分泌至体液中的蛋白的表达是否与各种病理状态有关联,但这些研究并未包括用于确定分泌蛋白就其物理和化学性质、氨基酸序列及结构特征而言有何共同之处的方法。传统的方法并不根据蛋白特征来计算蛋白分泌至体液中的概率。然而,由现有的蛋白质组学研究可知,在辅助对病理状态进行的诊断时,这些计算出的概率是有用的。因此,为了辅助对病理状态进行诊断,需要用来计算蛋白在体液中存在的概率的方法及系统。

发明内容

本发明公开了用来预测分泌至体液中的蛋白的方法、系统及计算机程序产品。由本发明的实施方式提供的对蛋白向体液中的分泌的可靠预测将能够实现对病理状态(例如癌症)的更及时的和准确的诊断。在本发明的实施方式中,所述体液包括但不限于:唾液、血液、尿、脊髓液、精液、阴道液、羊水、龈沟液和眼内液。在一个实施方式中,一种方法预测哪些来自在患病人体组织(例如癌)中高度且异常表达的基因的蛋白能够分泌至体液中,从而提示了用于后续蛋白质组学研究的可能的标记物蛋白。在另一个实施方式中,血分泌蛋白预测(BSPP)服务器实施由计算机执行的方法,该方法用于预测哪些来自在患病人体组织(例如癌)中异常表达的基因的蛋白能够分泌至血液中,从而提示了用于后继血清蛋白质组学研究的可能的标记物蛋白质。

在本发明的一个实施方式中,鉴定了一种或多种蛋白序列中的一系列蛋白特征,其包括但不限于:显示与蛋白分泌有相关性的信号肽、跨膜结构域、糖基化位点、无序区、二级结构内容、疏水性(hydrophobicity)和极性量度。使用这些特征,能够训练支持向量机(Support Vector Machine,SVM)类分类器来预测蛋白向血流中的分泌。

为了阐明本发明,首先将本发明应用于预测蛋白是否会分泌至血液中,随后单独将其应用于预测向尿中的分泌。然而,应了解的是本发明具有更广泛的应用,从而开发用于预测蛋白是否会分泌至其他体液(例如但不限于:唾液、脊髓液、精液、阴道液和眼内液)中的工具及系统。

附图说明

图1显示了本发明实施方式的流程图,所述流程图阐明了用于对分类器进行训练并预测蛋白向体液中的分泌的示例性过程。

图2显示了本发明实施方式的R-值(可靠性评分)和P-值(正确分类的概率)之间的统计学关系,所述R-值和P-值是从对305个阳性蛋白样本和26,962个阴性蛋白样本的分析推导出的。

图3阐明了本发明实施方式的示例性图形用户界面(GUI),其中能够提供多种蛋白序列来预测哪些蛋白能够分泌至血流中。

图4描绘了本发明实施方式的在示例性GUI中的所接收的待分类的蛋白序列。

图5描绘了本发明实施方式的示例性GUI中所显示的蛋白序列的阴性分类结果。

图6描绘了本发明实施方式的示例性GUI中所显示的蛋白序列的阳性分类结果。

图7描绘了本发明实施方式的实例计算机系统,所述系统对执行用于预测蛋白是否能够分泌至体液中的系统组件是有用的。

现在将参考附图对本发明进行描述。在所述附图中,同样的附图标记通常表示相同的或功能相似的要素。此外,附图标记最左边的数字指明该附图标记所首次出现在的附图。

具体实施方式

本发明涉及用来预测蛋白是否会分泌至生物流体中的方法、系统及计算机程序产品,所述生物流体例如有但不限于:唾液、血液、尿、脊髓液、精液、阴道液和眼内液。本发明包括系统、方法及计算机程序产品的实施方式,其用来接收一种或多种蛋白序列并分析所接收蛋白序列的特征,从而确定蛋白分泌至体液中的概率。本发明的实施方式包括图形用户界面(GUI),其使得用户能够提供多种蛋白序列并对所述多种序列进行分析,从而预测所述序列表示的蛋白是否会分泌至血流中。

虽然本说明书描述了用户提供的蛋白序列和用户输入的蛋白序列,然而用户可以是人、计算机程序、应用软件、软件主体、宏等。因此,除非特殊说明,本文所用的术语“用户”不必需是人。

本说明书公开了具有本发明特征的一个或多个的实施方式。所公开的实施方式仅用于举例说明本发明。本发明的范围不限于所公开的实施方式。本发明由本文所附的权利要求所界定。

在本说明书中述及“一个实施方式”、“本发明的实施方式”、“实施方式”、“实例实施方式”等而描述的实施方式,表示所述实施方式可以包括特定的特征、结构或特性,但是每个实施方式可以不必包括所述特定的特征、结构或特性。另外,此类措词不必指同一实施方式。此外,在结合一个实施方式对特定的特征、结构或特性进行描述时,应了解的是在本领域技术人员的知识范围内可以就其他实施方式(不论是否有明确的描述)来实现此特征、结构或特性。

本文中对“一个”或“一种”(“a”或“an”)物品的描述可以指单一物品或多个/种物品。例如,特征、蛋白、体液或分类器等描述可以指单一特征、蛋白、体液或分类器。作为另一选择,特征、蛋白质、体液或分类器等描述可以指多个/种特征、蛋白、体液或分类器。因此,如本文所用的,“一个”或“一种”(“a”或“an”)可以是单数或复数。类似地,述及多个/种物品和对多个/种物品的描述可以指单一物品。

本说明书描述了用于预测蛋白向体液中的分泌的一般方法。本文提供了用于预测蛋白向血流和尿中的分泌的具体示例性实施方式。然而,根据本文所呈现的教导和指引,应了解的是在本领域技术人员的知识范围内可以容易地使本文所描述的方法适用于预测蛋白向其他体液(例如但不限于:唾液、脊髓液、精液、阴道液、羊水、龈沟液和眼内液)中的分泌。

本发明的实施方式可以在硬件、固件、软件或其任意组合中执行。本发明的实施方式还可以作为存储于机器可读介质中的指令来执行,所述指令可以由一个或多个的处理器来读取和执行。机器可读介质可以包括用于以机器(如计算装置)可读形式储存或传送信息的任何机构。举例而言,机器可读介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪速存储装置;和电学、光学、声学或其他形式的传播信号(例如,载波、红外信号、数字信号等)等。另外,在本文中可以将固件、软件、例程、指令描述为执行某种功能。然而,应意识到的是此类描述仅仅是为了方便,而此类作用实际上由计算装置、处理器、控制器或其他执行所述固件、软件、例程、指令等的装置产生。

分类器的训练方法

数据分类方法是计算方法的一般类别,其试图根据所提供的各数据元素的特征值来确定在给定数据集中的各数据元素属于哪个预定的类别。

各种监督学习方法,例如支持向量机(SVM)、人工神经网络(ANN)、决策树、回归模型和其他算法已经广泛运用于数据分类和回归模型。根据已知数据(训练数据集形式的知识),所述监督学习方法使计算机能够自动学习识别复杂模式并发展分类器,其反过来能够用于做出智能决策并预测未知数据(独立集)的类别。

机器学习类的分类器已经应用于各种领域,例如机器感知、医学诊断、生物信息学、脑机接口(brain-machine interface)、对DNA序列进行分类以及在计算机视觉中的物体识别。已证明学习类的分类器可高效率地解决一些生物学问题。如本文所用的,分类是通过寻找已知类别中所收集的数据点之间的共同特征来学习将数据点分到不同类别中的过程。可利用神经网络、回归分析或其他技术完成分类。分类器是用于进行数据分类的方法、算法、计算机程序或系统。一种类型的分类器是支持向量机(SVM)。传统的SVM以限定决策边界的决策超平面这一概念为基础。决策超平面在具有不同类别成员的一组物体之间进行分割。举例而言,所收集的数据可以属于类别I或类别II,而分类器(例如SVM)能够用来确定(即预测)任何待分类的新物体的类别(即,I或II)。传统的SVM主要是通过在多维空间中构建超平面来执行分类任务的分类器方法,所述超平面对具有不同类别标记的样例进行分离。SVM能够支持回归和分类任务,并且能够处理多个连续变量和分类变量。在本发明的实施方式中,对SVM类分类器进行训练,来预测蛋白序列是否属于会分泌至体液中的类别。

在以下部分中,将参考方法中的步骤来呈现实施本发明的示例性实施方式。下文所讨论的实施形态涉及预测蛋白向血液中的分泌。之后描述了如何将本发明的具体实施形态应用于不同的所收集的蛋白集。

在一个实施方式中,从诸如Swiss-Prot和分泌蛋白数据库(SPD)等已知蛋白数据库收集注释为分泌蛋白的人类蛋白,并且选出已经由先前的研究以实验手段在血液中检测到的蛋白。Chen等(2005)描述了基于网络的SPD。图1显示了阐明训练分类器的示例性方法100的流程图。一些性质或蛋白特征对于表征一群所收集的蛋白是重要的,但是如果单独用作过滤条件可能不会有效。方法100对这些性质一起进行考虑,并且以计算的方式替代经验主义来评估重要性。

在所示的实例中,方法100阐明了能够用来对分类器进行训练的步骤。注意在方法100中的步骤不必以所示的顺序出现。

在步骤103中,该方法首先选出作为“阳性”数据集的一组蛋白。在一个实施方式中,步骤103包括收集已知会分泌至血液中的蛋白,即血分泌蛋白。在本发明的其他实施方式中,该步骤包括收集已知会分泌至其他体液(例如但不限于:唾液、尿、脊髓液、精液、阴道液、羊水、龈沟液和眼内液)中的蛋白。应了解的是分别在步骤103和步骤105中选出的阳性数据集和阴性数据集应该足够大,从而在步骤111~115中对分类器进行训练时能够产生统计学上一致的且可靠的结果(见下文的讨论)。一般而言,优选较大的阳性蛋白集和阴性蛋白集。

在一个实施形态中,在步骤103中从Swiss-Prot蛋白数据库和分泌蛋白数据库(SPD)(Chen等,2005)中收集了共1,620种注释为分泌蛋白的人类蛋白,并且选出已经由先前的研究以实验手段在血液中检测到的蛋白。这是通过对照由血浆蛋白质组计划(PPP)汇编的已知的血清蛋白数据集(Omenn等,2005)和由其他血清蛋白质组学研究生成的另外一些数据集(Adkins等,2002;Pieper等,2003)对所述1,620种蛋白进行检查来完成的,所述数据集由总共约16,000种蛋白组成。所述1,620种蛋白中有305种蛋白与所述约16,000种蛋白有至少两个肽段相匹配,因此认为这305种蛋白被分泌至血液中——这是基于质谱数据进行的蛋白鉴定中的常见实践。为保证在步骤103中选出的阳性数据集的品质,在实施方式中,将符合两种标准(分泌的和在血清/血浆中检测到的)的这305种蛋白选为阳性数据集,并且不包括因细胞损伤而泄露至血液中的蛋白(例如,在心脏病发作后释放至血浆中的心肌红蛋白)。

在步骤105中,将在步骤103中未被选择的、且来自其他类别和蛋白家族的代表蛋白选为“阴性”数据集。在一个实施方式中,该步骤包括收集非血分泌蛋白。在另一实施方式中,步骤105包括收集已知不分泌至其他体液(例如但不限于:唾液、尿、脊髓液、精液、阴道液、羊水、龈沟液和眼内液)中的蛋白。

在本发明的实施方式中,通过从非血分泌蛋白中选出代表来在步骤105中生成蛋白的阴性数据集,所述非血分泌蛋白应包括与分泌途径无关的蛋白和在循环系统中未涉及到的蛋白。在一个实施方式中,该步骤包括从每个不包含此前提及的血分泌蛋白的蛋白家族(Pfam)数据库(Bateman等,2002)中选出三种代表作为阴性集。

在一些实施方式中,为了获得用于最终的独立评估步骤(下文描述的步骤121)的非冗余数据集,使用局部比对基本搜索工具(Basic Local Alignment Search Tool,BLAST)(Altschul等,1997)以10%、20%或30%的序列同一性为截断值(cutoff)来除去冗余的蛋白。在上述实施方式中,以20%的序列同一性为截断值得到了56种阳性蛋白和13,716种阴性蛋白。使用以下步骤,将剩余的蛋白(即249种阳性蛋白和13,246种阴性蛋白)分别划分至独立的训练集和测试集中。根据实施方式,基于所选特征的相似性对在步骤103中选出的阳性集中的蛋白进行聚类划分,这会在下文参照步骤109(特征选择)进行更详细的描述,所述相似性用分级聚类法(Jardine和Sibson,1968)通过欧几里得距离进行度量。在一个实施方式中,用每个聚类通过最大类内距离和最小类间距离之间的比率(为0.27~0.51)获得了151个聚类。从每个聚类中随机选出一个代表蛋白来形成在步骤103中的阳性训练集。阴性训练集以相似的方式在步骤105中选出。以这种方式选出训练集,从而确保其足够多样化且在特征空间中广泛分布。将剩余的蛋白用作测试集。重复进行该过程来构建5个不同的数据集,从而在下述步骤111中对分类器进行训练,其能够用来评估数据生成策略的稳定性。

步骤103和步骤105可以以平行或顺序的方式进行。分别在步骤103和步骤105中选出阳性数据集和阴性数据集之后,本方法进行至步骤109。

特征构建

在步骤109中,对与在阳性、阴性数据集中的蛋白相关的特征进行映射。在实施方式中,步骤109包括对在阳性、阴性数据集中的蛋白进行分析来映射蛋白特征,例如但不限于在下表1中所列的特征。在表1中,括号中的数字表示每个性质的向量维度。例如,具有多个维度的性质或特征以多维向量表示。举例而言,能够将蛋白的极性表示为21维向量中的连续统或值域,在表1中将其表示为“极性(21)”。应了解的是对于不同的流体而言蛋白特征可以有所不同。因此,表1中所列的特征对于不同的生物流体而言可以有所不同。将诸如蛋白大小、氨基酸组成、二肽组成、二级结构、结构域、基序、可溶性、疏水性、标准化的范德华体积、极性、可极化性、电荷,表面张力和溶剂可接触性(solvent accessibility)等特征映射于在步骤103和步骤105中选出的阳性、阴性蛋白类别。在表1中所列的蛋白特征可以大致分为四类:(i)一般序列特征,例如氨基酸组成、序列长度和二肽组成(Bhasin和Raghava,2004;Reczko和Bohr,1994);(ii)物理化学性质,例如可溶性、无序区、疏水性、标准化的范德华体积、极性、可极化性和电荷,(iii)结构特征,例如二级结构内容、溶剂可接触性和回转半径,(iv)结构域/基序,例如信号肽、跨膜结构域和双精氨酸信号肽基序(TAT)。在初始列表中总共包括了25种性质,其对每个蛋白序列得到1,521维的特征向量。在对这些性质的特征向量描述中,注意对每个所包括的特征而言都需要不同量的信息来对其进行编码。举例而言,将氨基酸组成和二肽组成分别表示为20维特征向量和400维特征向量。二级结构内容的特征向量是4维向量,其包括α-螺旋含量、β-折叠般含量、卷曲含量和二级结构内容预测(SSCP)程序(Eisenhaber等,1996)所指定的类别。通过疏水性特征向量的实例来阐明对物理化学性质的编码:能够将氨基酸划分为疏水组(C、V、L、I、M、F、W)、中性组(G、A、S、T、P、H、Y)和极性组(R、K、E、D、Q、N)。使用如下三种描述符来描述总体组成:组成(C)、变换(T)和分布(D),其中C是属于特定组(例如疏水组)的氨基酸数量除以在蛋白序列中的总氨基酸数量的结果(Cai等,2003;Cui等,2007;Dubchak等,1995);T为沿蛋白序列变换氨基酸组的相对频率,而D表示分别包含特定组氨基酸的第一个、25%、50%、70%和100%的链长度。总之,用21种要素来表示这三种描述符:3种用于C,3种用于T,且15种用于D。通过遵循这些步骤,使用总共1,521种特征要素构建了蛋白的特征向量。

表1:用于预测血分泌蛋白的初始特征列表

在一个实施方式中,步骤109包括对根据蛋白序列和二级结构计算出的多个特征进行检查,所述蛋白序列和二级结构可能与是否将蛋白分类为分泌至体液中有关。一些特征因为已知与蛋白分泌有关而被包括在内,而另一些特征因在统计学上与分类问题有关而被包括在内。举例而言,已知信号肽和跨膜结构域是用来预测胞外分泌蛋白的重要因素。跨膜部分用来将蛋白锚定到质膜上,而且能够在细胞表面将其切断从而使细胞外的部分可溶。到目前为止仅在原核生物中观察到双精氨酸(TAT)信号肽,已知其用来将蛋白输出至周质间隙或细胞外环境中,这独立于已充分研究的Sec依赖型转运途径(Bendtsen等,2005;Taylor等,2006)。在本研究中包括了该基序信息,来检查其是否可能与折叠蛋白跨人类细胞膜的运输有关。此外,众所周知的是,毛细管的结构决定了只有在一定尺寸之内的蛋白才能透过毛细管壁扩散至血液中。举例而言,除了短暂存在的肽激素,血液蛋白据预期大于肾脏过滤截断值45kDa,而且不小于最大直径为400nm(在某些肿瘤状况下)的毛细管泄露尺寸,从而使血液蛋白保留在血液中(Anderson和Anderson,2002;Brown和Giaccia,1998)。因此,在初始特征列表中包含了关于蛋白大小和形状的信息。另一种重要特征是糖基化位点。已观察到多数血分泌蛋白都发生了糖基化(Bosques等,2006),包括重要的肿瘤生物标记物,例如前列腺特异性抗原(PSA)和卵巢癌标记物CA125。在实施方式中,为了对诊断病理状态(例如癌症)进行辅助,在步骤109中构建了第二特征集。根据此实施方式,所述第二特征集包括已知因一种或多种病理状态(例如已知与各类癌症相关的肿瘤)而分泌至生物流体中的蛋白的性质。

根据本发明的一个实施方式,在步骤109中将多个一般特征包括在初始特征列表内,所述一般特征源自在诸如蛋白功能预测和蛋白-蛋白相互作用预测(如在Cui,2007中所综述的)等各种蛋白分类研究中广泛应用的蛋白序列、二级结构和物理化学性质,且可能与预测血分泌蛋白有关。表1概括了上文所讨论的特征。使用在以下部分中参照步骤111所呈现的特征选择算法来评估这些特征与分类问题的实际相关性。

在步骤109中对蛋白特征进行映射之后,本方法进行至步骤111。

分类和特征选择

在步骤111中,对分类器进行训练来识别在步骤103和步骤105中选出的蛋白阳性类别和阴性类别的相应特性。在步骤111中,使用在步骤109中产生的特征映射来训练分类器。在实施方式中,该步骤包括对修改过的支持向量机(SVM)分类器进行训练,从而利用高斯核(Gaussian kernael)辨别出阳性、阴性训练数据(Platt,1999;Keerthi,2001)。传统的SVM已应用于诸如蛋白功能预测(Cui,2007)、蛋白-蛋白相互作用预测(Ben-Hur和Noble,2005)及蛋白亚细胞定位预测(Su等,2007)等数据挖掘和生物信息学中的大范围的模式识别问题。

根据本发明的实施方式,使用专用的、修改过的SVM类分类器来有效率地计算蛋白分泌至生物流体中的概率。与诸如线性核或多项式核(Ben-Hur和Noble,2005;Burbidge等,2001;Su等,2007)等用于SVM中的其他更传统的核相比,高斯径向基函数核提供更优越的性能。所以,在实施方式中将高斯核SVM用于在步骤111中对分类器进行训练。根据本发明的实施方式,对修改过的SVM进行的输入可以包括之前提到的在训练集中的每个蛋白的1,521种特征,而分类器的输出则指示所输入的蛋白是否是血分泌蛋白。使用独立评估集(independent evaluation set)来估算对于整个数据集的总体蛋白分类的准确性。使用预测灵敏度SE=TP/(TP+FN)、预测特异性SP=TN/(TN+FP)、总体预测准确性Q=(TP+TN)/N、精确性=TP/(TP+FP)、曲线下面积(AUC)(Graham,2002)和Matthews相关系数(MCC)来度量分类性能。此处TP、TN、FP和FN分别是真阳性、真阴性、假阳性和假阴性的数量,并且N=TP+TN+FP+FN为训练集中的蛋白总数。使用可靠性评分(R-值)来评估每个预测的可靠性,如下所示:

其中d是目标蛋白在特征空间中的位置与通过SVM训练得到的最佳分割超平面之间的距离。在R-值和分类准确性(正确分类的概率)之间存在强相关性(Hua和Sun,2001)。

图2阐明了本发明实施方式从对305个蛋白阳性样本和26,962个蛋白阴性样本的分析推导出的R-值(可靠性评分)和P-值(正确分类的概率)之间的统计学关系。如在图2中所阐明的,引入P-值224来表示所预期的分类准确性,基于对305种阳性蛋白及26,962种阴性蛋白的分析,从R-值226和实际分类准确性之间的统计学关系222推导出所述P-值。在图2中所描绘的P-值224为所预期的分类准确性(正确分类的概率),基于对305个蛋白阳性样本及26,962个蛋白阴性样本的分析,从R-值226和实际分类准确性之间的统计学关系推导出所述P-值。通过用于估算分类器(例如SVM)准确性的评分函数,计算出描绘于图2中的R-值226。

在一个实施方式中,根据在步骤111中最初训练的每个分类器的性能,在步骤112和步骤113中使用一种名为递归特征消除(recursive feature elimination,RFE)(Tang等,2007)的特征选择方法来除去对分类目的而言无关的或可忽略的特征。

在步骤112中,确定所映射的特征(即在步骤109中所构建的特征)是否准确并且相关。下文描述了特征的准确性和相关性。如果结果为是,则方法100进行至步骤115。如果结果为否,则方法100进行至除去最不相关特征的步骤113。

在一个实施方式中,通过检查与蛋白特征相关的分类的准确性,在步骤112中确定了所述特征的重要性或相关性。举例而言,Moreau-Broto自相关描述符定义为:

AC(d)=Σi=1N-dPiPi+d

已报导其可用于根据氨基酸的疏水性指数来预测膜蛋白。Feng和Zhang(2000)描述了一种根据氨基酸的疏水性指数预测膜蛋白类型的机制。然而,本发明的一个实施方式显示,一些特征对分类准确性没有帮助。举例而言,在使用上文定义的Moreau-Broto自相关描述符(其中d为自相关的滞后,Pi和Pi+d分别为在位点i和位点i+d处的氨基酸的疏水性)时,发现氨基酸的疏水性并不是准确的特征。所以,通过RFE程序将其从步骤113中的初始特征列表中除去。

在下表2中列出了通过RFE程序选出的对表征血分泌蛋白而言重要的蛋白特征。在表2中,跟随在蛋白特征描述后的数字表示对应的代表特征的向量的最后维度。举例而言,“电荷分布15”表示代表蛋白电荷分布的向量的第15维。此外,“电荷分布15”还表示用具有至少15个维度的多维向量代表了蛋白的电荷分布值。应了解的是对不同的生物流体而言蛋白特征和对应的向量可以有所不同。举例而言,在一些非血液生物流体中仅可用10维向量来代表电荷分布。类似地,随着在步骤103和步骤105中选择不同的阳性蛋白集和阴性蛋白集,在表2中所列的排序可以有所不同。

在步骤113中,根据在步骤111中确定的相对准确性和相关性,除去了最不重要的特征。根据本发明的实施方式,基于一致性评分(consensus scoring)方案和基因排序一致性评估(gene-ranking consistency evaluation),步骤112和步骤113循环除去无关的特征。Tang等(2007)描述了一种用于执行上述步骤的此类方案。当然也存在其他能够实施的方案。在步骤113中除去特征后,可以执行步骤111的另一个循环114,从而使用现已缩减的特征集来再次训练分类器。具体而言,在步骤112和步骤113的各循环中,从特征列表里除去了评分最低(排序最低)的特征,所述评分由RFE基于随机取样的训练数据给出。基本上使用少数服从多数的决定方案来克服在不同的机选样本中的可能差异。这种重复执行步骤112~114的循环过程持续进行,直至在不损失分类性能的情况下获得可处理的缩减特征集,从而在步骤115中产生已训练的分类器。重复执行步骤112~114的目的是将初始特征集缩减为仍能够进行准确分类的最小特征集。

表2:通过RFE法选出的对表征血分泌蛋白而言重要的特征

*请参照特征构建部分以获得更详细的描述。例如,“电荷分布15”表示代表蛋白电荷分布的15维向量的最后维度。

示例已训练的支持向量机(SVM)实施方式

在步骤115中,在一个实施方式中根据所提供的分别由步骤103和步骤105得到的阳性训练集和阴性训练集,利用1,521种蛋白特征的初始列表来生成支持向量机(SVM)分类器的已训练版本。使用包含47个阳性样本和3,296个阴性样本的独立评估集,通过如上所定义的总体准确性来对最佳传统分类器的性能进行度量。传统分类器的预测性能仅产生约40%的准确性,此结果明显不合需要。这种低准确水平主要是由于如下事实:传统分类器使用许多与分类无关的蛋白特征,而且所述特征使对分类器(如SVM分类器)的分类器训练复杂化。此外,大型分类器用很多参数对数据进行过拟合,可以是引起不准确性的另一原因。因此,需要通过进行特征选择来除去一些次相关的特征,从而优化分类器的性能。在本发明的实施方式中,生成了SVM分类器的修改版本,即已训练的SVM类分类器,来识别蛋白类别的特性,从而改进了分类器性能。

在实施方式中,参照步骤109~111使用上文所概述的特征选择方法,选出了总共85种特征,其提供了经修改的SVM分类器的改进的交叉验证性能(Tang等,2007)。所述改进的交叉验证性能显示于下表3中。已发现以下特征属于对于分类最重要的蛋白特征。这些蛋白特征包括但不限于:跨膜结构域、电荷、TatP基序、可溶性、极性、信号肽、疏水性、O-连接糖基化基序和二级结构内容,其排在前20位特征中。此观察结果与对分泌蛋白的一般理解一致,除了发现在预测中排序前3的特征TatP基序对在步骤121中产生的预测结果有重要贡献,而TatP已知在原核生物中用来将蛋白输出至周质间隙或细胞外环境中(Bendtsen等,2005;Taylor等,2006)。这表明一种将TatP基序与真核生物中的蛋白分泌联系起来的新发现。

在实施方式中,根据85种选出的蛋白特征,在步骤111中所训练的5种新的SVM类分类器,在步骤115中生成了已训练的分类器。随后在同一独立评估集上用缩减的特征列表对这些已训练的SVM类分类器的性能进行测试。如下表5所示,这5种分类器的性能水平大体一致,对血分泌蛋白而言为87.2%~93.7%,对非血分泌蛋白而言为98.2%~98.6%。预测性能的精确性、Matthews相关系数(MCC)和接收器操作特征曲线下面积(AUC)值的平均值分为别44.6%、0.63和0.94。如表3中所示,AUC值与之前的性能度量一致。有趣的是,精确性和MCC似乎相对较低。在可比较的评估集上MMC值能够大幅度波动,这是一个常见的已知问题。例如在Klee和Sosa(2007)和在Smialowski等,(2007)中已描述了该问题。相对较低的精确性和MCC值部分是由于阳性评估集和阴性评估集间的不对称容量,其造成对系统性能的低估。在实施方式中,可以通过增大阳性集的容量来改进这种情况。如下表3中所示,在保持高特异性的同时选择具最佳灵敏度的分类器,从而能够包括尽可能多的先前未知的血分泌蛋白。

表3:在训练集、测试集和独立评估集中预测血分泌蛋白和非血分泌蛋白时对分类器的性能统计

在对同一评估集应用引用最多的传统的胞外分泌蛋白预测方法WolF PSORT(Horton等,2007)时,获得的预测准确性为81.0%,MCC值为0.37。这并不令人惊奇,因为包括WolF PSORT在内的传统蛋白分泌预测方法既考虑胞外分泌又考虑进入血流的分泌,从而并非为解决此问题而设计。

在一些实施方式中,通过针对Swiss-Prot数据库中的全部人类蛋白进行的筛查测试,进一步评估了在步骤115中生成的已训练的分类器,其在应用于大数据集时能够提供对预测性能更现实的估算。在此示例实施方式中,收集了20,832种人类蛋白。其中1,563种蛋白注释为分泌蛋白,并且根据信号肽和所注释的亚细胞定位认为另外约750种蛋白与分泌有关(Welsh等,2003)。如在下表4中所示,在步骤115中生成的已训练的分类器将4,063种蛋白预测为血分泌蛋白,占所述20,832种蛋白的19.5%,该结果与分泌蛋白和血液蛋白的总数(估计的和已报导的)(Welsh等,2003)大体一致。所有这些结果表示,含有249种阳性蛋白和13,244种阴性蛋白的初始集显示出对跨整个蛋白空间的有关蛋白的良好代表性。

表4:对Swiss-Prot中的全部人类蛋白进行血分泌蛋白筛查的结果。

除了上述测试以外,能够通过对已发表的蛋白质组学研究进行大范围的文献检索,来汇编出在人类血液中因各种疾病而差异表达的240种蛋白的列表。所述研究覆盖了在诸如胰腺、卵巢、黑色素瘤、肺、前列腺、胃、肝脏、结肠、鼻咽、肾脏、子宫颈、大脑、乳腺和膀胱等14种人类组织中的多种癌症。在所述240种蛋白中,有122种未包括在初次收集的305种血分泌蛋白中,且其名称已列于表6中。在初次收集的血分泌蛋白中未包括这122种蛋白的主要原因为:(1)在Swiss-Prot中对这些蛋白的注释有误,和(2)蛋白质组学研究收集了此蛋白初始列表,却未能检测到这些蛋白。如在其相应的研究中所示,所有这122种蛋白都能够作为特定癌症血液内的潜在生物标记物来使用,从而将肿瘤组织与正常形态分辨开或对特定癌症的不同发展阶段进行辨别。举例而言,若干课题组已使用了该方法:Rui等(2003)将热休克蛋白β-1用于乳腺癌,Pardo等(2007)将组织蛋白酶D用于黑色素瘤,Unwin等(2003)将L-乳酸脱氢酶用于肾癌(renal cancer),Bradford等(2006)将前列腺特异性抗原(PSA)用于前列腺癌。在122种蛋白中,正确预测的蛋白至少有97种(79.5%),而剩余25种蛋白的预测结果与已发表的文献不符(这122种蛋白的名称在表4中给出)。预测蛋白向其他生物流体中的分泌的最低准确性为至少75%正确、优选为超过80%,且最高至本文就血液和尿所描述的准确性。

在步骤115中生成分类器之后,本方法进行至步骤119。

在步骤119中接收一种或多种蛋白序列。在实施方式中,可以在此步骤中接收多个由用户输入的蛋白序列。根据本发明的实施方式,在步骤119中接收与从生物流体收集的蛋白对应的蛋白序列,且所述序列为FASTA格式。FASTA格式的蛋白序列以单行描述为开头,而后是序列数据行。FASTA格式是用来表示核苷酸序列或肽序列的文本格式,其中使用单字母代码来表示碱基对或氨基酸。FASTA格式在蛋白序列前预留了序列名称和备注。在第一列中通过大于(“>”)号来将描述行与序列数据进行区别。FASTA格式的序列通常由数行长度小于80个字符的文本组成。

在本发明的其他实施方式中,接收与收集于生物流体的蛋白对应的其他已知格式的蛋白序列,所述格式包括但不限于仅包含字母字符的“未加工”文本格式。根据本发明的实施方式,忽略在所接收的未加工文本格式的蛋白序列中的任何空白处,例如空格、换行符或制表符。

在实施方式中,在步骤119中能够对一种或多种的蛋白序列进行解析来检查与已知蛋白序列格式的相容性。如果接收到了有效的蛋白序列,本方法进行至120。

在步骤120中生成所接收的蛋白序列的向量。将每个蛋白序列表示为一个实数向量。因此,如果存在分类属性,则在步骤120中将其转化为数值数据。在该步骤中,还进行了对蛋白属性的缩放。在步骤121中使用已训练的分类器之前完成对属性的缩放,从而防止在较大数值范围的属性掩盖较小数值范围的属性。在步骤120中进行缩放的另一原因是在步骤121中计算分泌概率的过程中避免数值困难(numerical difficulties)。因为分类器中的核值通常取决于特征向量的内积(即,线性核和多边形核),大属性值可引起数值问题。在向量生成并缩放之后,方法100进行至步骤121。

在步骤121中,使用在步骤115中生成的已训练的分类器来确定与步骤119中所接收的蛋白序列对应的蛋白是分泌蛋白的概率(即对类别进行预测)。

以下部分提供了在步骤121中所进行的预测的一些示例性实施方式。在使用包含98种分泌蛋白和6,601种非分泌人类蛋白的大测试集的已训练的分类器的一个实施形态中,该分类器取得约90%的预测灵敏度和约98%的预测特异性。灵敏度是分子为真阳性数量、分母为真阳性加假阴性数量之和的分数。特异性是分子为真阳性数量、分母为真阳性加假阳性数量之和的分数。能够使用若干附加数据集来进一步评估分类器的性能。在使用含有122种经发现在人类血液中因各种癌症而具有异常高丰度的蛋白的集的已训练的分类器的实施形态中,基于该分类器的电脑程序将62种蛋白预测为血分泌蛋白。通过微阵列基因表达研究在胃癌组织和肺癌组织中检测到了异常高表达的基因,通过将上述程序应用于这些基因,分别将13种和31种蛋白预测为血分泌蛋白,这表示这些蛋白能够分别作为所述两种癌症的潜在生物标记物。本发明的一些实施形态证明方法100能够提供非常有用的信息,从而将基因组学和蛋白质组学研究联系起来用于疾病生物标记物开发。

在本发明的一个实施形态中,部分地以使用文献报导的相关证据所开发的模型为基础,对122种或多种蛋白进行了预测。在具有来自文献的支持证据的正确预测中,在步骤121中检测到了在癌症患者血清中具有升高的基因表达水平的肿瘤坏死因子、腱生蛋白(tenascin)、C-C基序趋化因子3和胰岛素样生长因子结合蛋白7,而且在Swiss-Prot和SPD数据库中将这些蛋白注释为分泌蛋白。基于网络的SPD在Chen等(2005)中有所描述。在步骤122中将例如钙同线蛋白-1(calsyntenin-1)、免疫球蛋白α链C和肝细胞生长因子受体等一些膜蛋白预测为分泌蛋白,但是由于有证据表明这些蛋白通过分泌或其他方法(例如膜相关蛋白的水解断裂)而现于细胞外部,所以仅能认为这些预测在已发表的文献中具有部分支持证据。该步骤中的一些预测还能够部分地得到所注释的蛋白功能的支持。举例而言,凝血酶致敏蛋白1前体被描述为介导细胞-细胞间相互作用和细胞-基质间相互作用的粘着糖蛋白,因此预期其在细胞外部发挥功能。在一个实施方式中,认为下述蛋白“与文献不符”:注释为分泌蛋白、却预测为非血分泌蛋白或预测为血分泌蛋白但无任何证据表明其与分泌有关的蛋白,例如肌动蛋白抑制蛋白-1和碳酸酐酶1。

在本发明的一个实施方式中,在步骤111中对SVM类分类器进行进一步训练来预测经微阵列基因表达实验检测到的异常高表达基因所对应的蛋白是否会分泌至血流中。在具有各种病理状态(例如癌症)的患者中,研究已鉴定出显示异常高表达水平的多种此类基因。利用此知识,在步骤121中,能够根据对某些蛋白排至患者血流中的概率进行的计算,来使用SVM类分类器对各种癌症进行诊断。为了诊断诸如癌症等病理状态,在实施方式中步骤111能够使用与一种或多种病理状态对应的第二特征集,如上所述,该第二特征集构建于步骤109中。如在表7中所示,从对胃癌和肺癌的研究中,分别发现共26种和57种基因具有异常表达水平,其包括与正常非癌细胞相比的上调和下调水平。在Kim等(2002)中描述了胃癌相关研究,在Lo等(2007)中展示了肺癌相关研究。举例而言,Lo等(2007)中的图4(B)阐明了对在鳞状细胞癌(SqCC)中相对于正常组织的基因表达改变进行的分级聚类。如在Lo等(2007)中所讨论的,已将一些基因鉴定为用于癌症诊断或用于辨别不同癌症阶段的潜在标记物。在本发明的一个实施方式中,对在Lo等(2007)的表2中所列的每个基因运行分类器,从而检查该基因所编码的蛋白是否被预测为血分泌蛋白以及是否由此可能用作对应的癌症的生物标记物。预测结果显示,在上述26种和57种蛋白中分别有13种和31种能够分泌至血流中。举例而言,补体因子D由CFD基因编码。根据对胃癌细胞的因子D的分泌的定量分析(Kitano和Kitamura,2002),认为胃组织所分泌的因子D可能对血循环中的因子D水平有贡献,这与预测一致。另一个实例是多药剂及毒素排出蛋白2(multi-drug and toxin extrusion protein 2),其由基因MATE1编码且在胃癌患者中具有升高的表达。该蛋白是四乙铵(TEA)、1-甲基-4-苯基吡啶离子(MPP)、甲腈咪胍和更昔洛韦的溶质运载蛋白,并且直接将毒性有机阳离子(OC)运输至尿和胆汁中(Otsuka等,2005)。在包括血管内皮细胞在内的各种组织细胞的表面已观察到了MATE家族的成员。举例而言,Pardo等(2007)描述了以眼色素层黑色素瘤的分泌蛋白组(secretome)为来源进行的生物标记物开发和对血清中组织蛋白酶D及gp100进行的鉴定。因此,将这些蛋白预测为血分泌蛋白的结果与现有研究一致。

根据实施方式,基于在上文所呈现的多个数据集上获得的结果,在步骤121中通过SVM类分类器产生的预测的总体预测准确性为79.5%~98.1%,且对独立评估测试和额外的血液蛋白测试而言正确预测了至少80%的已知血分泌蛋白。从独立阴性评估测试中,发现假阳性率为约10%,其为错分类的非血分泌蛋白所占的合理比例,且有助于减少与低精确性相关的疑虑。在步骤121中所产生的预测的预测准确性在不同数据集间显示出良好水平的一致性。

应注意的是,若干种因子能够影响预测准确性。一种因子是用于训练SVM类分类器的蛋白样本的多样性。可能的情况是,并非所有可能类型的体液分泌蛋白都会充分地表示在训练集中。举例而言,在用于精确分离、检测和鉴定相关蛋白的蛋白质组学技术中的当前局限性可以说明为何在高丰度的原生血液蛋白(大于血清中的ng/ml级)存在时检测不到一些具有相对低丰度(低于血清中的ng/ml级)的蛋白。随着更多的蛋白的积累,能够克服这种明显的差异,所述更多的蛋白是通过更多的聚焦于血液中低丰度蛋白的研究而鉴定出的。另一潜在问题是,在步骤115中生成的已训练的分类器中所用的结构及物理化学描述符未能充分代表蛋白分泌机制,从而在步骤121中导致错误预测。能够通过步骤109和步骤114的重复来映射其他更具信息量的描述符(特征),从而减轻这个问题。在步骤121中预测了蛋白类别之后,产生了对应于预测的输出序列,而本方法继续进行至步骤123。

在步骤123中,根据在步骤121中产生的输出序列,显示R-值和P-值并且返回预测结果。根据一个实施方式,使R-值、P-值和预测结果显示于图形用户界面(GUI)中,例如在图6和图7中描绘的GUI 300,其在下文将详细描述。在其他实施方式中,可将预测结果呈现为图表、表格、打印输出、电邮警报、语音信箱信息或GUI中的图标(即指示阴性结果的红色图形图标和指示阳性结果的绿色图标)。在本发明的一个实施方式中,可以以独立模式呈现预测结果而没有相应的R-值和P-值。在步骤123中显示出结果后,方法100结束。

虽然上述对方法100的步骤的描述讨论了关于预测进入血流的蛋白分泌的实施方式,但是根据上述讨论,应了解的是方法100的步骤能够用于其他体液,例如但不限于唾液、尿、脊髓液、精液、阴道液、羊水、龈沟液和眼内液。特别的是,能够使上述步骤103~123适于预测进入除血液外的其他体液的蛋白分泌。应了解的是能够容易地使下述步骤适应于除血液外的其他生物流体的分泌的预测方法:选择蛋白的阳性分泌类型;选择阴性集的代表蛋白;映射蛋白特征来构建特征集;训练分类器来识别蛋白类别的特性;确定映射特征的准确性和相关性;除去最不重要的特征来生成再次训练的分类器;接收蛋白序列;向量生成及缩放;预测所接收的蛋白序列的类型;并且返回对所接受的蛋白序列的预测结果。在以下部分提供了将方法100用于尿蛋白分析的示例性实施形态。

表5:在对血分泌蛋白及非血分泌蛋白独立评估集进行预测时对5种分类器的性能统计。

*σ:核宽度;C:罚参数,其为训练误差和分类间隔间的权衡(trade-off)。

通过在0.05~1000范围内扫描参数σ并基于最佳灵敏度获得每个分类器。

表6:差异表达的血清蛋白和SVM预测状态的列表。符号+和-分别表示将蛋白预测为血分泌型和非血分泌型。将结果归入以下四种类型中的一种:C(一致),其中文献注释的血分泌蛋白得到了正确预测;PC(部分一致),其中有一些证据表明该蛋白是否为血分泌型的蛋白得到了正确预测;NC(不一致),其中预测结果与注释不一致。

表7:差异表达的基因(与正常细胞相比,在癌细胞中上调及下调的基因)所编码的蛋白和SVM预测状态的列表。符号+和-分别表示将蛋白预测为血分泌型和非血分泌型(R:R-值,P:P-值)。

对用于尿的蛋白分析方法的示例性实施形态

以下部分描述了适合于分析尿的方法100的实施形态。为了简洁,在下文中仅描述了该实施方式与以上描述相比特有的区别。

因为尿是血液通过肾脏过滤而形成的,所以血液中的一些蛋白通过肾脏并能够排泄至尿中。因此,尿蛋白不仅反应肾脏和泌尿生殖道的状况,还反应远离肾脏的其他器官的状况(Barratt和Topham,2007)。为了训练分类器来预测患病组织中的哪些蛋白能够排泄至尿中,将上述方法100应用于尿。将方法100应用于尿能够将经检测在患病组织中异常表达的蛋白与尿中潜在的蛋白/肽段标记物进行关联,通过对尿样品使用各种类型的蛋白质组学技术能够对其进行检验。

与上文讨论的实施形态相同,尿分析的实施形态始于步骤103和步骤105。

在步骤103中,收集现于尿样品中的蛋白集作为阳性分泌集。在方法100的实施形态中,使用了在尿样中鉴定出的1,500种蛋白的集。在Adachi等(2006)中讨论了这1,500种蛋白。在实施方式中,步骤103包括:将已在主要尿蛋白质组学研究中以实验手段证实的尿蛋白包括在阳性集中。

将在先前尿蛋白质组学研究中发现的蛋白用作阳性集,通过利用与蛋白特性相关的特征值,使用SVM类分类器来将阳性数据集与阴性数据集分离。

在步骤105中,收集另一蛋白集用于阴性集。在步骤105中收集的代表性阴性集包括了确信不会分泌至尿中的蛋白。在实施方式中,步骤105收集的蛋白列表是从阳性训练数据集蛋白所不属于的Pfam家族产生的。因此,为训练集和测试集分别生成了2,627种和2,148种蛋白。

如上文所讨论的,随后执行步骤109来对尿蛋白的蛋白特征进行映射,所述特征能够很好地辨别分别在步骤103和步骤105中选出的阳性样本和阴性集。在实施方式中,在步骤109所进行的特征映射中,关于蛋白如何从血液排泄至尿的一般知识提供了有用的指引。在一个实施方式中,将来自Swiss-Prot数据库的且具有访问标识符(accession ID)的1,313种蛋白用来执行步骤109。在另一实施方式中,在步骤109中使用来自3个尿蛋白质组学研究(Pieper等,2004;Castagna等,2005;Wang等,2006)的数据来获得460种非重叠性蛋白(即在阳性集或阴性集中的蛋白,但不同时在两个集中)。

在一个实施方式中,步骤109涉及从Swiss-Prot数据库获取特征。在方法100的一个实施形态中,在该步骤中收集了代表18种特征的243个特征值。在该实施形态中,尽管所述代表18种特征的243个特征值不同于血液中所发现的特征,但尿相关特征是使用与在上文表1中所列内容类似的外部工具和资源进行本地计算和预测的。在下表8中列出了这243种特征。如上所述,步骤109包括对每个特征值进行计算来确定其排序。在下表11中列出了对于尿蛋白而进行排序的蛋白特征。

表8:尿相关特征的243种蛋白特征值

如上文所大体描述的,在步骤111中对分类器进行训练来识别分泌至尿中的蛋白类别。在一个实施形态中,在步骤111中可以使用径向基函数(RBF)核SVM分类器来对分类器进行训练,从而对尿蛋白和非尿蛋白进行归类划分。在实施形态中,在此步骤中可以用注释及可视化数据库对480种预测为排泄型的蛋白执行功能性强化分析(functional enrichment analysis),并且能够使用人类蛋白来执行功能注释聚类分析。通过由对各聚类应用EASE软件产生的强化评分(enrichment score)来确定该组的总体强化评分。这些步骤的执行机制在Dennis等(2003)和Huang等(2009)中有所描述。

在一个实施形态中,用来在步骤111中训练分类器的排泄蛋白的最显著特征是信号肽的存在。如在本文中所用的,信号肽是指任何可在后期被切除的蛋白质N-端氨基酸。其他有关特征包括二级结构。此外,描述二级结构的一些特征值是有关的,例如α含量的百分比。

步骤111还可包括将基于KEGG直系同源(KO)的注释系统与基于KO的注释系统(KOBAS)结合使用。其实现机制在Mao等(2005)和Wu等(2006)中有所描述。该方法使训练器能够通过为所预测的排泄蛋白找到统计强化性(statistically enriched)的途径和未被充分代表的途径而得到训练。KOBAS系统接收一组序列并且根据BLAST相似性进行KEGG直系同源条目注释。随后能够将注释的KO条目与全部人类蛋白进行比较。如果存在大于2倍的百分比组成变化,则认为该途径是强化的或未被充分代表的。对于尿而言,蛋白电荷是排泄蛋白的排序前列的特征之一。因此,可训练分类器来识别蛋白电荷,并将其作为决定哪种蛋白通过肾脏中的肾小球壁而得到过滤并进入尿液的因素。然而,在一个实施形态中,发现分子大小对蛋白进入尿的分泌是无关的特征。这是因为血液中的蛋白在更进一步降解前可能已经处于不完整形态。另外,多数在尿中发现的蛋白都已高度降解(Osicka等,1997)。虽然完整蛋白主要因其大小或形状可能不能通过过滤,但蛋白片段在穿过足细胞狭缝时不会有问题。因此,在预测蛋白的排泄状态时,已发现完整蛋白的分子大小是次要因素。

在一个实施形态中,如在下表9中所示,在步骤111中训练了2种分类器。模型1的预测具有较高的特异性和较低的灵敏度,而模型2则显示出均衡的性能。由于数据集的不均衡数量,准确性(在表9中注释为ACC)或许并不是用来确定该模型性能的最佳度量。所以,如在表9中所示,使用Matthews相关系数(MCC)来作为对二元分类品质的度量。如在下表9中所描绘的,这两种分类器的性能水平大体一致,为85.7%~94.9%。

表9:在训练集中和独立集中对两种分类器的性能统计

随后控制程序进行至步骤112。

如上文所讨论的,重复执行步骤112~114直至在不损失分类性能的情况下获得可处理的缩减的特征集,由此在步骤115中生成经再次训练的分类器。在实施方式中,可以使用径向基函数(RBF)核SVM分类器来对分类器进行训练,从而对尿蛋白和非尿蛋白进行归类划分。如在下表10中所示,在方法100的实施形态中,在使用74种蛋白特征来训练RBF核SVM分类器时,获得了最高的预测准确性。在下表11中列出了这74种蛋白特征。

根据在步骤109中选出的特征,表10列出了分类器(在步骤111中建立的模型)的性能。如在表10中所列的,当使用53种~77种蛋白特征时,本发明尿实施形态的预测准确性为80.4%~81.29%,其中在使用表11中所列的74种蛋白特征时获得了最高准确性81.29%。

表10:特征选择。基于用最优参数选出的特征的预测准确性。

  特征数量  准确性  53  80.40610  56  80.50760  64  80.58380  66  80.71070  70  80.81220  74  81.29440  77  81.14210

表11:对于表征尿分泌蛋白而言重要的特征

  排序  描述  1  信号肽的存在  2  组成二级结构:螺旋(EALMQKRH)  3  组成标准化的范德华体积(0~2.78)  4  α含量百分比  5  变换标准化的范德华体积(4.03~8.08)  6  变换二级结构:卷曲(GNPSD)  7  变换可极化性值(.219~.409)KMHFRYW  8  组成电荷:正(KR)  9  组成可极化性值(0~1.08)GASDT  10  变换可极化性值(0~1.08)GASDT  11  组成标准化的范德华体积(4.03~8.08)  12  组成可极化性值(.219~.409)KMHFRYW  13  卷曲含量百分比  14  氨基酸组成G  15  假AA描述符  16  氨基酸组成T  17  组成二级结构:卷曲(GNPSD)  18  等电点  19  组成电荷:中性(ANCQGHILMFPSTWYV)  20  变换电荷:正(KR)  21  组成疏水性-中性(GASTPHY)  22  变换标准化的范德华体积(0~2.78)

  23  变换溶剂可接触性:暴露(RKQEND)  24  组成极性:极性值(8.0~9.2)PATGS  25  组成极性:极性值(10.4~13.0)HQRKNED  26  分布  27  假AA描述符  28  假AA描述符  29  分布  30  氨基酸组成R  31  组成二级结构:折叠般(VIYCWFT)  32  N糖基化位点数量  33  组成疏水性-极性(RKEDQN)  34  组成溶剂可接触性:暴露(RKQEND)  35  变换极性:极性值(4.9~6.2)LIFWCMVY  36  假AA描述符  37  无序区百分比  38  氨基酸组成K  39  氨基酸组成C  40  计算出的  41  分布  42  假AA描述符  43  假AA描述符  44  分布  45  氨基酸组成M  46  氨基酸组成E

  47  假AA描述符  48  变换电荷:中性(ANCQGHILMFPSTWYV)  49  分布  50  分布  51  变换疏水性-中性(GASTPHY)  52  变换极性:极性值(8.0~9.2)PATGS  53  组成溶剂可接触性:隐埋(ALFCGIVW)  54  分布  55  假AA描述符  56  分布  57  组成标准化的范德华体积(2.95~4.0)  58  分布  59  变换疏水性-疏水(CLVIMFW)  60  电荷  61  假AA描述符  62  氨基酸组成H  63  可解折叠性  64  氨基酸组成L  65  分布  66  分布  67  O-糖基化位点的存在  68  氨基酸组成N  69  分布  70  氨基酸组成Y

  71  氨基酸组成W  72  假AA描述符  73  氨基酸组成V  74  假AA描述符  33  组成疏水性-极性(RKEDQN)  34  组成溶剂可接触性:暴露(RKQEND)  35  变换极性:极性值(4.9~6.2)LIFWCMVY  36  假AA描述符  37  无序区百分比  38  氨基酸组成K  39  氨基酸组成C  40  计算出的  41  分布  42  假AA描述符  43  假AA描述符  44  分布  45  氨基酸组成M  46  氨基酸组成E  47  假AA描述符  48  变换电荷:中性(ANCQGHILMFPSTWYV)  49  分布  50  分布  51  变换疏水性-中性(GASTPHY)  52  变换极性:极性值(8.0~9.2)PATGS

  53  组成溶剂可接触性:隐埋(ALFCGIVW)  54  分布  55  假AA描述符  56  分布  57  组成标准化的范德华体积(2.95~4.0)  58  分布  59  变换疏水性-疏水(CLVIMFW)  60  电荷  61  假AA描述符  62  氨基酸组成H  63  可解折叠性  64  氨基酸组成L  65  分布  66  分布  67  O-糖基化位点的存在  68  氨基酸组成N  69  分布  70  氨基酸组成Y  71  氨基酸组成W  72  假AA描述符  73  氨基酸组成V  74  假AA描述符

如上文所讨论的,在步骤119中接收一种或多种的蛋白序列,并且在步骤120中进行向量生成和缩放之后,在步骤121中对该一种或多种的蛋白的类别进行预测。在一个实施形态中,使用在表9中所列并在上文中描述的模型1来在2,048种蛋白中预测能够排泄至尿的蛋白,所述2,048种蛋白在胃癌患者和正常样本之间显示出表达水平的变化。在该实施形态中,通过在Affymetrix人类外显子阵列1.0上对来自胃癌患者组织样本和正常组织样本的17,812种基因进行比较,从而选出上述2,048种蛋白。在该2,048种蛋白中,使用已训练的分类器将480种蛋白预测为会排泄至尿中。对于所预测的排泄蛋白,最多11种蛋白的置信水平超过98%。在此置信水平上,假阳性率的几率低于0.02%,因此这些蛋白极可能会排泄至尿中。在408种蛋白中共有203种蛋白其排泄至尿的置信度高于92%,其假阳性率小于0.7%。诸如这些在步骤121中由该模型预测为会排泄至尿中的蛋白等蛋白是供进一步的尿中生物标记物研究用的候选蛋白。

示例性的带用户界面的蛋白分析

图3~图6阐明了本发明实施方式的图形用户界面(GUI)。参考图1的实施方式描述了图3~图6中所示的GUI。然而,该GUI并不限于该示例实施方式。举例而言,如在上文步骤119中参考图1和图3所描述的,GUI可以是用来接收蛋白序列的用户界面。虽然在图3~图6中所绘的示例性实施方式中,所显示的GUI 300为互联网浏览器界面,然而应了解的是能够容易地将GUI 300修改为适合在移动设备、计算机终端、服务器主机的显示器上或其他计算设备的显示器上执行。图3~图6表明,GUI 300显示为连接至血分泌蛋白预测(BSPP)服务器的界面。然而,在本发明的实施方式中,可以使用GUI 300来对其他体液中的蛋白分泌进行预测。

从图3到图6,呈现了具有各种命令区域的相似显示内容,其用来起始操作、输入蛋白序列和提交/上传用于分析的多个蛋白序列。为了简洁,下文仅对在图中出现的与前图或后图相比不同的地方进行描述。

图3和图4阐明了示例性的GUI 300,其中根据本发明的实施方式,为了预测哪些蛋白能够分泌至血流中,用户可将多个蛋白序列输入到命令区域302中。在实施方式中,用于蛋白分析的系统包括GUI 300,并且还包括经配置允许用户在GUI 300的相应部分中对数据进行选择和输入的输入装置(未示出)。举例而言,通过在显示器中所显示的各命令区域302、304和306之内及之间移动GUI 300上的指针或光标,用户能够输入或提交一种或多种待系统分析的蛋白序列。在实施方式中,所述显示器可以是示于图7中的计算机显示器730,而GUI 300可以是显示接口702。根据本发明的实施方式,所述输入装置可以是但不限于,例如键盘、定点装置、跟踪球、触控板、操纵杆、声音激活控制系统(voice activated control system)、触摸屏或其他用来提供用户和GUI 300间的交互的输入装置。

图3阐明了用户如何能够根据本发明的实施方式将FASTA格式或未加工文本格式的蛋白序列输入至命令区域302中。该输入是在上文参考图1所描述的方法100的步骤119中接收蛋白序列的一种方式。图3还描绘了用户如何能够使用命令区域204来上传多个蛋白序列。在图3所阐述的示例实施方式中,能够使用命令区域304来上传最多5个蛋白序列。然而,应了解的是在相关领域的技术人员的知识范围内容易将GUI 300修改为适于接收多于5个蛋白序列。作为另一选择,可以使用浏览按钮306来对储存于一个或多个位置的蛋白序列进行浏览。在实施方式中,可以使用浏览按钮306来开启窗口307,从而使用户能够导航至一个或多个的蛋白序列文件。通过使用窗口307导航至文件储存位置,用户可以将储存在多个位置(例如绘于图7中的计算机系统700的存储器708或存储器710)的蛋白序列上传。一旦已经使用命令区域302、304和/或窗口307输入或上传了所需的蛋白序列,通过选择提交按钮310可以提交序列以供分析用。如果用户想从命令区域302和/或304中清除任何输入,可以选择重置序列按钮308。

图4描绘了在命令区域302中的所接收的蛋白序列412。通过选择提交按钮310可以提交单一蛋白序列412供分析用。

图5描绘了对所接收的蛋白序列412的阴性分类结果516以及相应的蛋白标识符(ID)514、R-值518和P-值520。如上文参考图2所描述的,根据本发明的实施方式,在R-值518和由对阳性和阴性蛋白样本的分析得出的P-值520之间存在统计学关系。在图5中提供的实例中,未将蛋白序列412预测为已分泌至血液中。在实施方式中,如上文参考图1所讨论的,使用已训练的分类器且根据在步骤121中计算的概率,预测出了该阴性分类结果516。

图6描绘了对所接收的蛋白序列412的阳性分类结果616以及相应的蛋白标识符(ID)514、R-值518和P-值520。如上文参考图2和图5所描述的,在R-值518和由对阳性和阴性蛋白样本的分析得出的P-值520之间存在统计学关系。在图6中提供的实例中,将所接收的蛋白序列预测为血分泌型。在实施方式中,如上文参考图1所讨论的,使用已训练的分类器且根据在步骤121中计算的概率,预测出了该阳性分类结果616。

示例计算机系统实施形态

本发明的各个方面能够通过软件、固件、硬件或其组合来实施。图7阐述了示例计算机系统700,其中本发明或本发明的一部分能够作为计算机可读的代码来实施。举例而言,在计算机系统700中能够实施通过图1的流程图所阐明的方法100和绘于图3~图6中的GUI 300。根据此示例计算机系统700,对本发明的各种实施方式进行了描述。在阅读本说明书之后,如何利用其他计算机系统和/或计算机体系结构来实施本发明对相关领域的技术人员而言将会变得显而易见。

计算机系统700包括一个或多个处理器,例如处理器704。处理器704可以是专用处理器或通用处理器。处理器704连接至通信基础设施706(例如,总线或网络)。

计算机系统700还包括主存储器708,其优选为随机存取存储器(RAM),而且还能够包括辅助存储器710。辅助存储器710可以包括,例如硬盘驱动器712、可移除存储驱动器714、闪存、记忆棒和/或任何类似的非易失性存储装置。可移除存储驱动器714可以包括软盘驱动器、磁带驱动器、光盘驱动器或闪存等。可移除存储驱动器714以公知的方式对可移除存储单元718进行读取和/或写入。可移除存储单元718可以包括软盘、磁带、光盘等,其由可移除存储驱动器714进行读取和写入。应意识到的是,可移除存储单元718包括计算机可用的存储介质,且其中存储有计算机软件和/或数据。

在替代性实施形态中,辅助存储器710可以包括允许将计算机程序或其他指令载入计算机系统700的其他类似构件。此类构件可以包括,例如可移除存储单元722和接口720。此类构件的实例可以包括程序盒式存储器和盒式接口(例如见于视屏游戏设备中的构件)、可移除存储芯片(例如EPROM或PROM)及相关插口和其他允许将软件和数据从可移除存储单元722传输至计算机系统700的可移除存储单元722及接口720。

计算机系统700还可以包括通信接口724。通信接口724允许在计算机系统700和外部设备之间传输软件和数据。通信接口724可以包括调制解调器、网络接口(例如以太网卡)、通信端口或PCMCIA插槽及卡等。通过通信接口724传输的软件和数据所用的信号形式可以是电子信号、电磁信号、光信号或其他能够为通信接口724所接收的信号。这些信号通过通信路径726提供至通信接口724。通信路径726携带信号并且能够使用电线或电缆、光导纤维、电话线、蜂窝式电话连接器、RF连接器或其他通信信道来实施。

在本文中,术语“计算机程序介质”和“计算机可用介质”一般用来指诸如可移除存储单元718、可移储存储单元722和安装在硬盘驱动器712中的硬盘等介质。经过通信路径726所携带的信号也能够实施此处所描述的逻辑。计算机程序介质和计算机可用介质还可以指诸如主存储器708和辅助存储器710等存储器,其可以是半导体记忆器(例如DRAM等)。这些计算机程序产品是用来为计算机系统700提供软件的方法。

计算机程序(亦称为计算机控制逻辑)存储在主存储器708和/或辅助存储器710中。还能够通过通信接口724接收计算机程序。如本文所讨论的,此类计算机程序在运行时使得计算机系统700能够实施本发明。特别的是,该计算机程序在运行时使得处理器704能够实施本发明的过程,例如在由上文讨论的图1流程图所阐明的方法100中的步骤。因此,此类计算机程序是所述计算机系统700的控制器。在使用软件实施本发明时,能够将该软件储存在计算机程序产品中,并使用可移除存储驱动器714、接口720、硬盘驱动器712或通信接口724将其载入计算机系统700中。

本发明还涉及包括存储在任何计算机可用介质中的软件的计算机程序产品。此类软件在一种或多种数据处理设备中执行时可使数据处理设备如本文所描述地运行。本发明的实施方式采用任何现在已知或未来将知的计算机可用的或可读的介质。计算机可用的介质的实例包括但不限于,主存储装置(例如,任何类型的随机存取存储器)、辅助存储装置(例如硬盘驱动器、软盘、光盘只读存储器(CD ROM)、压缩盘、存储带、磁存储装置、光存储装置、MEMS、纳米技术存储装置等)和通信介质(例如,有线及无线通信网络、局域网、广域网络、内联网等)。

结论

应意识到的是,用来解释权利要求的是上述具体实施方式部分,而非发明内容和摘要部分。发明内容和摘要部分可以阐明发明人所考虑的本发明的一种或多种而非全部示例性实施方式,因此其并非旨在以任何方式限制本发明及所附权利要求。

借助于阐明实施特定功能及其关系的功能性构成单元块,已在上文描述了本发明。为了描述方便,这些功能性构成单元块的界限是经主观定义的。只要所特定描述的功能及其关系得到恰当的实施,就可以定义替代性的界限。

前述对具体实施方式的描述将完整地披露本发明的一般性质,以致他人能够通过使用本领域技术中的知识,在无需过度的实验和不脱离本发明一般概念的情况下,容易地对这些具体实施方式进行修饰和/或修改以适于各种应用。因此,根据本文的教导和指引,此类修饰和修改应处于所公开实施方式的等同方式的含义和范围内。应了解的是,本文中的措词和术语是出于描述目的而并非限制目的,因此本说明书的术语和措词应由技术人员根据所述教导和指引来理解。

本发明的宽度和范围不应受到任何上述示例性实施方式的限制,而应当仅根据权利要求及其等同方式来进行界定。

以下参考文献完整地以援引方式并入本文:

Adachi,J.,Kumar,C,Zhang,Y.,Olsen,J.和Mann,M.(2006).The human urinary proteome contains more than 150 0proteins,including a large proportion of membrane proteins.Genome Biology 7(9):R80.

Adkins,J.N.,Varnum,S.M.,Auberry,KJ.,Moore,R.J.,Angell,N.H.,Smith,R.D.,Springer,D.L.和Pounds,J.G.(2002)Toward a human blood serum proteome:analysis by multidimensional separation coupled with mass spectrometry,Mol Cell Proteomics,1,947-955.

Altschul,S.F.,Madden,T.L.,Schaffer,A.A.,Zhang,J.,Zhang,Z.,Miller,W.和Lipman,DJ.(1997)Gapped BLAST and PSI-BLAST:a new generation of protein database search programs,Nucleic Acids Res,25,3389-3402.

Anderson,N.L.和Anderson,N.G.(2002)The human plasma proteome:history,character,and diagnostic prospects,MoI Cell Proteomics,1,845-867.

Barratt,J.和P.Topham(2007).″Urine proteomics:the present and future of measuring urinary protein components in disease.″CMAJ 177(4):361-8.

Bateman,A.,Birney,E.,Cerruti,L.,Durbin,R.,Etwiller,L.,Eddy,S.,Griffiths-Jones,S.,Howe,K.,Marshall,M.和Sonnhammer,E.(2002)The Pfam protein families database.,Nucleic acids research,30,276-280.

Ben-Hur,A.和Noble,W.S.(2005)Kernel methods for predicting protein-protein interactions,Bioinformatics,21Suppl 1,i38-46.

Bendtsen,J.D.,Nielsen,H.,Widdick,D.,Palmer,T.和Brunak,S.(2005)Prediction of twin-arginine signal peptides,BMC Bioinformatics,6,167.

Bhasin,M.和Raghava,G.P.(2004)Classification of nuclear receptors based on amino acid composition and dipeptide composition,J Biol Chem,279,23262-23266.

Bosques,CJ.,Raguram,S.和Sasisekharan,R.(2006)The sweet side of biomarker discovery,Nat Biotechnol,24,1100-1101.

Bradford,TJ.,Tomlins,S.A.,Wang,X.和Chinnaiyan,A.M.(2006)Molecular markers of prostate cancer,Urol Oncol,24,538-551.

Brown,J.M.和Giaccia,AJ.(1998)The unique physiology of solid tumors:opportunities (and problems)for cancer therapy,Cancer Res,58,1408-1416.

Buckhaults,P.,Rago,C,St Croix,B.,Romans,K.E.,Saha,S.,Zhang,L.,Vogelstein,B.和Kinzler,K.W.(2001)Secreted and cell surface genes expressed in benign and malignant colorectal tumors,Cancer Res,61,6996-7001.

Burbidge,R.,Trotter,M.,Buxton,B.和Holden,S.(2001)Drug design by machinelearning:support vector machines for pharmaceutical data analysis,Comput Chem,26,5-14.

Cai,C.Z.,Han,L.Y.,Ji,Z.L.,Chen,X.和Chen,Y.Z.(2003)SVM-Prot:Web-based support vector machine software for functional classification of a protein from its primary sequen

Castagna,A.,Cecconi,D.,Sennels L,Rappsilber J,Guerrier L,Fortis F,Boschetti E,Lomas L,Righetti PG.(2005).″Exploring the hidden human urinary proteome via ligand library beads.″J Proteome Res(4):1917-1930.Chen,Y.,Zhang,Y.,Yin,Y.,Gao,G.,Li,S.,Jiang,Y.,Gu,X.和Luo,J.(2005)SPD--a web-based secreted protein database,Nucleic Acids Res,33,D169-173.

Cui,J.,Han,L.Y.,Li,H.,Ung,C.Y.,Tang,Z.Q.,Zheng,C.J.,Cao,Z.W.和Chen,Y.Z.(2007)Computer prediction of allergen proteins from sequence-derived protein structural and physicochemical properties,Mol Immunol,44,514-520.

Cui,J.,Han,L.Y.,Lin,H.H,Tang,Z.Q.,Ji,Z.L,Cao,Z.;Li,Y.X.;Chen,Y.Z.(2007)Advances in Exploration of Machine Learning Methods for Predicting Functional Class and Interaction Profiles of Proteins and Peptides Irrespective of Sequence Homology Current Bioinformatics,2,95-112(118).

Dennis,G.,Sherman,B.T.,Hosack,D.A.,Yang,J.,Gao,W.,Lane,H.C,和Lempicki,R.A.(2003).″DAVID:Database for Annotation,Visualization,and Integrated Discovery.″Genome Biology 4:P3.

Doudna,J.A.和Batey,R.T.(2004)Structural insights into the signal recognition particle,Annu Rev Biochem,73,539-557.

Dubchak,L,Muchnik,L,Holbrook,S.R.和Kim,S.H.(1995)Prediction of protein folding class using global description of amino acid sequence,Proc Natl Acad Sci USA,92,8700-8704.

Eisenhaber,F.,Imperiale,F.,Argos,P.和Frommel,C.(1996)Prediction of secondary structural content of proteins from their amino acid composition alone.I.New analytic vector decomposition methods,Proteins,25,157-168.

Feng,Z.P.和Zhang,CT.(2000)Prediction of membrane protein types based on the hydrophobic index of amino acids,J Protein Chem,19,269-275.

Garrow,A.G.,Agnew,A.和Westhead,D.R.(2005)TMB-Hunt:a web server to screen sequence sets for transmembrane beta-barrel proteins.Nucleic Acids Res.,33,W188-92.Garrow,A.G.,Agnew,A.和Westhead,D.R.(2005)TMB-Hunt:An amino acid composition based method to screen proteomes for beta-barrel transmembrane proteins,BMCBioinformatics,6,56.

Graham,S.J.M.a.N.E.(2002)Areas beneath the relative operating characteristics(ROC)and levels(ROL)curves:statistical significance and interpretation,Quart.J.Roy.Meteorol.Soc,128,2145-2166.

Guda,C.(2006)pT ARGET:a web server for predicting protein subcellular localization,Nucleic Acids Res,34,W210-213.

Hanahan,D.和Weinberg,R.A.(2000)The hallmarks of cancer,Cell,100,57-70.

Horton,P.,Park,KJ.,Obayashi,T.,Fujita,N.,Harada,H.,Adams-Collier,CJ.和Nakai,K.(2007)WoLF PSORT:protein localization predictor,Nucleic Acids Res,35,W585-587.

Hua,S.和Sun,Z.(2001)A novel method of protein secondary structure prediction with high segment overlap measure:support vector machine approach,J Mol Biol,308,397-407.

Huang,LJ.,Chen,S.X.,Huang,Y.,Luo,WJ.,Jiang,H.H.,Hu,Q.H.,Zhang,P.F.和Yi,H.(2006)Proteomics-based identification of secreted protein dihydrodiol dehydrogenase as anovel serum markers of non-small cell lung cancer,Lung Cancer,54,87-94.

Huang,d.a.W.,Sherman,B.T.和Lempicki,R.A.(2009).″Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources.″Nature Protoc 4:44-57.

Jardine,N.和Sibson,R.(1968)The construction of hierarchic and non-hierarchic classifications,The Computer Journal,11,.177-184.

Kim,J.H.,Skates,S.J.,Uede,T.,Wong,K.K.,Schorge,J.O.,Feltmate,CM.,Berkowitz,R.S.,Cramer,D.W.和Mok,S.C.(2002)Osteopontin as a potential diagnostic biomarker for ovarian cancer,JAMA,287,1671-1679.

Kim,J.M.,Sohn,H.Y.,Yoon,S.Y.,Oh,J.H.,Yang,J.O.,Kim,J.H.,Song,K.S.,Rho,S.M.,Yoo,H.S.,Kim,Y.S.,Kim,J.G.和Kim,N.S.(2005)Identification of gastric cancer-related genes using a cDNA microarray containing novel expressed sequence tags expressed in gastric cancer cells,Clin Cancer Res,11,473-482.

Kitano,E.和Kitamura,H.(2002)Synthesis of factor D by gastric cancer-derived cell lines,hit Immunopharmacol,2,843-848.

Klee,E.W.和Sosa,C.P.(2007)Computational classification of classically secreted proteins,Drug Discov Today,12,234-240.

Lo,K.C,Stein,L.C,Panzarella,J.A.,Cowell,J.K.和Hawthorn,L.(2007)Identification of genes involved in squamous cell carcinoma of the lung using synchronized data from DNAcopy number and transcript expression profiling analysis,Lung Cancer.2008 Mar;59(3):315-31.

Mao,X.,Cai,T.,Olyarchuk,J.G.和Wei,L.(2005).″Automated Genome Annotation and Pathway Identification Using the KEGG Orthology(KO)As a Controlled Vocabulary.″Bioinformatics 21(19)3787-3793.

Menne,K M.,Hermjakob,H和Apweiler,R(2000)A comparison of signal sequence prediction methods using a test set of signal peptides,Bioinformatics,16,741-742.

Mok,S.C.,Chao,J.,Skates,S.,Wong,K.,Ym,G.K.,Muto,M.G.,Berkowitz,R.S.和Cramer,D.W.(2001)Prostasm,a potential serum marker for ovarian cancer:identification through microarray technology,J Natl Cancer Inst,93,1458-1464.

Mott,R.,Schultz,J.,Bork,P和Ponting,C P(2002)Predicting protein cellular localization using a domain projection method,Genome Res,12,1168-1174.

Nair,R和Rost,B(2005)Mimicking cellular sorting improves prediction of sub-cellular localization,J Mol Biol,348,85-100.

Omenn,G S.,States,D J.,Adamski,M.,Blackwell,T W.,Menon,R.,Hermjakob,H.,Apweiler,R.,Haab,B B.,Simpson,R.J.,Eddes,J S.,Kapp,E.A.,Moritz,R.L.,Chan,D.W.,Rai,A J.,Admon,A.,Aebersold,R.,Eng,J.,Hancock,W.S.,Hefta,S.A.,Meyer,H.,Paik,Y K.,Yoo,J S.,Ping,P.,Pounds,J.,Adkins,J.,Qian,X.,Wang,R.,Wasinger,V.,Wu,C Y.,Zhao,X.,Zeng,R.,Archakov,A.,Tsugita,A.,Beer,I.,Pandey,A.,Pisano,M.,Andrew,P.,Tammen,H.,Speicher,D.W.和Hanash,S.M.(2005)Overview of the HUPOPlasma Proteome Project:results from the pilot phase with 35 collaborating laboratories and multiple analytical groups,generating a core data set of 3020 proteins and a publicly-available database,Proteomics,5,3226-3245.

Osicka,T M.,Panagiotopoulos,S和Jerums,W(1997)″Fractional clearance of albumin isinfluenced by its degradation during renal passage.″Clin Sci(Lond)93(6):557-64.

Otsuka,M.,Matsumoto,T.,Morimoto,R.,Arioka,S.,Omote,H和Moriyama,Y.(2005)Ahuman transporter protein that mediates the final excretion step for toxic organic cations,Proc Natl Acad Sci USA,102,17923-17928.

Pardo,M.,Garcia,A.,Antrobus,R.,Blanco,M.J.,Dwek,R.A.和Zitzmann,N.(2007)Biomarker discovery from uveal melanoma secretomes:identification of gpl00 andcathepsin D in patient serum,J Proteome Res,6,2802-2811.

Pieper,R.,Gatlin,C.L.Gathn,McGrath,A.M.Makusky,A.J.,Mondal,M.Seonaram,M.,Field,E.,Schatz,C R.Estock,M A.,Ahmed,N.Anderson,N.G和Sterner,S(2004)″Characterization of the human urinary proteome-a method for high-resolution display of unnary proteins on two-dimensional electrophoresis gels with a yield of nearly 1400 nearly protein spots.″Proteomics(4):1159-1174

Pieper,R.,Gatlin,C.L.,Makusky,A.J.,Russo,P.S.,Schatz,C.R.,Miller,S.S.,Su,Q.,McGrath,A.M.,Estock,M A.,Parmar,P P.,Zhao,M.,Huang,S T.,Zhou,J.,Wang,F.,Esquer-Blasco,R.,Anderson,N L.,Taylor,J和Sterner,S(2003)The human serum proteome:display of nearly 3700 chromatographically separated protein spots on two-dimensional electrophoresis gels and identification of 325 distinct proteins,Proteomics,3,1345-1364.

Platt,J.C.(1999)Fast Training of Support Vector Machines using Sequential Minimal Optimization.In,Advances in kernel methods:support vector learning.MIT Press Cambridge,MA,USA,185-208.

Reczko,M.和Bohr,H.(1994)The DEF data base of sequence based protein fold class predictions,Nucleic Acids Res,22,3616-3619.

Rui,Z.,Jian-Guo,J.,Yuan-Peng,T.,Hai,P.和Bing-Gen,R.(2003)Use of serological proteomic methods to find biomarkers associated with breast cancer,Proteomics,3,433-439.

Keerthi,S.S.,Bhattacharyya,C,Shevade,S.K.,和Murthy,K.R.K.(2001)Improvements to Platt′s SMO Algorithm for SVM Classifier Design Neural Computation,13,637-649.

Schrader,M.和Schulz-Knappe,P.(2001)Peptidomics technologies for human body fluids,Trends Biotechnol,19,S55-60.

Smialowski,P.,Martin-Galiano,AJ.,Mikolajka,A.,Girschick,T.,Holak,T.A.和Frishman,D.(2007)Protein solubility:sequence based prediction and experimental verification,Bioinformatics,23,2536-2542.

Sporn,M.B.和Roberts,A.B.(1985)Autocrine growth factors and cancer,Nature,313,745-747.

Su,E.C.,Chiu,H.S.,Lo,A.,Hwang,J.K.,Sung,T.Y.和Hsu,WX.(2007)Protein subcellular localization predi ction based on compartment-specific features and structureconservation,BMC Bioinformatics,8,330.

Tang,Z.Q.,Han,L.Y.,Lin,H.H.,Cui,J.,Jia,J.,Low,B.C.,Li,B.W.和Chen,Y.Z.(2007)Derivation of stable microarray cancer-differentiating signatures using consensus scoring of multiple random sampling and gene-ranking consistency evaluation,Cancer Res,67,9996-10003.

Taylor,P.D.,Toseland,C.P.,Attwood,T.K.和Flower,D.R.(2006)TATPred:a Bayesian method for the identification of twin arginine translocation pathway signal sequences,Bioinformation,1,184-187.

Tjalsma,H.,Bolhuis,A.,Jongbloed,J.D.,Bron,S.和van Dijl,J.M.(2000)Signal peptide-dependent protein transport in Bacillus subtilis:a genome-based survey of the secretome,Microbiol Mol Biol Rev,64,515-547.

Unwin,R.D.,Harnden,P.,Pappm,D.,Rahman,D.,Whelan,P.,Craven,R.A.,Selby,P J和Banks,R.E.(2003)Serological and proteomic evaluation of antibody responses in the identification of tumor antigens in renal cell carcinoma,Proteomics,3,45-55

Wang,L.,Li,F.,Sun,W.,Wu,S.,Wang,X.Zhang,L.,Zheng,D.,Wang J.和Gao Y.(2006)Concanavalin A captured glycoproteins in healthy human urine Mol Cell Proteomics(5)560-562

Welsh,J.B.,Sapinoso,L.M.,Kern,S.G.,Brown,D.A.,Lm,T.,Bauskin,A.R.,Ward,R.L.,Hawkins,N.J.,Quinn,D.I.,Russell,P.J.,Sutherland,R.L.,Breit,S.N.,Moskaluk,C.A.,Frierson,H.F.,Jr和Hampton,G.M.(2003)Large-scale delineation of secreted protein biomarkers overexpressed in cancer tissue and serum,Proc Natl Acad Sci USA,100,3410-3415.

Welsh,J.B.,Zarrinkar,P.P.,Sapinoso,L.M.,Kern,S.G.,Behling,C.A.,Monk,B.J.,Lockhart,D.J.,Burger,R.A.和Hampton,G.M.(2001)Analysis of gene expression profiles in normal and neoplastic ovarian tissue samples identifies candidate molecular markers of epithelial ovarian cancer,Proc Natl Acad Sci USA,98,1176-1181.

Wu,J.,Mao,X.,Cai,T.,Luo,J和Wei L(2006)″KOBAS server:a web-based platform forautomated annotation and pathway identification.″Nucleic Acids Res 34:W720-W724.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号