首页> 中国专利> 提取胰腺癌诊断生物标志物的方法、用于该方法的计算装置、胰腺癌诊断生物标志物以及包含该生物标志物的胰腺癌诊断装置

提取胰腺癌诊断生物标志物的方法、用于该方法的计算装置、胰腺癌诊断生物标志物以及包含该生物标志物的胰腺癌诊断装置

摘要

本发明公开了提取胰腺癌诊断用生物标志物的方法、用于所述方法的计算装置、胰腺癌诊断用生物标志物以及包含该生物标志物的胰腺癌诊断用装置。更具体地,本发明公开了利用在胰腺癌患者中特异性表达的基因或者获自血液或组织的与所述基因配对的微RNA来提取胰腺癌诊断用生物标志物的方法、用于所述方法的计算装置、胰腺癌诊断用生物标志物以及包含该生物标志物的胰腺癌诊断用装置。

著录项

  • 公开/公告号CN105102637A

    专利类型发明专利

  • 公开/公告日2015-11-25

    原文格式PDF

  • 申请/专利号CN201480019133.1

  • 发明设计人 崔亨硕;许智渊;崔龙镇;鱼海锡;

    申请日2014-04-16

  • 分类号C12Q1/68(20060101);G01N33/574(20060101);G06F19/10(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人庞东成;武胐

  • 地址 韩国首尔

  • 入库时间 2023-12-18 12:16:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-05-22

    授权

    授权

  • 2015-12-23

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20140416

    实质审查的生效

  • 2015-12-09

    著录事项变更 IPC(主分类):C12Q1/68 变更前: 变更后: 申请日:20140416

    著录事项变更

  • 2015-11-25

    公开

    公开

说明书

技术领域

本发明涉及一种提取胰腺癌诊断用生物标志物的方法、用于该方法的计算装置、 胰腺癌诊断用生物标志物以及包含该生物标志物的胰腺癌诊断用装置,且更具体地涉 及利用获自血液或组织的微RNA(microRNA)来提取胰腺癌诊断用生物标志物的方 法、用于该方法的计算装置、胰腺癌诊断用生物标志物以及包含该生物标志物的胰腺 癌诊断用装置。

背景技术

胰腺是具有分泌消化酶(消化酶降解所摄入的食物中的糖类、脂肪和蛋白质)的外 分泌功能以及分泌激素(例如胰岛素和胰高血糖素)的内分泌功能的器官。

胰腺癌是由胰腺中产生的癌细胞组成的肿瘤团块,其通常是指胰管腺癌并且包括 胰腺的囊腺癌和内分泌肿瘤等。胰腺癌没有特定的早期症状,且因而其难以在早期检 测到。

胰腺厚度小,约为2cm,且仅被薄膜包围,并且与肠系膜上动脉(其为小肠和将 小肠所吸收的养分转运至肝脏的门静脉提供氧气)紧密接触,因此易于被癌侵袭。另 外,在胰腺后部的神经束和淋巴腺上可能发生早期转移。特别地,胰腺癌细胞生长迅 速。在大多数情况下,胰腺癌患者在病发后仅能存活4个月至8个月。即使手术取得 了总体成功且症状得到减轻,预后仍不佳,5年以上的存活率低,即约17%至24%。

胰腺癌的诊断可以通过超声波检查术、计算机断层扫描(CT)、磁共振成像(MRI)、 内镜逆行胰胆管造影(ERCP)、内镜超声(EUS)和正电子发射断层扫描(PET)等来进行。 然而,这些成像诊断方法所需诊断成本高,较为复杂,且对于早期诊断无用。因此, 需要简单、所需成本低且能进行早期诊断的方法。

在这方面,在过去20年间已报导了数十种与其它癌相关的生物标志物,且已知 蛋白标志物CA19-9和CEA等是针对胰腺癌的生物标志物。然而,这些蛋白生物标 志物具有相当低的实际诊断应用性,因为其灵敏度低且特异性为约60%。特别地,缺 乏组织特异性且不表达Lewis抗原的血型存在CA19-9不增加的问题。因此,越来越 亟需开发出因灵敏度和特异性高而能实现可靠诊断的生物标志物。

同时,微RNA(miRNA)是指由约17至25个核苷酸组成的短单链非编码RNA分 子。已知微RNA通过阻断靶mRNA(基因)的转录或使mRNA降解来控制蛋白生成性 基因的表达。已知微RNA存在于血液和组织中。

另外,需要开发出利用组织或血液样品进行简易管理和诊断的生物标志物。特别 地,血液样品是有利的。

发明内容

[技术问题]

设计用来解决上述问题的本发明的一个目的在于提供一种提取包括对胰腺癌患 者具有特异性的基因的组合的胰腺癌诊断用生物标志物的方法,或者一种利用获自血 液或组织的微RNA来提取胰腺癌诊断用生物标志物的方法,以及用于所述方法的计 算装置。

设计用来解决上述问题的本发明的另一个目的在于提供胰腺癌诊断用生物标志 物以及包括其的胰腺癌诊断用装置。

本领域技术人员应该理解,本发明所能实现的目的不限于上文特别说明的那些, 并且本发明能实现的上述目的和其他目的将从下文的具体说明中得到更为清楚的理 解。

[技术方案]

本发明的目的可以通过提供一种提取胰腺癌诊断用生物标志物的方法来实现,所 述方法包括:计算以数字形式表示微RNA和基因之间的互补结合能力的相互作用评 分;确定n个微RNA-基因对,其中每对在上述相互评分中都具有较高的相互作用评 分;和从所述n个微RNA-基因对中提取出与胰腺癌患者中特异性表达的基因配对的 微RNA。

在本发明的另一方面,本文提供了胰腺癌诊断用生物标志物,包括ANO1、 C19orf33、EIF4E2、FAM108C1、IL1B、ITGA2、KLF5、LAMB3、MLPH、MMP11、 MSLN、SFN、SOX4、TMPRSS4、TRIM29和TSPAN1。

在本发明的另一方面,本文提供了利用组织作为生物样品的胰腺癌诊断用生物标 志物,所述生物标志物包括hsa-let-7g-3p、hsa-miR-7-2-3p、hsa-miR-23a-5p、 hsa-miR-27a-5p、hsa-miR-92a-1-5p、hsa-miR-92a-2-5p、hsa-miR-122-5p、 hsa-miR-154-3p、hsa-miR-183-5p、hsa-miR-204-5p、hsa-miR-208b-3p、hsa-miR-425-5p、 hsa-miR-510-5p、hsa-miR-520a-5p、hsa-miR-552-3p、hsa-miR-553、hsa-miR-557、 hsa-miR-608、hsa-miR-611、hsa-miR-612、hsa-miR-671-5p、hsa-miR-1200、 hsa-miR-1275、hsa-miR-1276和hsa-miR-1287-5p。

在本发明的另一方面,本文提供了利用血液作为生物样品的胰腺癌诊断用生物标 志物,所述生物标志物包括hsa-miR-27a-5p、hsa-miR-183-5p和hsa-miR-425-5p。

在本发明的另一方面,本文提供了包括上文所述的任一种生物标志物的胰腺癌诊 断用装置。

本领域技术人员可以理解,本发明所提出的各方面不限于上文具体说明的那些, 并且本文未说明的其它方面将从下文的详细说明中得到更清楚的理解。

[有利效果]

本发明提供了一种提取胰腺癌诊断用生物标志物的方法。本发明提供了对诊断胰 腺癌具有高特异性和灵敏度的生物标志物。另外,本发明提供了包括上述生物标志物 的胰腺癌诊断用装置。

本领域技术人员应该理解,本发明所能实现的效果不限于上文已特别说明的那 些,并且本文未说明的其它效果将从下文的详细说明中得到更清楚的理解。

附图说明

包括附图以提供对本发明的进一步理解,附图说明了本发明的实施方式,并且与 说明书共同起到解释本发明的原理的作用。

附图中:

图1是说明本发明的计算装置的方框图;

图2是说明计算miRNA和基因之间的相互作用评分的实例的概念图;

图3是说明计算相互作用评分的方法的流程图;

图4是说明利用相似性数据库计算相似miRNA和特定基因之间的相关系数的方 法的概念图;

图5是说明利用相似性数据库计算相似miRNA和特定基因之间的相关系数的方 法的流程图;

图6是说明利用miRNA聚类数据库计算相邻miRNA和特定基因之间的相关系 数的方法的概念图;

图7是说明利用miRNA聚类数据库计算相邻miRNA和特定基因之间的权重的 方法的流程图;

图8是说明利用转录因子数据库计算特定miRNA和转录调控基因之间的相关系 数的方法的概念图;

图9是说明利用转录因子数据库计算特定miRNA和转录调控基因之间的权重的 方法的流程图;

图10是说明基于用于提取生物标志物的集成分析算法来提取胰腺癌诊断用生物 标志物的方法的流程图;

图11和12分别是显示利用数据GSE28735的主分量分析结果的聚类图和利用数 据GSE28735的层次聚类分析结果的热图;

图13和14分别是显示利用数据GSE15471的主分量分析结果的聚类图和利用数 据GSE15471的层次聚类分析结果的热图;

图15是显示利用GEO数据GSE32678的层次聚类分析结果的图;

图16是显示利用下一代测序数据的层次聚类分析结果的图;和

图17是说明作为下一代测序(NGS)的具体实例的小RNA测序数据分析的概念 图。

具体实施方式

现在将具体叙述本发明的优选实施方式,其实例在附图中进行了图示说明。

下文将参照附图对本发明所涉及的计算装置进行更详细的说明。

附于下文说明中的元件的术语『模块』和『单元』仅为了便于说明书的描述而给 出或组合使用,且其并没有将这些术语彼此进行区分的任何特定的含义或功能。

本发明公开了利用集成分析算法来提取生物标志物的生物标志物计算装置100 和通过计算装置100提取的生物标志物。本文描述的计算装置100可以包括利用电路 的高速计算装置,例如,个人计算机、工作站和超级计算机。除例如计算机、工作站 和超级计算机等固定装置外,所述计算装置还可以包括具有中央处理单元并进行计算 处理的移动装置,例如智能电话、PDA和便携式计算机。

图1是说明本发明的计算装置的方框图。参见图1,本发明的计算装置100可以 包括存储器单元110、用户输入单元120、通信单元130和控制单元140。

存储器单元110储存用于操作控制单元140的程序,并临时储存输入和输出数据 (例如,数据库)。此外,存储器单元110可以在通信单元130进行通信后储存传输的 或接收的数据。

存储器单元110可以包括以下中的至少一种存储介质:闪速存储器、硬盘、多媒 体卡微型存储器、卡型存储器(例如,SD或XD存储器)、随机存取存储器(RAM)、静 态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘等。

用户输入单元120的功能是接收来自用户的用户输入。用户输入单元120可以包 括键盘和鼠标等。

通信单元130的功能是从外部接收数据或将数据传送至外部以进行通信。本发明 的通信单元130可以具有从远程服务器接收多种数据库的功能。

控制单元140控制计算装置100的整体操作并进行各种计算。本发明的控制单元 140计算下文所述的相互作用评分和相关系数,并进行计算以提取胰腺癌诊断用生物 标志物。

本发明的计算装置100可以还包括显示单元150以输出信息。显示单元150的功 能是显示用户输入并作为输出装置输出控制单元140的计算结果。显示单元150可以 是例如监视器等用于辅助计算装置100的装置。

下文所述的实施方式的配置和方法可以有限制地应用于上文所述的计算装置 100,并且可以对计算装置100应用相应实施方式的整体或部分的选择性组合,从而 使所述实施方式的各种变化形式是可能的。

将利用计算装置100来详细描述提取胰腺癌诊断用生物标志物的方法。

本文所述的用于提取生物标志物的集成分析算法包括差异表达基因分析算法和 微RNA靶基因分析算法的组合。

首先,将描述差异表达基因分析算法。差异表达基因分析算法的目的是利用线性 模型以统计学显著的程度发现胰腺癌患者中与正常人不同的过表达或欠表达的基因, 由此发现能区分正常人组与患者组的基因,该算法为考虑多种因素的高级统计学方法 (参考文献:StatisticalApplicationsinGeneticsandMolecularBiology,第3卷,第1期, 第3篇文章)。

差异表达基因分析算法可以宽泛地划分为数据归一化和统计分析。在数据归一化 中,将获自正常人组和患者组的整个人基因组的微阵列数据整合并校正。可以使用鲁 棒多芯片平均(RMA)算法进行数据归一化(参考文献:Biostatistics,第4卷,第2期, 249-264)。

在统计学分析中,利用线性模型,基于归一化数据选出在两组(即,正常人组和 患者组)之间表达量具有统计学显著性差异的基因。可以选择q值(统计学显著性概率) 为0.01以下的基因,所述q值是利用参考文献[(JournaloftheRoyalStatisticalSociety, SeriesB(Methodological),第57卷,第1期,289-300)]中描述的错误发现率(FDR)方 法校正了的p值。

利用用于提取胰腺癌诊断生物标志物的差异表达基因分析算法,本发明的计算装 置100可以使用在胰腺癌患者中异常表达(过表达或欠表达)的基因列表。利用差异表 达基因分析算法发现胰腺癌患者中异常表达的基因列表是本领域公知的,因此略去对 其的详细解释。

下面将描述微RNA靶基因分析算法。本文所述的微RNA靶基因分析算法提供 了一种统计学等式,该等式能够利用获自常规微RNA数据库的微RNA靶基因预测 评分、获自微阵列测试的微RNA与基因之间的表达模式相关系数以及根据生物学机 理计算出的权重中的至少一种来准确找到微RNA的靶基因。

下文将详细描述微RNA靶基因预测评分(或相互作用评分)、相关系数和权重的 计算方法。为便于描述,本文所用的表述『miRNA』是指微RNA。

微RNA靶基因预测评分的计算

本发明的计算装置100可以计算相互作用评分,相互作用评分以数字形式表示了 微RNA和其靶基因之间的互补结合水平。相互作用评分表明了微RNA和其靶基因 之间的互补结合潜力的水平。将参照下文所述的附图更详细地描述该相互作用评分的 计算方法。

图2是说明计算miRNA和基因之间的相互作用评分的实例的概念图。图3是说 明计算相互作用评分的方法的流程图。

参见图2和3,首先,计算装置100利用至少一个miRNA靶预测工具获取从 miRNA与基因之间的预测评分以统计学方式获得的数据库(S310)。

miRNA靶预测工具可以是以数字形式表示靶基因和miRNA对的结合水平的软 件工具,所述miRNA与靶基因互补结合并由此抑制从所述靶基因合成蛋白。用于获 取基因-miRNA对的预测评分的miRNA靶预测工具包括Targetscan、miRDB、 DIANA-microT、PITA、miRanda、MicroCosm、RNAhybrid、PicTar和RNA22等。 下表1中示出了对各miRNA靶预测工具的简略说明。

[表1]

使用靶预测工具,能够获得miRNA和可以与其互补结合的基因之间的预测评分。 随着预测评分降低,miRNA和基因之间的互补结合可能性也降低。

靶预测工具可以由本发明的计算装置100驱动,而且,可通过控制单元140的计 算而获取以统计学方式从miRNA-基因对的预测评分获得的数据库,但本发明不限于 此。本发明的计算装置100可以利用靶预测工具从远程服务器获取以统计学方式从 miRNA-基因对的预测评分获得的数据库。

为了增加miRNA-基因对的预测评分的可靠性,优选利用多种靶预测工具而非一 种靶预测工具来获取多个数据库。图2显示了其中使用PITA、DIANA-microT、 TargetScan、MicroCosm、miRDB和miRanda作为靶预测工具的实例。

在使用靶预测工具获取以统计学方式从miRNA-基因对的预测评分获得的数据 库的情形中,为了对数据库进行归一化,控制单元140可以基于miRNA-基因对的预 测评分的排位来计算归一化评分(S320)。

从表1所示的实例可见,用于miRNA靶预测工具的信息可以不同,且在各个数 据库之间用于评出预测评分的单元可以不同。因此,为使用多个数据库,可能需要对 这些数据库进行归一化。为将miRNA-基因对的预测评分归一化,控制单元140基于 miRNA-基因对的预测评分来确定各数据库的排位,将预测评分转化为标准评分,并 将各数据库中的miRNA-基因对的标准评分相加以获取归一化评分。等式1提供了用 于获取每一个归一化评分的等式的实例。

[等式1]

Σi=1n(Ti+1-Ri,j)Ti

其中,i代表第i个数据库,n代表数据库的数目(例如,在图2中,由于利用6 个预测工具获取了6个数据库,因此将n设定为6),Ti代表在第i个数据库中的miRNA- 基因对的总数,且Ri,j代表第j对miRNA-基因对在第i个数据库中的排位。

例如,在包括100对miRNA-基因对的第一数据库中,当在这100对miRNA1- 基因1对中miRNA1-基因1对的预测评分排位为第20,则第一数据库中的miRNA1- 基因1对的标准评分可以为(100+1-20)/100=0.81。控制单元140将第2至第n数据库 中的miRNA1-基因1对的标准评分相加,以计算出miRNA1-基因1对的归一化评分。

然后,控制单元140可以基于归一化评分来确定miRNA相对于特定基因的排位 和基因相对于特定miRNA的排位(S330)。

例如,假设存在miRNA1、miRNA3和miRNA4,它们是与基因1互补结合的 miRNA,基于基因1-miRNA1、基因1-miRNA3和基因1-miRNA4各自的归一化评分, 控制单元140可以根据对基因1的互补结合能力(即,根据归一化评分的排位)来确定 miRNA的排位。如图2所示,由于miRNA1-基因1之间的归一化评分被定为0.4且 miRNA3-基因1之间的归一化评分被定为0.6,因此对于基因1而言,miRNA1的排 位为第2,而miRNA3的排位为第3。

基因相对于特定miRNA的排位可以通过上文所述的方法确定。例如,当能与 miRNA1互补结合的基因是基因1和基因3时,基于miRNA1-基因1和miRNA1-基 因3各自的归一化评分,控制单元140可以根据对miRNA1的互补结合力(水平)(即, 根据归一化评分的排位)来确定基因的排位。如图2所示,由于miRNA1-基因1之间 的归一化评分被定为0.4而miRNA1-基因3之间的归一化评分被定为0.5,因此对于 miRNA1而言,基因1的排位为第2,而基因3的排位为第1。

然后,控制单元140可以基于基因和miRNA的排位来计算基因-miRNA之间的 相互作用评分(S340)。等式2提供了用于计算该相互作用评分的等式的实例。

[等式2]

(tmi+1-rmitmi)×(tgj+1-rgjtgj)

其中,tmi代表第i个miRNA与各基因之间配对的数目(“miRNAi-基因”的数目), tgj代表第j个基因与各miRNA之间配对的数目(“基因j-miRNA”的数目),rmi代表 第i个miRNA相对于第j个基因的归一化评分排位,且rgj代表第j个基因相对于第i 个miRNA的归一化评分排位。

相关性计算

上文所述的靶miRNA预测工具不具有与所有的人miRNA和基因相关的数据库。 在本发明中,无法用靶miRNA预测工具预测的各种miRNA和基因的相互作用评分 可以利用miRNA之间的相似性、miRNA之间的相互影响以及基因的转录因子来获 取。

实施例1.基于相关性的权重的计算

本发明的计算装置100可以获取与通过微阵列测试获得的特定miRNA和特定基 因的表达模式有关的相关系数,并可以预测与特定miRNA相似的相似miRNA和特 定基因之间的相关系数。将参照后文所述的附图来详细描述相似miRNA和特定基因 之间的相关系数的计算。

图4是说明利用相似性数据库计算相似miRNA和特定基因之间的相关系数的方 法的概念图,图5是说明利用相似性数据库计算相似miRNA和特定基因之间的相关 系数的方法的流程图。

首先,在输入通过微阵列测试获得的包括基因表达谱和miRNA表达谱的实验数 据(S510)之后,控制单元140基于所输入的实验数据来计算特定miRNA和特定基因 之间的相关性(S520)。

关于所述微阵列测试,基因微阵列是用来测定生物体中的所有或部分基因的表达 水平的工具,其称为『DNA微阵列』。基因微阵列将对基因的观测从基因级别扩展至 整个生物体,因此使得能够将生物体作为单一体系来对其进行研究。另外,基因微阵 列基本上通过并行进行常规基因检测技术而在大规模上进行,而且在数据处理和分析 方面带来了重大改变。基因微阵列通常如下进行。首先,将数千至数十万个基因序列 固定在尺寸为约1cm2的载玻片表面上,从在各种实验条件下收集的细胞中提取出 RNA,将其逆转录为DNA并用荧光物质进行标记。随后,使标记的DNA与微阵列 杂交并扫描以获得图像,利用图像分析程序测量荧光物质在基因部位中的荧光强度, 确定基因是否表达,并利用例如数学、统计学和计算机工程等信息学通过与定量的基 因表达水平进行比较来分析基因的表达水平。

通过上述微阵列测试,可以以数字形式表示出特定miRNA和特定基因的表达水 平。特定miRNA和特定基因的相关性是Pearson相关性,其可以表明相对于特定基 因的表达水平增加的特定miRNA的表达水平变化比率。

然后,计算装置100可以利用miRNA相似性数据库获取相似miRNA对于特定 miRNA的相似性值(S530)。miRNA相似性数据库可以包括以数字形式表示miRNA 之间的功能相似性的相似性值。miRNA相似性数据库可以通过本领域已知的BLAST 或BLAT工具获取。

而后,计算装置100可以利用相似性值计算相似miRNA和特定基因之间的相关 性(S540)。相似miRNA和基因之间的权重可以使用所述相似性值利用线性回归模型 来进行计算。

实施例2.考虑miRNA之间的相互影响来计算相关性

本发明的计算装置100可以计算特定基因和与特定miRNA形成聚类(cluster)的相 邻miRNA之间的相关系数。从下文参照附图给出的说明中,可以理解考虑到miRNA 之间的相互影响的相关性计算。

图6是说明利用miRNA聚类数据库计算相邻miRNA和特定基因之间的相关系 数的方法的概念图,图7是说明利用miRNA聚类数据库计算相邻miRNA和特定基 因之间的权重的方法的流程图。

首先,在输入通过微阵列测试获得的包括基因表达谱和miRNA表达谱的实验数 据(S710)之后,控制单元140基于所输入的实验数据来计算特定miRNA和特定基因 之间的相关性(S720)。

然后,计算装置100利用miRNA聚类数据库提取出相邻miRNA(S730),该相邻 miRNA处在距作为实验数据输入的特定miRNA的有效距离内。miRNA聚类数据库 包括miRNA之间的距离数据,并使计算装置100能确定处于与特定miRNA相距10kb (千碱基)内的miRNA是在有效距离内。有效距离不必限于10kb,而可根据需要改变。

然后,计算装置100可以计算处在距特定miRNA有效距离内的miRNA和基因 之间的相关系数(S740)。例如,在图6所示的实例中,在miRNAl是miRNAj的相邻 miRNA的情形中,计算装置100计算miRNAl-基因m的相关系数。

实施例3.考虑到转录因子来计算相关性

本发明的计算装置100考虑基因间的转录因子来计算相关系数。将参照后文给出 的附图来描述考虑到基因间的转录因子的相关系数计算。

图8是说明利用转录因子数据库计算特定miRNA和转录调控基因之间的相关系 数的方法的概念图,图9是说明利用转录因子数据库计算特定miRNA和转录调控基 因之间的权重的方法的流程图。

首先,在输入通过微阵列测试获得的包括基因表达谱和miRNA表达谱的实验数 据(S910)之后,控制单元140可以基于所输入的实验数据来计算特定miRNA和特定 基因之间的相关性(S920)。

然后,计算装置100确认来自转录因子数据库的转录调控基因的存在(S930),该 转录调控基因与位于特定基因的转录调控位点的DNA碱基序列特异性结合,并激活 或抑制所述特定基因的转录。

当存在特定基因的转录调控基因时,计算装置100计算该转录调控基因和miRNA 之间的相关系数(S940)。例如,在图8给出的实例中,在基因m的转录调控基因是基 因n的情形中,计算装置100可以基于miRNAa-基因n之间的相关系数来计算miRNAa- 基因m之间的相关系数。

基于在实施例1至3中计算出的相关系数,计算装置100可以计算相似miRNA 和基因之间的相互作用评分、相邻miRNA和基因之间的相互作用评分、以及转录调 控基因和miRNA之间的相互作用评分。

在通过微RNA靶基因分析算法获得miRNA-基因之间的相互作用评分之后,计 算装置100利用使用差异表达基因分析算法所得的胰腺癌患者的特异性表达基因列 表提取出胰腺癌诊断用生物标志物。

将详细描述基于针对生物标志物提取的集成分析算法来提取胰腺癌诊断用生物 标志物的方法。

图10是说明基于用于提取生物标志物的集成分析算法来提取胰腺癌诊断用生物 标志物的方法的流程图。为便于说明,假定计算装置100利用差异表达基因分析算法 存储了胰腺癌患者中的不同于正常人的异常表达(例如,过表达或欠表达)的基因的列 表。

参照图10,计算装置100利用微RNA靶基因分析算法计算miRNA-基因之间的 相互作用评分(S1010)。相互作用评分的计算已参照图4至图9进行了说明,因此略 去对其的详细说明。

而后,计算装置100选择具有较高的相互作用评分的n对miRNA-基因对(S1020), 并利用差异表达基因分析算法确定以下项来作为胰腺癌诊断用生物标志物:选定的 miRNA-基因对中的基因与胰腺癌患者中的不同于正常人的特异性(异常)表达的基因 的列表之间的交集(intersection),或者与属于该交集的基因配对的miRNA组(S1030)。 即,在差异表达基因分析算法中具有高相互作用评分且在胰腺癌患者中不同于正常人 地特异性表达的基因,或者与这些基因配对的miRNA,可以被确定为胰腺癌诊断用 生物标志物。

在另一个实例中,计算装置100根据miRNA-基因对的排位较高的相互作用评分 来选择m个基因,并基于差异表达基因分析算法确定以下项来作为胰腺癌诊断用生 物标志物:与胰腺癌患者中的不同于正常人的异常表达的基因的列表的交集,或者与 属于该交集的基因配对的miRNA。

当利用六种miRNA预测工具(即,Targetscan、miRDB、DIANA-microT、PITA、 miRanda和MicroCosm)选择具有较高相互作用评分(其中q值等于或小于0.05且相关 系数等于或小于-0.5)的miRNA-基因对中的n个基因时,可以确定ANO1、C19orf33、 EIF4E2、FAM108C1、IL1B、ITGA2、KLF5、LAMB3、MLPH、MMP11、MSLN、 SFN、SOX4、TMPRSS4、TRIM29和TSPAN1作为胰腺癌诊断用生物标志物。

各生物标志物的特征如下:

ANO1(anoctamin1,钙活化氯离子通道)充当钙活化的氯离子通道。

C19orf33(染色体19开放阅读框33)是第19条人染色体上的基因,其功能尚未知。

EIF4E2(真核细胞翻译起始因子4E家族成员2)在蛋白合成起始的早期阶段期间 识别并结合含7-甲基鸟苷的mRNA端部,并通过诱导mRNA二级结构的解旋来促进 核糖体结合。

FAM108C1(具有序列相似性的家族108,成员C1)具有丝氨酸型肽酶活性和水解 酶活性。

IL1B(白细胞介素1β)由活化的巨噬细胞产生,且IL-1诱导IL-2的释放、B细胞 的老化和增殖以及成纤维细胞生长因子的活性,并由此刺激胸腺细胞增殖。据报道, IL-1蛋白参与炎性反应,经确认为内源性热原,并且刺激前列腺素和原胶原酶从滑液 细胞的释放。

ITGA2(整联蛋白α2(CD49B,VLA-2受体的α2亚基))是作为层粘连蛋白、胶原 蛋白、胶原蛋白C-前肽、纤连蛋白和E-钙粘蛋白的受体的整联蛋白α2/β1。ITGA2 识别胶原蛋白中的脯氨酸羟基化序列G-F-P-G-E-R。ITGA2负责血小板和其它细胞对 胶原蛋白的粘附、胶原蛋白和胶原蛋白酶基因表达的调节、新合成的胞外基质的力生 成和组构。

KLF5(Kruppel样因子5(小肠))是与GC箱启动子元件结合的转录因子,其激活 这些基因的转录。

LAMB3(层粘连蛋白β3)经由高亲和力受体与细胞结合,且层粘连蛋白据认为会 通过与其它胞外基质成分相互作用来介导在胚胎发育期间细胞在组织内的附着、迁移 和组构。

MLPH(黑素亲和素)是介导黑素体转运的Rab效应蛋白。

MMP11(基质金属肽酶11(基质溶解素3))在上皮恶性肿瘤的传播中起重要作用。

MSLN(间皮素)的膜锚定形式可能在细胞粘附方面起作用。

SFN(分层蛋白(stratifin))是:1)p53调控的G2/M进程抑制剂和2)参与调控多种 一般性和专门性信号传导途径的衔接蛋白。SFN通常通过识别磷酸丝氨酸或磷酸苏氨 酸基序而与大量伴侣结合。该结合通常导致对结合伴侣的活性的调节。当结合至 KRT17时,SFN通过刺激Akt/mTOR途径来调控蛋白合成和上皮细胞生长。

SOX4(SRY(性别决定区Y))-箱蛋白是以高亲和力与T-细胞增强子基序 (5'-AACAAAG-3'基序)结合的转录激活因子。

TMPRSS4(跨膜蛋白酶,丝氨酸4)是蛋白酶,且据认为其使ENaC活化。

TRIM29(含三段基序(tripartitemotif)的蛋白29)减少共济失调毛细血管扩张症 (AT)成纤维细胞系的放射敏感性缺陷。

TSPAN1(四跨膜蛋白1)介导起到调控细胞发育、活化、生长和迁移的功能的信 号传导事件。

同时,在使用6种miRNA预测工具(即,Targetscan、miRDB、DIANA-microT、 PITA、miRanda和MicroCosm)并使用组织作为生物样品时,可以将与具有高相互作 用评分(其中,q值等于或小于0.05,且相关系数等于或小于-0.5)的miRNA-基因对中 的n个基因配对的一组miRNA确定为胰腺癌诊断用生物标志物,即hsa-let-7g-3p、 hsa-miR-7-2-3p、hsa-miR-23a-5p、hsa-miR-27a-5p、hsa-miR-92a-1-5p、hsa-miR-92a-2-5p、 hsa-miR-122-5p、hsa-miR-154-3p、hsa-miR-183-5p、hsa-miR-204-5p、hsa-miR-208b-3p、 hsa-miR-425-5p、hsa-miR-510-5p、hsa-miR-520a-5p、hsa-miR-552-3p、hsa-miR-553、 hsa-miR-557、hsa-miR-608、hsa-miR-611、hsa-miR-612、hsa-miR-671-5p、hsa-miR-1200、 hsa-miR-1275、hsa-miR-1276和hsa-miR-1287-5p。

另外,当使用血液作为生物样品时,确定hsa-miR-27a-5p、hsa-miR-183-5p和 hsa-miR-425-5p作为胰腺癌诊断用生物标志物。

属于上述生物标志物的各miRNA的碱基序列如下表2所示。

[表2]

成熟_id miRNA_id 序列 hsa-let-7g-3p hsa-let-7g CUGUACAGGCCACUGCCUUGC hsa-miR-7-2-3p hsa-mir-7-2 CAACAAAUCCCAGUCUACCUAA hsa-miR-23a-5p hsa-mir-23a GGGGUUCCUGGGGAUGGGAUUU hsa-miR-27a-5p hsa-mir-27a AGGGCUUAGCUGCUUGUGAGCA hsa-miR-92a-1-5p hsa-mir-92a-1 AGGUUGGGAUCGGUUGCAAUGCU hsa-miR-92a-2-5p hsa-mir-92a-2 GGGUGGGGAUUUGUUGCAUUAC hsa-miR-122-5p hsa-mir-122 UGGAGUGUGACAAUGGUGUUUG hsa-miR-154-3p hsa-mir-154 AAUCAUACACGGUUGACCUAUU hsa-miR-183-5p hsa-mir-183 UAUGGCACUGGUAGAAUUCACU hsa-miR-204-5p hsa-mir-204 UUCCCUUUGUCAUCCUAUGCCU

hsa-miR-208b-3p hsa-mir-208b AUAAGACGAACAAAAGGUUUGU hsa-miR-425-5p hsa-mir-425 AAUGACACGAUCACUCCCGUUGA hsa-miR-510-5p hsa-mir-510 UACUCAGGAGAGUGGCAAUCAC hsa-miR-520a-5p hsa-mir-520a CUCCAGAGGGAAGUACUUUCU hsa-miR-552-3p hsa-mir-552 AACAGGUGACUGGUUAGACAA hsa-miR-553 hsa-mir-553 AAAACGGUGAGAUUUUGUUUU hsa-miR-557 hsa-mir-557 GUUUGCACGGGUGGGCCUUGUCU hsa-miR-608 hsa-mir-608 AGGGGUGGUGUUGGGACAGCUCCGU hsa-miR-611 hsa-mir-611 GCGAGGACCCCUCGGGGUCUGAC hsa-miR-612 hsa-mir-612 GCUGGGCAGGGCUUCUGAGCUCCUU hsa-miR-671-5p hsa-mir-671 AGGAAGCCCUGGAGGGGCUGGAG hsa-miR-1200 hsa-mir-1200 CUCCUGAGCCAUUCUGAGCCUC hsa-miR-1275 hsa-mir-1275 GUGGGGGAGAGGCUGUC hsa-miR-1276 hsa-mir-1276 UAAAGAGCCCUGUGGAGACA hsa-miR-1287-5p hsa-mir-1287 UGCUGGAUCAGUGGUUCGAGUC

将详细描述对从所述结果获取的胰腺癌诊断用生物标志物的验证测试及其结果。

胰腺癌患者样品和微阵列测试

所有测试均在美国加利福尼亚大学洛杉矶分校(UCLA)的机构评审委员会的许可 下进行。使用三个独立的非常规患者组来进行本研究。使用获自42位胰腺癌患者的 在手术期间速冻的样品和获自7位正常人的样品的起始测试组进行微阵列。其中,仅 选出含30%以上的肿瘤细胞的样品进行多平台分析(n=25),这由执业胃肠病理学家 (DWD)通过代表性苏木精和曙红(H&E)选择来确定。第二组患者(n=42)样品分离自福 尔马林固定的石蜡包埋(FFPE)组织块,且为用作定量PCR(qPCR)的鉴定组的肿瘤。 第三组患者(n=148)的数据集是用作免疫组织化学(IHC,免疫组织化学)鉴定组的组织 微阵列(TMA)肿瘤。各患者组的所有临床病理学和存活信息均提取自UCLA胰腺癌患 者手术数据库(之后得以维持)。基于活组织检查、放射学证据和死亡来评判疾病患病 率。使用电子医疗记录来确定相关的临床和病理学特征以及不相关的疾病(无疾病)存 活率和疾病特异性存活率(DSS)。使用社会安全死亡指数调研数据来确定总体存活率。 对组织微阵列(TMA)组的存活分析限于总体存活率。对用于微阵列和qPCR的鉴定组 研究了无疾病和疾病特异性存活的总时间。存活时长由手术日至死亡日或患者最后联 系日来确定(ClinicalCancerResearch,第18卷,第5期,1352-1363)。

本发明的生物标志物组的验证

针对84位胰腺癌患者和84位正常人(即总共168个受试对象),对利用本发明的 基因生物标志物组进行的胰腺癌诊断进行验证。通过主分量分析和层次聚类(欧几里 得距离,完整方法)分析,利用高通量基因表达(GEO)数据GSE28735和GSE15471并 使用从受试对象采集的血液来进行验证。

结果,对胰腺癌的灵敏度为83%(70/84)且对其的特异性为81%(68/84)。图11 和12分别为显示出利用数据GSE28735的主分量分析结果的聚类图和利用数据 GSE28735的层次聚类分析结果的热图,而图13和14分别是显示利用数据GSE15471 的主分量分析结果的聚类图和利用数据GSE15471的层次聚类分析结果的热图。在图 11和13中,横轴的分量1代表第一主分量(PC1),而纵轴的分量2代表第二主分量 (PC2)。此外,三角形所代表的对象代表癌症患者,而圆形所代表的对象代表正常人。 在图12和14中,位于热图中的上部中的红色条和蓝色条分别代表癌症患者和正常人。

同时,针对25位胰腺癌患者和7位正常人(即,总共32个受试对象),对利用本 发明的组织样品微RNA生物标志物进行的胰腺癌诊断进行验证。通过主分量分析和 层次聚类(欧几里得距离,完整方法)分析,利用高通量基因表达(GEO)数据GSE32678 并使用获自受试对象的样品来进行验证。结果,对胰腺癌的灵敏度为80%(20/25)且 对其的特异性为100%(7/7)。图15是说明利用数据GSE32678的层次聚类分析结果 的图。

针对17位胰腺癌患者和2位正常人(即,总共19个受试对象),对利用本发明的 血液样品微RNA生物标志物进行的胰腺癌诊断进行验证。通过主分量分析和层次聚 类(欧几里得距离,完整方法)分析,利用小RNA测序数据(其为下一代测序(NGS)方 法)并使用获自受试对象的样品来进行验证。

图17中提供了对小RNA测序数据分析的一般性说明。结果,对胰腺癌的灵敏度 为100%(17/17)且对其的特异性为50%(1/2)。图16是说明利用小RNA测序数据的 层次聚类分析结果的图。在图14和15中,位于热图中的上部中的红色条和蓝色条分 别代表癌症患者和正常人。

同时,上述生物标志物被用作胰腺癌诊断用装置。胰腺癌诊断用装置的实例包括 诊断芯片、诊断试剂盒、定量PCR(qPCR)设备、护理现场测试(POCT)设备和测序仪 等。诊断芯片、诊断试剂盒、定量PCR(qPCR)设备、护理现场测试(POCT)设备和测 序仪的除生物标志物组以外的构造和元件可以从本领域公知的那些构造和元件中进 行选择。

同时,本发明的实施方式的方法可以在处理器可读记录介质中以处理器可读代码 进行实施。处理器可读记录介质的实例包括ROM、RAM、CD-ROM、磁带、软盘和 光学数据储存装置等,以及以载波的形式实施(例如,经由互联网传输)的装置。

上文所述的实施方式的构造和方法可以有限地应用于上文所述的计算装置100, 并且可以对其应用相应实施方式的整体或部分的选择性组合,从而可实现所述实施方 式的各种变化形式。

对本领域技术人员显而易见的是,在不背离本发明的主旨和范围的情况下,可以 进行各种修改和变化。因此,意在使本发明覆盖本发明的修改形式和变化形式,只要 其落在所附权利要求及其等价形式的范围内即可。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号