技术领域
本发明属于生物信息学和机器学习技术领域,具体涉及一种基于通路活性及弹性网回归的癌症药物敏感性预测方法,更具体涉及一种预测24种抗癌药物敏感性对癌症细胞系的预测方法。
背景技术
确定患者是否会对抗癌药物产生反应通常需要花费数月的时间,中间要经历反复的试验,还伴随着随时出现误用的可能性。研发有效的抗癌药物反应预测方法已经成为肿瘤学研究的重要课题。
目前大多数方法通过建立单个基因的预测模型来预测药物敏感性,并没有考虑到通路中基因间相互作用关系以及通路中的关键基因,由于生物多样性和难以解释新基因-药物关联的生物学相关性,预测模型的可重复性很低。
发明内容
针对现有技术中的不足,本发明的目的是提供一种基于通路活性及弹性网的癌症药物敏感性预测方法。其模型预测精度高,可以对药物敏感性进行有效的预测,其中提出的选取通路中的关键基因的表达水平表示通路活性水平的方法,对于癌症药物敏感性具有更好的预测效果和较好的生物学解释。
为达到上述目的,本发明的解决方案是:
一种基于通路活性及弹性网的癌症药物敏感性预测方法,其包括如下步骤:
S1:获取癌症细胞系的基因表达特征数据和抗癌药物的化学特征数据;
S2:从KEGG通路数据库下载并整合得到每个通路(基因集合)中的基因间相互作用网络表,从该网络表中选择和癌症细胞系的基因表达特征数据基因连接紧密的关键基因;
S3:计算每一个通路的通路活性向量,合并所有通路活性向量得到通路活性特征矩阵;
S4:将步骤S1的抗癌药物的化学特征数据整合为药物化学特征矩阵,将药物化学特征矩阵和步骤S3的通路活性特征矩阵连接合并,得到包含癌症细胞系特征和药物化学特征的新矩阵;
S5:构建基于步骤S1-S4的预测抗癌药物敏感性的弹性网模型,把包含癌症细胞系特征和药物化学特征的新矩阵作为特征张量输入模型中进行训练与预测,同时验证模型的再现性。
作为一种优选方案,在步骤S1中,从互联网公开数据库搜集整合抗癌药物的化学特征和癌症细胞系的基因表达特征,对应于已知的抗癌药物敏感性水平,形成药物的化学特征二维张量和基因表达特征二维张量。同时从通路数据库下载通路基因互作网络数据。
作为一种优选方案,在步骤S2中,标准化癌症细胞系基因表达特征二维张量和抗癌药物化学特征二维张量,然后从通路基因互作网络中选择度较高的基因作为关键基因,并取这些基因在基因表达量的均值/方差。药物反应是多个基因的协同行为,将通路中基因互作网络的关键基因应用于药物敏感性会改善预测效果。
作为一种优选方案,在步骤S3中,根据步骤S1的所有通路数据,将步骤S2的每一通路中所有关键基因在癌症细胞系样本中表达量的均值/方差活性向量合并成通路活性向量,此时特征为通路,样本为癌症细胞系。其中,每个通路活性向量是该通路互作网络表中关键基因在基因表达矩阵中表达量的均值/方差,合并所有通路后的通路活性矩阵中的特征变为通路。
作为一种优选方案,在步骤S4中,将通路活性特征矩阵和药物化学特征矩阵合并为新的特征矩阵,即包含癌症细胞系特征和药物化学特征的新矩阵,并作为弹性网模型的输入值,从而进行回归预测。
作为一种优选方案,在步骤S5中,对步骤S4得到的新矩阵和药物敏感性水平构建弹性网模型,且将包含癌症细胞系特征和药物化学特征的新矩阵作为模型输入值,将药物敏感性水平作为模型输出值,根据均方误差(MSE)调试并优化调整参数,验证模型。
由于采用上述方案,本发明的有益效果是:
第一、本发明利用通路活性和弹性网预测癌症药物敏感性的方法,在大多数药物上具有更高的精度,可以帮助临床实验减少时间和金钱成本,从而进行有效的预测药物反应。
第二、本发明提出的联合抗癌药物的化学特征和癌症细胞系的通路活性特征的方法,能够从多维度特征学习抗癌药物的潜在关系,具有更好的生物学解释。
附图说明
图1为本发明的实施例中通路活性推断流程图。
图2为本发明的实施例中24种药物在验证集上的预测性能。
图3为本发明的实施例中药物PF2341066在敏感细胞系和抗性细胞系之间的通路活性图。
图4为本发明的实施例中药物17-AAG在敏感细胞系和抗性细胞系之间的通路活性图。
具体实施方式
本发明提供了一种基于通路活性及弹性网的癌症药物敏感性预测方法。
以下结合实施例对本发明作进一步的说明。
实施例:
本实施例的基于通路活性及弹性网的癌症药物敏感性预测方法包括:
1材料与分析
1.1数据来源
本发明用于模型训练和预测的数据来源于互联网上公开的数据集。具体来说,抗癌药物化学特征数据集来源于alvaDesc软件计算的结果,癌症细胞系的基因表达数据和抗癌药物敏感性值来源于数据库CCLE(癌症细胞系百科全书https://portals.broadinstitute.org/ccle/),通路数据库来源于KEGG数据库(京都基因与基因组百科全书https://www.genome.jp/kegg/)。
1.2模型方法
图1是本发明的推断通路活性流程图。本发明先对一个通路基因互作网络中的高连接度基因(关键基因)表达量计算,得到通路活性向量,然后把所有通路活性向量合并,得到通路活性特征矩阵,再把通路活性特征矩阵和药物化学特征矩阵合并为新矩阵,从而作为弹性网模型的输入值,最终预测药物敏感性。
1.2.1通路活性推断
推断通路活性包括以下步骤:
第一步:对基因表达数据进行标准化。标准化处理即对数据张量的每个维度中的所有元素,减去其维度的均值,再除以每个维度的标准差,得到的新数据张量就是标准化后的数据。
第二步:将每一个通路基因互作网络中具有高连接度的基因表达量的均值/方差作为该通路活性向量。
第三步:把所有通路活性向量合并为通路活性特征矩阵。
1.2.2构建模型
把通路活性特征矩阵和药物化学特征矩阵合并为新的特征矩阵,即包含癌症细胞系特征和药物化学特征的新矩阵,作为弹性网模型的输入值,对应于癌症药物敏感性IC50值,使用网格搜索算法来选择最优参数预测药物敏感性水平,同时对弹性网的模型系数排名选择排名前10%的通路特征进行分析。
2结果与分析
2.1通路活性推断
通路活性推断考虑了通路的基因间相互作用关系,选择了通路中排在前10%的度的基因,利用通路中基因关系将基因表达矩阵中基因特征转换为通路活性矩阵中通路特征,将原来基因表达矩阵中2万多的基因特征转换为388个通路特征,极大地降低了维数。
2.2基于通路活性和弹性网的癌症药物敏感性预测
采用弹性网构建回归模型,输入数据为包含癌症细胞系特征和药物化学特征的新矩阵,输出数据为药物敏感性IC50值,构建通路活性对药物敏感性的预测模型,使用R语言中glmnet包对该预测模型进行仿真实验。
对模型进行训练并在测试集上进行测试和预测,在验证集上得到实验结果如图2所示,可知,该癌症药物敏感性预测方法在大多数药物上具有较好的预测效果。在测试集上得到的实验结果如表1所示。
表1基于通路活性的药物敏感性预测模型的在测试集上的预测性能
2.2通路和药物敏感性的生物学解释
图3中对于PF2341066药物,分别选择IC50最低和最高的30个细胞株作为敏感组和耐药组,t检验的p值提供了通路活性的差异。TGF-beta signaling pathway在药物PF2341066中排名较高,事实上已有研究发现该通路的激活会导致对药物PF2341066的抗性。
图4中也同样展示了药物17-AAG在敏感细胞系和抗性细胞系之间的通路活性差异,也和事实相符合。
上述对实施例的描述是为了便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术人员显然可以容易的对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中,而不必经过创造性的劳动。因此,本发明不限于上述实施例。本领域技术人员根据本发明的原理,不脱离本发明的范畴所做出的改进和修改都应该在本发明的保护范围之内。
机译: ABL用于ABL药物敏感性预测的ABL ABL生物标记物成分估算方法用于使用生物标记成分和用于检测ABL药物敏感性预测的生物标记物成分的诊断芯片的ABL药物敏感性预测方法
机译: 癌细胞药物敏感性增强剂,药物敏感性预测方法和药物敏感性生物标志物
机译: 选择使用该因子的药物敏感性预测方法,并选择指定药物敏感性因子的方法