法律状态公告日
法律状态信息
法律状态
2015-09-16
授权
授权
2013-06-19
实质审查的生效 IPC(主分类):G06F19/18 申请日:20130225
实质审查的生效
2013-05-22
公开
公开
技术领域
本发明涉及计算机辅助药物设计领域,特别涉及一种基于随机森林算 法、用于预测化合物和蛋白质之间相互作用的方法。
背景技术
近十多年以来,在全世界范围内,虽然药物研发的投入越来越大,但 是其产出—FDA批准上市的药物数量却呈现逐年下降的趋势(C.R.Chong &D.J.Sullivan,Nature,2007.448:p.645-646.)。越来越多的学者认为,传 统的“单药物,单靶点”药物研发模式是导致这种结果的主要原因。
传统的药物研发的目标主要在于发现针对单一靶点、具有高选择性和 高安全性的药物。但是,人们逐渐发现,药物和靶点之间的关系是多对多 的关系,即一个药物往往会作用于多个不同的靶点,而一个靶点也往往会 与多种不同的药物产生相互作用(A.L.Hopkins,Nature chemical biology, 2008.4(11):p.682-690.)。例如,在通过FDA审批的新化合物实体(NCE) 中,有超过80%与已知的靶点产生了相互作用(M.A.Yildirim,et al.,Naturebiotechnology200725(10):p1119-1126)。因此,著名的诺贝尔奖获得者 James Black说,最有效的发现新药的方法是从老的药物出发去寻找(C.R. Chong&D.J.Sullivan,Nature,2007.448:p.645-646.)。
化合物和蛋白质相互作用预测是发现已知药物的新用途—即老药新 用的主要研究方法之一。事实上,从已知的化合物和蛋白质相互作用中发 现新的化合物和蛋白质相互作用关系,不仅有可能发现老药的新用途,还 可用于发现全新的药物和全新的靶点。所以,化合物和蛋白质相互作用预 测是近年来较为热门的一个研究命题。但是,目前化合物和蛋白质相互作 用预测所面临的主要问题是预测准确率低、特别是假阳性高(H.Yu et al., PloS one,2012.7(5):p.e37608.)。为此,研究发现预测准确率更高的化合 物和蛋白质相互作用预测新方法具有重大意义。
发明内容
本发明的目的是针对目前现有化合物和蛋白质相互作用方法的预测 准确率低的特点,提出一种基于随机森林算法、可用于发现化合物和蛋白 质相互作用的方法,以更加有效地提高化合物和蛋白质之间相互作用预测 的准确率。
一种基于随机森林的化合物和蛋白质相互作用预测方法,包括:
(A)收集与药物化合物存在相互作用的靶点蛋白质信息,构建靶点 库;
(B)收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋 白质之间的相互作用关系信息,构建化合物库;
(C)根据所述化合物库和所述靶点库的信息构建训练集;
(D)改进随机森林算法,使得随机森林算法的最终预测结果是通过 随机森林中多个子树的预测结果相加然后取平均值获得到,其值在0和1 之间分布;
(E)基于所述的训练集,使用所述的改进随机森林算法进行训练, 建立预测模型;
(F)收集用于预测的化合物,连同步骤(A)中得到的靶点蛋白质信 息构建测试集;
(G)基于所述预测模型对所述测试集进行预测;
(H)根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否 存在相互作用。
所述步骤(A)中收集与药物化合物存在相互作用的靶点蛋白质信息 时,首先收集与药物化合物存在相互作用的靶点蛋白质的序列信息,然后 通过PseAAC(伪氨基酸组成,Pseudo Amino Acid Composition,见文献 HB Shen&KC ChouAnalytical Biochemistry2008373(2)p386–388)工 具计算得到每个靶点蛋白质的特征描述符。
所述步骤(B)中收集用于构建训练集的药物化合物时:需要收集药 物化合物的分子结构信息,然后通过Dragon软件计算药物化合物的分子 描述符,同时剔除掉那些含有无效值、零值比例大于设定比例及标准差小 于设定值的分子描述符。
所述步骤(C)中,所述训练集的每一个样本都由一个药物化合物和 一个靶点蛋白质配对组成,其中独立变量为药物化合物的分子描述符和靶 点蛋白质的特征描述符,而因变量为药物化合物和靶点蛋白质之间的相互 作用关系,具体步骤如下:
(1)因变量的取值判断如下:如果一个药物化合物和一个靶点蛋白 质之间存在着已知的相互作用关系,那么对应的因变量值为阳性;如果一 个药物化合物和一个靶点蛋白质之间未发现存在相互作用关系,对应的因 变量值为阴性;
(2)使用所有存在相互作用关系的药物化合物和靶点蛋白质构成阳 性样本,而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋 白质比对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:1。 最后,训练集的总样本数等于所选定化合物与蛋白质的相互作用关系的数 量乘以2。
所述步骤(D)中,对所述随机森林算法,优先选用Java版本的Weka 软件包(M.Hall et al.,A CM SIGKDD Explorations Newsletter2009.11(1):p. 10-18.)中所带的随机森林算法,并对该算法进行改进。缺省的随机森林 算法是根据多个不同的子树(tree)的预测结果进行投票(voting)来产生 最终的结果,因此结果只有两种形式(阳性和阴性、或1和0)。改进后的 随机森林算法中:随机森林算法的最终预测结果是通过随机森林中多个子 树的预测结果相加然后取平均值获得到,其值在0和1之间分布。
所述步骤(E)中,为提高预测精度,对所述随机森林算法的参数进 行设置,其中子树数量设置为大于1000个。
所述步骤(F)中,对于所收集的用于预测的化合物,需要获得相应 的分子结构,并根据该分子结构信息,选择使用Dragon软件计算用于预 测的化合物的分子描述符,且只留下那些与步骤(B)中相一致的分子描 述符,其余全部剔除,然后把每一个用于预测的化合物与靶点库中的所有 靶点蛋白质进行整合构建测试集。
所述步骤(H)中,用于预测的化合物和靶点蛋白质相互作用的预测 结果值分布在0和1之间,通过把结果值与设置的阈值相比较,如果结果 值大于阈值,那么表示这一对用于预测的化合物和靶点蛋白质产生相互作 用。
本发明的有益效果体现在:
(1)随机森林算法是一种分类算法,其预测结果通常只分为两类(如 0和1,或是和否),而本发明利用随机森林是由一系列子树构成的特点改 进了该算法,使其预测结果可以以概率的形式给出,这样更利于我们准确 判断其结果的可靠性。
(2)本发明预测的结果还可以根据概率大小进行排序,通过设置阈 值,让我们优先选择排列靠前的潜在化合物和蛋白质相互作用关系进行验 证。
附图说明
图1为本发明的基于随机森林的化合物和蛋白质相互作用预测方法的 结构示意图。
具体实施方式
为使本发明的目的、实施方案和优点更加清楚明白,这里结合具体实 施例子作进一步的详细说明,如图1所示:
(A)、收集已知的与药物化合物存在相互作用的靶点蛋白质信息以构 建靶点库。
从DrugBank3.0数据库(C.Knoxet al.,Nucleic Acids Research,201139 (suppl 1),p.D1035-D1041)中下载获得4177个已知的可以与药物产生相 互作用的靶点蛋白质及其序列等信息,并根据靶点蛋白质序列信息,选择 通过PseAAC(伪氨基酸组成,Pseudo Amino Acid Composition,见文献 HB Shen&KC Chou,Analytical Biochemistry,2008,373(2),p.386-388)工具 计算得到所有靶点蛋白质的特征描述符,其中特征描述符的个数为30个。
(B)、收集用于构建训练集的药物化合物(即同步骤(A)中的药物 化合物)、以及药物化合物与靶点蛋白质之间的相互作用关系信息以构建 化合物库。
从DrugBank数据库下载5170个实验类(Experimental)药物对应的 化合物信息,包括SDF格式的分子结构,并根据分子结构信息,选择使 用Dragon软件计算2D分子描述符,然后对得到的每一个分子描述符进行 如下判断,若满足如下条件之一则剔除该分子描述符:(i)该分子描述符 中含有无效值;(ii)该分子描述符中零值比例大于设定比例(例如>90%); (iii)该分子描述符的标准差小于设定标准差(例如<0.5)。最后剩下368 个分子描述符。
从DrugBank数据库下载所有实验类药物与蛋白质的相互作用关系信 息。
(C)、根据化合物库和靶点库信息构建训练集。
训练集的每一个样本都由一个化合物和一个蛋白质配对信息组成,其 中独立变量由通过Dragon软件计算获得的368个分子描述符和通过 PseAAC计算获得的30个蛋白质特征描述符组成,而因变量为化合物和蛋 白质之间的相互作用关系,具体步骤如下:
(1)因变量的取值判断如下:如果一个药物化合物和一靶点蛋白质 之间存在着已知的相互作用关系,那么对应的因变量值为阳性(positive 或1);如果一个药物化合物和一个靶点蛋白质之间未发现存在相互作用关 系,对应的因变量值为阴性(negative或0);
(2)使用所有存在相互作用关系的化合物和蛋白质构成阳性样本, 而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋白质比 对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:1。最后, 训练集的总样本数等于所选定药物化合物与靶点蛋白质的相互作用关系 的数量乘以2。
(D)改进随机森林算法,使之能够以概率的形式给出药物化合物和 靶点蛋白质相互作用关系的预测结果。
随机森林(Random Forests)算法(L.Breiman,Machine learning,2001. 45(1):p.5-32.)是一种非常著名的机器学习方法,由于能够建立预测准确 率非常高的分类器而被广泛应用于机器学习领域。但是,其缺点是只能够 进行两分类预测,即预测结果只有两种(阳性和阴性、或1和0)。
这里以Java版本的Weka软件包(M.Hall et al.,ACM SIGKDDExplorations Newsletter,2009.11(1):p.10-18.)中提供的随机森林算法作为 基础,并做了进一步改进。现有的随机森林算法在预测部分,缺省的随机 森林算法是根据多个不同的子树(tree)的预测结果进行投票(voting)来 产生最终的结果,结果也只有两种形式(阳性和阴性、或1和0);即:如 果有超过半数的子树的预测结果认为药物化合物和靶点蛋白质之间不存 在相互作用,那么最后随机森林的预测结果即认为彼此不存在相互作用 (阴性或0);相反,如果有超过半数的子树的预测结果认为药物化合物和 靶点蛋白质之间存在相互作用,那么最后随机森林的预测结果即认为彼此 存在相互作用(阳性或1)。
而改进的随机森林算法的最终预测结果是通过随机森林中多个子树 的预测结果相加然后取平均值获得到,其值在0和1之间分布。
(E)基于所述的训练集,使用改进随机森林算法进行训练,建立预 测模型。
设置随机森林算法的参数,把其中子树的数量设置为2000个,然后 使用改进的随机森林算法对训练集进行训练,获得预测模型。
(F)收集用于预测的化合物(为实验类药物),并据此构建测试集。
为进一步证实本发明方法的准确性,我们从DrugBank数据库下载 1401个通过美国FDA审批的已认证类(Approved)药物所对应的化合物 信息作为预测的化合物,包括SDF格式的分子结构,并根据分子结构信 息,选择使用Dragon软件计算2D分子描述符,只留下那些与步骤(B) 中相一致的分子描述符,其余全部剔除。
与步骤(C)中构建训练集相类似,把每一个用于预测的化合物与所 有靶点库中的蛋白质进行组合,其中每一个测试样本分别由通过Dragon 软件计算获得的368个分子描述符和通过PseAAC计算获得的30个靶点 蛋白质特征描述符组成,最后得到的测试集的样本数为:
用于预测的化合物数×靶点蛋白质数=1401×4177=5851977 (个)。
(G)基于预测模型对测试集进行预测。
使用步骤(E)中所建立的预测模型对步骤(F)中所获得的测试集进 行预测,并记录所有5851977个用于预测的化合物和靶点蛋白质相互作用 的预测结果。
(H)根据所述预测结果判断用于预测的化合物和靶点蛋白质之间是 否存在相互作用。
用于预测的化合物和靶点蛋白质相互作用的预测结果值分布在0和1 之间,通过把结果值与设置的阈值(如0.5)相比较来判断是否产生相互 作用,如果结果值大于阈值,那么即表示这一对用于预测的化合物和靶点 蛋白质是产生相互作用。
基于本发明的例子,在步骤(G)所获得的5851977个用于预测的化 合物和靶点蛋白质相互作用的预测结果中,如果以0.5作为阈值,即若预 测结果值<0.5即判为不存在相互作用,而若预测结果值>0.5即判为存在相 互作用,那么最后的预测准确率为95.7%;与此类似,如果把阈值分别设 置为0.6和0.7,那么其最后的预测准确率分别提高到98.6%和98.5%。显 然,随着阈值的增加,准确率会进一步提高。这意味着,预测结果值越接 近1或0,那么其被正确预测的概率越大。
(I)预测准确率比较分析。
基于本发明的结果准确率高于同类文献所报道的准确率。例如:①同 样使用drugbank数据库建立模型对化合物和蛋白质相互作用进行预测的 文献(H.Yu etal.,PloS one,2012.7(5):p.e37608.)所获得的准确率(约 66%~83%);②基于KEGG数据库建立模型对化合物和蛋白质相互作用进 行预测的文献(Z.He et al.,PloS one,2010.5(3):p.e9603.)所获得的准确 率(约78%~86%)。
机译: 预测方法和使用该预测方法设计可以作为抑制蛋白质相互作用的抑制剂的候选化合物的方法
机译: 预测方法及使用该预测方法设计抑制抑制剂的蛋白-蛋白质相互作用界面的潜在候选化合物的方法
机译: 基于支持向量机的蛋白质相互作用预测方法