公开/公告号CN116092598B
专利类型发明专利
公开/公告日2023.09.29
原文格式PDF
申请/专利权人 中国人民解放军总医院;
申请/专利号CN202310047358.9
申请日2023.01.31
分类号G16C20/30(2019.01);G16C20/70(2019.01);
代理机构成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304;
代理人何健雄
地址 100853 北京市海淀区复兴路28号
入库时间 2023-11-03 19:47:30
法律状态公告日
法律状态信息
法律状态
2023-09-29
授权
发明专利权授予
技术领域
本发明涉及人工智能与生物学交叉领域,更具体地说,本发明涉及一种基于流形正则化非负矩阵分解的抗病毒药物筛选方法。
背景技术
寻找有前景的抗病毒药物是当务之急,然而,传统的药物筛选包括目标发现、目标验证、先导化合物识别、先导优化、临床前药物开发、推进临床试验和临床试验等诸多阶段,昂贵且耗时的缺陷十分显著,因此亟需有效的机器学习建模计算方法实现“老药新用”的目的。
已报道的方法存在许多不足之处,如使用随机采样方法生成负样本,引入了人为的不确切干扰信息,亦无法充分利用阴性样本信息,最终导致模型预测性能有限。
发明内容
为了克服现有技术的上述缺陷,本发明提供一种基于流形正则化的非负矩阵分解的病毒药物筛选方法(Manifold Regularized Non-negative Matrix Factorization forVirus Drug Association prediction,简称MRNMF-VDA),其步骤大体为,首先通过构建病毒-药物关联的邻接矩阵分别计算病毒高斯距离相似性和药物高斯距离相似性,然后根据病毒基因组序列计算病毒序列相似性,根据药物化学结构计算药物化学结构相似性,再使用快速核学习法计算整合病毒相似性、整合药物相似性;接下来使用病毒-药物关联邻接矩阵、整合病毒相似性和整合药物相似性构建目标函数并求解基矩阵和系数矩阵,得到病毒-药物关联对预测得分矩阵,最后排序给出最终预测结果。本方法能根据病毒-药物关联数据,精确高效地预测抗病毒相关药物。
为实现上述目的,本发明提供如下技术方案,一种基于流形正则化非负矩阵分解的病毒药物筛选方法,具体包括如下步骤:
步骤一,输入已知的病毒-药物关联对,构建邻接矩阵X,此矩阵的行数为病毒数量nv,列数为药物数量nd;
步骤二,分别计算药物间高斯距离相似性和病毒间高斯距离相似性:若药物d(i)与某个病毒之间存在关联,则对应位置记为1否则记为0,形成一个1×nv大小的0或1构成的向量,记之为药物d(i)的向量谱IP(d(i)),然后计算药物d(i)和d(j)之间的高斯距离相似性
S
上式中,参数γ
以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性,1×nd大小的0或1构成的向量,记之为病毒v(i)的向量谱IP(v(i));
S
以上γ’
步骤三,输入病毒基因组序列,使用既有较为成熟的多序列比方法计算病毒序列相似性,输入药物的化学结构得到药物MACCS指纹,采用谷本系数(Tanimoto Coefficient,也即Jaccard相似度,关联的交集除于关联的并集)计算药物化学结构相似性;
步骤四,使用快速核学习方法整合病毒基因组序列相似矩阵和病毒高斯距离相似矩阵,具体是通过求解下面的半正定规划式:
式中,第一项为范数项表示相似矩阵的整合误差大小,第二项为为正则化项,作用是避免过拟合,其中X为病毒-药物关联邻接矩阵,S
步骤五,基于非负矩阵分解方法,引入拉普拉斯正则化和L
上式中X表示病毒药物关联,U和V分别是待求的基矩阵和系数矩阵,
步骤六,使用迭代方法求解目标函数得到基矩阵U和系数矩阵V,具体更新公式为:
步骤七,计算评分矩阵F
F
根据算出的病毒-药物关联对关系分数排序,给出最终预测结果。
本发明的技术效果和优点:
1、本发明在非负矩阵分解框架中引入流形正则化(拉普拉斯正则化)项,能有效捕获数据内在结构信息,只需要阳性样本和未标记样本而不依赖于负样本,大大降低了模型构建的难度,提升了预测性能。
2、L
3、本发明合理融合了流形学习理论、非负矩阵分解和机器学习方法,该模型是半监督模型,能够高效、精确、快速地给出病毒-药物预测结果,且具有较好的可扩展性与健壮性。
附图说明
图1为本发明的总体流程图。
图2为本发明与几种已报道方法在同一数据集上五倍交叉验证的结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行完整地描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例中所使用的已知人类药物-病毒关联数据是从相关文献中收集的,使用文本挖掘技术对文献中经过实验验证的药物-病毒相互作用对进行整理后,获得455个已证实的人类病毒-药物相互作用,涉及34种病毒与219种药物(文献DOI:10.1016/j.asoc.2021.107135);药物化学结构从DrugBank数据库中下载,病毒基因组核苷酸序列从美国国家生物技术信息中心NCBI数据库获得,然后执行如图1所示的一种基于流形正则化非负矩阵分解的病毒药物筛选方法,具体包括如下步骤:
步骤一,输入已知的药物-病毒关联对,构建邻接矩阵X:
得到的邻接矩阵X元素为0或1,大小为34行×219列,i与j的取值范围满足1≤i≤34,1≤j≤219;
步骤二,分别计算病毒高斯距离相似性和药物高斯距离相似性:
若某一个病毒v(i)与某药物之间存在关联,则对应位置记为1否则记为0,形成一个1×219大小的0或1构成的行向量,记之为病毒v(i)的向量谱IP(v(i)),然后计算病毒v(i)和v(j)之间的高斯距离相似性:
S
上式中,参数γ
以类似的方式定义药物d(i)和d(j)之间的高斯距离相似性:
S
取γ′
其中nv表示病毒的数量,此例中为34,nd表示药物的数量,此例中为219,此步计算后得到大小为34×34的对称矩阵S
步骤三,输入病毒基因组序列,基于多序列比方法使用多序列比对工具MAFFT计算病毒的基因序列信息得到病毒序列相似矩阵S
步骤四,使用快速核学习方法整合病毒基因组序列相似矩阵和病毒高斯距离相似矩阵,具体通过求解下面的半正定规划式:
式中,第一项为范数项表示相似矩阵的整合误差大小,第二项为为正则化项,作用是避免过拟合,其中X为病毒-药物关联邻接矩阵,S
步骤五,基于非负矩阵分解方法,引入拉普拉斯正则化和L
上式中X表示病毒药物关联,U和V分别是待求的基矩阵和系数矩阵,
步骤六,根据拉格朗日乘数法求偏导再使用Karush-Kuhn-Tucker(KKT)条件将矩阵U和V反解出来,便可得到其更新公式:
其中R是一个对角矩阵,其第i个元素为:
在上述的实施例中,经初步优化后,选取参数值λ
使用Matlab编程实现上述算法时,将矩阵U初始化为34行×30列的随机矩阵,V初始化为30行×219列的随机矩阵(对角矩阵R大小同矩阵V的行数,此处为30行×30列),U和V的全部元素都在(0,1)区间范围,设定迭代循环次数为50次或者满足
步骤七,计算评分矩阵F
F
根据算出的药物-病毒关联对关系分数排序给出最终预测结果。
本发明的有效性验证:
如图1所示的一种基于流形正则化非负矩阵分解的病毒药物筛选方法,采用五重交叉验证进行预测性能评估,具体实施方式为:先将所有已知的药物-病毒关联随机平均分成5组,再将5组中的每一组分别设为测试样本,其他组作为训练样本。使用训练样本作为本方法的输入得到预测结果,最后将该组中每个测试样本的预测分数与候选的分数进行比较。为了减少在获得测试样品的过程中随机划分对结果造成的影响,进行了100次五折交叉验证。
使用Matlab计算后获得了如下数据,如图2所示为本方法MNMFVDA与现已报道的几种病毒-药物筛选模型之间的AUROC(ROC曲线下面积)值比较。本方法在5折交叉验证中取得了0.7686±0.0044的AUROC值,表现出了比几种经典模型更加出色的预测性能。
另外一方面,对具体某种病毒,如新型冠状病毒(SARS-CoV-2)使用本方法做预测,筛选评分矩阵F
下表展示了预测结果前20个药物名称和支持的文献PMID号。
最后:以上所述仅为本发明的优选实施例之一,并不用于限制本发明,凡在本发明的精神和原则之内,所作的细微修改、等同替换、简单改进等,均应包含在本发明的保护范围之内。
机译: 基于正交非负矩阵分解建立基础矩阵的用户方法的特征识别装置及基于正交半监督非负矩阵分解建立基础矩阵的用户方法的特征识别装置
机译: 用于识别用户特征的装置,基于正交非负矩阵分解的基础矩阵的建立方法以及基于正交半监督非负矩阵分解的基础矩阵的建立方法
机译: 用于识别用户运动特征的设备,用于生成基于正交非负矩阵分解(ONMF)的基础矩阵的方法以及用于生成正交半监督非负矩阵分解的基础矩阵(OSSNMF)的方法