首页> 中国专利> 一种基于记忆力网络与注意力的计算药物重定位方法

一种基于记忆力网络与注意力的计算药物重定位方法

摘要

本发明公开一种基于记忆力网络与注意力的计算药物重定位方法,依次包括以下步骤:步骤1:利用药物‑疾病关联及额外辅助信息提取药物与疾病的隐特征;步骤2:根据步骤1计算得出的药物与疾病的隐特征生成药物偏好向量;步骤3:根据步骤2计算得出的药物偏好向量,结合记忆力网络生成邻域贡献表示部分;步骤4:利用非线性函数集成药物隐特征、疾病隐特征和邻域贡献表示以生成预测值。本发明通过将注意力机制和外部记忆单元结合生成邻域贡献表示,使其能够捕捉到少量药物‑疾病强关联所包含的邻域信,同时采用非线性函数将药物与疾病的隐特征和邻域贡献表示集成,使得本发明提出的模型能从药物‑疾病关联的整体视角去推断预测值。

著录项

  • 公开/公告号CN112331275A

    专利类型发明专利

  • 公开/公告日2021-02-05

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202011169358.9

  • 发明设计人 何洁月;杨新星;龚倬;

    申请日2020-10-28

  • 分类号G16C20/30(20190101);G16C20/70(20190101);G16H70/40(20180101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人张天哲

  • 地址 210096 江苏省南京市玄武区四牌楼2号

  • 入库时间 2023-06-19 09:49:27

说明书

技术领域

本发明涉及一种计算药物重定位方法,具体涉及一种基于记忆力网络与注意力的计算药物重定位方法,属于生物信息学技术领域。

背景技术

在过去几十年时间内,尽管制药技术在持续进步且同时人类对疾病的认知逐步完善,但将上述进步转化为成品新药的步伐远低于预期。新药研发仍是一个周期漫长、价格昂贵和高风险的过程。据统计,研发一种新药的平均成本为8~15亿美元且至少需要13~15年才可将该药推广至市场。同时该过程损耗率过高,进入临床试验的药物中仅有10%能够获得监管机构的批准。剩余90%的药物因临床实验研究的预测价值有限,导致其因无效性或高毒性未能得到药物监管机构的批准。为了克服上述问题且同时提高新药产量,越来越多公司采用计算药物重定位技术加快新药研发过程。计算药物重定位技术旨在从已被药物监管部门批准的药物中发现其新的用途,因其研发周期短,投资成本低和可控性强等特点备受业界关注。

尽管计算药物重定位技术已在制药产业取得一定的成功,但是该技术仍面临着一系列重大挑战。比如以往计算药物重定位模型只是简单套用其它领域的相关模型,并没有充分考虑到制药产业的行业知识,导致以往模型在相关场景中性能低下。此外,传统计算药物重定位模型在大规模海量数据集上的表现欠佳,如何从海量数据中预测有效的药物-疾病关联已成计算药物重定位领域的另一大难题。

综合上述讨论,对比于传统药物研发流程,计算药物重定位技术可显著加速药物研发过程、节省投资成本和加强药物可控性,对制药产业有着重大的实用意义和经济价值。同时当前计算药物重定位技术仍面临着一系列挑战和难题,因此针对计算药物重定位技术的研究有着重大的经济价值和社会意义,值得研究人员的高度重视和进一步的研究。

发明内容

技术问题:

本发明的目的在于解决现有药物重定位方法中存在的不足,提供一种基于记忆力网络与注意力的计算药物重定位方法,以提高药物重定位的性能。

技术方案:

本发明所述的一种基于记忆力网络与注意力的计算药物重定位方法,依次包括以下步骤:

(1)利用一种改良的自编码器将药物-疾病关联,药物间相似度和疾病间相似度结合,用于提取药物和疾病各自的隐特征,该过程能够提取出有效的隐特征且不易受到冷启动问题的困扰;

(2)根据步骤(1)计算得出的药物与疾病隐特征,计算药物偏好向量,用于衡量目标药物与邻居药物的相似程度;

(3)利用药物偏好向量和外部记忆单元结合生成邻域贡献表示(neighborhoodcontribution representation),用于捕捉药物与疾病之间更高阶的复杂关系以及少量强关联所包含的邻域信息,药物偏好向量能够分配给有影响力的邻居更大的权重,而外部记忆单元能够长期存储相关药物在邻居角色下的特征信息;

(4)通过非线性函数将药物和疾病的隐特征与邻域贡献表示集成以得到最终的预测值。

计算出的预测值代表目标药物能够治疗目标疾病的概率。

有益效果:

本发明提供对现有药物-疾病的治疗概率估计,通过将注意力机制和外部记忆单元结合生成邻域贡献表示,使其能够捕捉到少量药物-疾病强关联所包含的邻域信,同时采用非线性函数将药物与疾病的隐特征和邻域贡献表示集成,使得本发明提出的模型能从药物-疾病关联的整体视角去推断预测值。具体包括以下优点:

(1)引入药物疾病辅助信息能够一定程度上解决数据稀疏问题;

(2)引入注意力权重机制,使得模型能够向邻居中相似药物施加更高权重,确保其在决策阶段做出更大的贡献;

(3)将注意力机制和外部记忆单元结合生成邻域贡献表示,使其能够捕捉到少量药物-疾病强关联所包含的邻域信息;

(4)采用非线性函数将药物与疾病的隐特征和邻域贡献表示集成,使得模型能从药物-疾病关联的整体视角去推断预测值。

附图说明

图1本发明中的算法流程图;

图2为实施例中外部记忆力单元向量的维度大小对模型性能影响示意图;

图3为实施例中平衡参数大小对模型性能影响示意图。

具体实施方式

下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。

下文中所涉及符号和参数的定义如表1:

表1符号说明

定义一,药物-疾病关联矩阵:R表示药物-疾病关联矩阵,其中

定义二,药物相似度矩阵:DrugSim表示药物间相似度矩阵,其中DrugSim[i][j]的取值区间为[0,1],该值表示药物i与药物j的相似程度。药物i与药物j越相似,则该值越接近1,反之越接近0。

定义三,药物相似度向量:DrugSim

定义四,疾病相似度矩阵:DiseaseSim表示疾病间相似度矩阵,其中DiseaseSim[i][j]的取值区间为[0,1],该值表示疾病i与疾病j的相似程度。疾病i与疾病j越相似,则该值越接近1,反之越接近0。

定义五,疾病相似度向量:Disease

(1)基于记忆力网络与注意力的计算药物重定位方法(HAMN)

HAMN模型的步骤如图1所示:

步骤1:隐特征提取

HAMN模型利用一种改良的自编码器提取药物和疾病隐特征,同时在此过程中纳入药物间相似度与疾病间相似度丰富药物与疾病的表征信息,用于克服数据稀疏的问题。

图1的下左部分为HAMN模型提取药物i的隐特征的过程。

首先,HAMN模型执行如公式(1)所描述的编码操作,该步骤的目的是生成药物i的隐特征。其中

接着执行公式(2)和(3)所描述的解码操作,该步骤的目的是生成原始输入信息

因此,由上述编码和解码操作造成的损失函数如公式(4)所示,其中

通过最小化公式(4),便可以获得药物i的隐特征drug

同时图1的下右部分显示了HAMN模型提取疾病j隐特征的过程,该过程在理论上与提取药物i隐特征相同,唯一区别在于该过程将原始输入信息和辅助输入信息替换成

步骤2:药物偏好向量生成

通过步骤1的提取隐特征操作,HAMN模型分别获得药物和疾病的隐特征。然而药物与疾病的隐特征仅存储着大部分药物-疾病关联共同拥有的整体信息,却未考虑到少量药物-疾病强关联所包含的邻域信息。受到邻域模型的启发,药物-疾病强关联所包含的邻域信息通常由目标药物的邻居提供,因此HAMN模型利用目标药物的相关邻居去捕捉少量药物-疾病强关联所包含的邻域信息。然而,每个邻居的贡献权重不应该固定唯一,越相似的邻居对目标药物的贡献权重应该越大,反之亦然。

因此药物偏好向量p

其中N(i)表示目标药物i的邻居药物集合,该集合由与疾病j存在已验证关联的药物组成。公式(5)的等号右侧通过将目标药物i的隐特征向量与邻居药物n的隐特征向量进行内积操作,从而计算得出目标药物i和邻居药物n的兼容性。公式(5)能够起到作用的原因在于内积操作能够使得与目标药物i相似的邻居药物取得较大的兼容值,而与其不相似的邻居药物取得较小的兼容值。

步骤3:邻域贡献表示生成

通过步骤2中计算得出的药物偏好向量p

接下来,为了能够学习到目标药物i做决策时所需的少量药物-疾病强关联所包含的邻域信息,根据强关联所包含邻域信息通常由目标药物的邻居提供这一假设,HAMN模型利用目标药物的邻居药物捕捉其决策时所需的邻域信息。同时在推荐系统领域中,记忆力网络利用外部记忆单元长期保存相关用户或商品在邻居角色下的特征信息,使其能够有效捕捉用户或商品所包含的邻域信息。值得注意的是,计算药物重定位问题其本质可以看作为推荐问题。因此受到记忆力网络的启发,HAMN模型利用记忆力网络中的外部记忆单元存储相关药物在邻居角色下的特征信息,用于捕捉该邻居药物所包含的邻域信息。随后利用注意力权重向量q

其中N(i)表示目标药物i的邻居药物集合,该集合由与疾病j存在已验证关联的药物组成。q

步骤4:预测值生成

HAMN模型利用邻域贡献表示o

其中drug

此外h

实施例1:

本实施例使用的深度学习平台为pytorch,所有的算法均用python语言编写,软件基本配置如表2所示。

基本配置如下表2:

表2实验环境配置

如图2至图3所示,实验部分主要从以下若干个方面来评价HAMN算法:外部记忆力单元维度的大小、平衡参数的值。实验中的参数默认设置如下表3所示。

表3实验默认参数配置

实验采用两个目前主流的真实数据集,Gottlieb数据集和Cdataset数据集。其中Gottlieb数据集包含593个经美国食品药物监管局FDA批准的药物,313个已经注册的疾病和1933条已经验证的药物-疾病关联。Cdataset数据集包含663个经美国食品药物监管局FDA批准药物,409个已经注册的疾病和2532条已经验证的药物-疾病关联。

图2的横坐标代表外部记忆单元向量c

图3显示当超参数η的值在{0.1,0.3,0.5,0.7,0.9}区间变化时,HAMN模型在Gottlieb和Cdataset数据集上的性能表现。值得注意的是,随着超参数η值的不断增加,HAMN模型的性能呈稳定的线性提高。此现象说明对于最终的预测值而言,隐特征模块的重要性要大于邻域模块,给予隐特征模块更高的权重能够提升整体模型的泛化能力。其中当η值为0.7时,模型性能达到峰值,两个数据集上的AUC值均达到最大值。然而随着η值的进一步增加,模型性能开始持续下滑,尤其当η为0.9时,下降最为明显。该现象说明邻域模型对部分测试集样本的评分更加准确,需给予邻域模块一定的权重,使最终预测值能够考虑到领域模块的贡献。

通过上述实施例1可以看出,合适的外部记忆单元向量维度能够增强HAMN模型邻域模块的拟合能力,学习到部分药物-疾病强关联所包含的邻域信息,从而进一步提升HAMN模型的整体性能表现。同时隐特征模块的重要级要高于邻域模块,应给予较高权重。但邻域模型能够准确判断部分测试集样本且隐特征模块无法准确预测该部分样本,因此应给予邻域模型部分权重,使最终的预测值考虑到邻域模块的贡献。因此当η值设置为0.7时,其对HAMN模型的预测效果和泛化性能都有一定程度的改善。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号