首页> 中国专利> 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法

一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法

摘要

本发明公开了一种基于网络爬虫和多模态特征的成分‑靶点相互作用预测方法,包括以下步骤:S1,数据收集模块:利用网络爬虫自动获取中药的成分和靶点相关数据;S2,数据预处理模块:融合成分和靶点相关数据,构建成分表、靶点表、成分‑靶点关系表;S3,多模态特征提取模块:分别将成分和靶点的描述符特征、序列相似性特征、网络拓扑特征进行跨模态融合,获取成分和靶点特征;S4,可靠负样本构建模块:利用PU学习和已知的成分‑靶点相互作用关系构建可靠负样本集;S5,分类模型构建模块:成分‑靶点特征结合正负样本集训练二分类模型。

著录项

  • 公开/公告号CN114944191A

    专利类型发明专利

  • 公开/公告日2022-08-26

    原文格式PDF

  • 申请/专利权人 湖南中医药大学;

    申请/专利号CN202210703362.1

  • 申请日2022-06-21

  • 分类号G16B15/30(2019.01);G16B40/00(2019.01);G16B50/00(2019.01);G06F16/951(2019.01);G06K9/62(2022.01);G06N5/00(2006.01);G06N20/20(2019.01);

  • 代理机构长沙瀚顿知识产权代理事务所(普通合伙) 43223;长沙瀚顿知识产权代理事务所(普通合伙) 43223;

  • 代理人吴亮;朱敏

  • 地址 410208 湖南省长沙市岳麓区含浦科教园象嘴路1号湖南中医药大学

  • 入库时间 2023-06-19 16:31:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-13

    实质审查的生效 IPC(主分类):G16B15/30 专利申请号:2022107033621 申请日:20220621

    实质审查的生效

说明书

技术领域

本发明涉及中医药人工智能技术领域,特别涉及一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法。

背景技术

中医临床经验丰富、疗效显著,但对中药成分、治疗靶点的作用机制仍知之甚少,给临床精准治疗带来了极大挑战。从微观机理解释中药药效物质基础成为中医现代化重点研究内容,因此,在理解中药的作用机制中识别成分-靶点对相互作用(ingredient-targetinteraction,ITI)至关重要。中药具有多成分、多靶点等特性,很多潜在中药与靶点间的关系尚未明确,通过生物实验分别从中药的各个成分研究其作用靶点花费的时间成本、经济成本巨大且难以实现,因此研究成分-靶点相互作用预测方法是中医药现代化的紧迫问题。

随着公开的中医药分析数据库的出现,近年来出现的成分靶点数据库有 TCMSP、SymMap、HERB、ETCM、TCMID等,这些资源为ITI的预测提供了数据支持。近年来,基于化学基因组学结合计算机技术的方法可以快速低成本的识别潜在的ITI,在目前的研究方法中,基于化学基因组学的方法又可以分为三类:基于网络扩散、基于矩阵分解和基于分类的方法。基于网络扩散的方法将成分和靶点看作节点,成分-靶点之间的关系看作边,同时增加成分-成分、靶点-靶点之间的相似性关系等构建网络,在网络上使用随机游走等网络传播方法预测未知的成分-靶点相互作用关系;基于矩阵分解的方法利用矩阵分解将成分- 靶点关联矩阵分解为两个低秩矩阵,对应与成分和靶点的特征空间。

在基于分类的方法中一般先构造成分-靶点的特征,然后利用机器学习的方法预测成分-靶点相互作用关系。该方法特征的提取决定了预测结果的好坏,现阶段研究特征的选取多样,有的使用分子描述符、蛋白质描述符作为特征;有的计算成分-成分和靶点-靶点之间的相似性作为特征;有的构建异构网络并将节点的网络结构作为特征。虽成分-靶点相互作用去的一定进展,但仍然存在一下问题:1、现有数据收集不完整,未能综合考虑多个数据库;2、对于成分-靶点相互作用的分类预测为二分类问题,只有已标记的正样本和未标记的样本,现阶段的研究常在未标记的样本中随机选取与正样本等量的作为负样本,预测结果假阴性的风险高。3、目前基于分类的方法特征考虑不全、选取单一,从而限制了有效计算方法的发展。

发明内容

本发明为解决现有成分-靶点相互作用预测方法数据不全和特征单一导致的技术局限,提供了一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法,该方法较现有的成分靶点预测方法而言,获取了较为完整的数据,极大程度挖掘了中药成分和靶点的潜在特征,减少了单一特征的风险,同时提供了可靠负样本集,具有较高的实用价值。为了解决上述问题,其技术方案如下:

本发明的一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法,所述预测方法包括以下步骤:

S1,数据收集模块:利用网络爬虫自动获取中药的成分和靶点相关数据;

S2,数据预处理模块:融合成分和靶点相关数据,构建成分表、靶点表、成分-靶点关系表;

S3,多模态特征提取模块:分别将成分和靶点的描述符特征、序列相似性特征、网络拓扑特征进行跨模态融合,获取成分和靶点特征;

S4,可靠负样本构建模块:利用PU学习和已知的成分-靶点相互作用关系构建可靠负样本集;

S5,分类模型构建模块:成分-靶点特征结合正负样本集训练二分类模型。

进一步地,在步骤S1所述的数据收集模块中,利用网络爬虫技术从多个中药化学成分数据库和药物化学数据库自动获取成分和靶点的描述符、序列及相互作用数据。

进一步地,在步骤S2所述的数据预处理模块中,针对不同数据库中出现的中药成分、靶点、相互作用关系以及相应的描述符信息,制定相应的融合规则,构建成分表、靶点表、成分-靶点表。

进一步地,步骤S3所述的多模态特征提取模块还包括:

S31,根据成分的药理学和分子特性数据,计算成分的分子描述符特征;根据靶点的二肽组成、伪氨基酸组成、自相关性计算靶点的蛋白质描述符特征;

S32,利用Jaccard相似性系数计算成分的SMILES序列相似性特征,利用 Smith–Waterman分数计算靶点的FASTA序列相似性特征;

S33,由已知的成分-靶点相互作用关系构建异构网络,运用node2vec网络嵌入算法提取成分和靶点的网络拓扑特征;

S34,分别对成分和靶点的描述符特征、序列相似性特征以及网络拓扑特征拼接后采用主成分分析法进行前端跨模态特征融合。

进一步地,步骤S31中,成分的药理学和分子特性数据包括分子量、脂水分布系数、氢键的供体、氢键的受体、口服生物利用度、肠上皮渗透性、血脑屏障、类药性、负表面积、化合物极性、化合物中可旋转键的个数以及药物半衰期,将上述12种数据经过归一化后作为分子描述符特征

步骤S31中,靶点的蛋白质描述符特征包括二肽与预期平均值的偏差(DDE),伪氨基酸组成(PAAC)、自相关性(Moran)、间隔氨基酸对的组成(CKSAAP)和分组的三肽组合物(GTPC)等五种特征类,拼接后通过主成分分析降维至d维,将其作为靶点描述符特征向量

进一步地,步骤S32中,成分的SMILES序列相似性特征的计算公式为:

式中,c

步骤S32中,靶点的FASTA序列相似性特征的计算公式为:

式中,SW(t

进一步地,步骤S33中,成分和靶点的网络拓扑特征计算方法包括:采用 node2vec方法生成每个成分和靶点节点的d维特征向量

S331,已知ITI矩阵Y,

S332,根据矩阵Y构建无向无权值的图G=(V,E),V表示节点集合,|V|表示节点的数量,E表示边的集合,

S333,在图G上进行随机游走,以节点c

其中,Z为归一化常数,π

其中,d

S334,由随机游走获取每个节点的序列后,学习目标为使用低维向量表示节点u,并最大化序列N

其中f(u)为最终的节点嵌入表示,以该方法对每个节点进行训练得到d维特征向量

进一步地,在步骤S4所述的可靠负样本构建模块中,利用已知的成分-靶点相互作用关系随机选择部分数据作为间谍样本,使用随机森林生成所有样本的预测概率并排序,将概率低于间谍样本的作为可靠负样本集。

进一步地,在步骤S5所述的分类模型构建模块中,将S3得到的成分和靶点特征向量,根据正负样本集的组合情况进行拼接,得到成分-靶点特征向量,并使用极端梯度提升分类器训练二分类模型,训练完的模型可用于成分-靶点相互作用预测。

本发明提供的基于网络爬虫和多模态特征的成分-靶点相互作用预测方法,有益效果在于:

一、本发明提供的预测方法,通过网络爬虫收集了多个中药化学成分数据库和药物化学数据库的数据,并融合了成分表、靶点表及其它们的关系表,确保数据的完整性。

二、单一的特征可能会存在特征缺失或表征能力不足的问题,本发明基于描述符特征、序列相似性特征、网络拓扑特征的多模态特征融合方法能有效的解决该问题。

三、在成分-靶点相互作用预测问题中,仅存在具有相互作用的正样本和未知样本,没有经过实验验证过的负样本,现有方法通常随机选择与正样本等量的未知样本作为负样本,假阳性风险高,本发明基于PU学习的技术能从未知样本中筛选出可靠负样本。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明的基于网络爬虫和多模态特征的成分-靶点相互作用预测方法的流程示意图;

图2是本发明的基于网络爬虫和多模态特征的成分-靶点相互作用预测方法可靠负样本模块中,以PU学习的间谍技术为例,获取可靠负样本的流程示意图。其中U表示未知样本集,P表示正样本集,S表示间谍样本集,RF为随机森林分类模型,N表示可靠负样本集。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式作进一步的说明。

在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

请参考图1和图2,本实施例的一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法,该预测方法包括以下步骤:

S1,数据收集模块:利用网络爬虫自动获取中药的成分和靶点相关数据;

S2,数据预处理模块:融合成分和靶点相关数据,构建成分表、靶点表、成分-靶点关系表;

S3,多模态特征提取模块:分别将成分和靶点的描述符特征、序列相似性特征、网络拓扑特征进行跨模态融合,获取成分和靶点特征;

S4,可靠负样本构建模块:利用PU学习和已知的成分-靶点相互作用关系构建可靠负样本集;

S5,分类模型构建模块:成分-靶点特征结合正负样本集训练二分类模型。

作为优选的实施方式,在步骤S1所述的数据收集模块中,利用网络爬虫技术从多个中药化学成分数据库和药物化学数据库自动获取成分和靶点的描述符、序列及相互作用数据。

其中,网络爬虫具有速度快、效率高的特点,可以高效的完成复杂网页结构的结构化数据提取,由于各数据库的网站结构不同,因此在数据获取前,需要对于网页的结构深入分析,找到相应的数据文件。

爬取的相关数据库及其数量统计如表1所示,查询选取表中数据的URL,将数据ID编码拼接加入URL中或通过抓包分析找到数据传递的接口,利用 requests库文件向服务器发起请求,获取相应的HTML或JSON数据文件,利用 xpath、selector、正则表达式等解析数据文件提取网页中希望获取的特定数据,最终通过多次请求和URL迭代获得所有的数据。例如TCMSP数据库的成分表需要提取的字段包括成分名、分子量、脂水分布系数、氢键的供体、受体等17个字段的数据,分析该数据库中的成分URL规律,获取每个成分的URL,通过网络爬虫获取和解析相应的网页及字段,再传入新的URL进行下一轮的数据爬取,直至爬取所有成分数据为止。

表1相关数据库

优选地,在步骤S2所述的数据预处理模块中,针对不同数据库中出现的中药成分、靶点、相互作用关系以及相应的描述符信息,制定相应的融合规则,构建成分表、靶点表、成分-靶点表。

其中,通过网络爬虫获取数据库的数据后,融合成分和靶点相关数据,构建成分表、靶点表、成分-靶点关系表。将爬取的数据按不同的数据库和数据库表分开存储,由于不同的数据库包含的字段和关系数据有所差异,需制定规则对各数据库的数据进行融合,以确保数据的完整性。以TCMSP和HERB成分表融合为例,经两个数据库的成分表字段分析,当两个数据库中的成分数据满足成分名相同(不区分大小写)、PubChem_id相同、TCMSP_id相同、CAS_id相同四个条件的其中一个即可确定为同一个成分,同时有的字段名不同但表示的是同一种数据,这就需要人工识别处理。筛除一些实验用不到的ID字段后数据库的所有字段在融合过程中取并集,表2为融合后成分表、靶点表及成分-靶点关系字段。

表2字段设置

优选地,步骤S3所述的多模态特征提取模块还包括:

S31,根据成分的药理学和分子特性数据,计算成分的分子描述符特征;根据靶点的二肽组成、伪氨基酸组成、自相关性计算靶点的蛋白质描述符特征;

S32,利用Jaccard相似性系数计算成分的SMILES序列相似性特征,利用 Smith–Waterman分数计算靶点的FASTA序列相似性特征;

S33,由已知的成分-靶点相互作用关系构建异构网络,运用node2vec网络嵌入算法提取成分和靶点的网络拓扑特征;

S34,分别对成分和靶点的描述符特征、序列相似性特征以及网络拓扑特征拼接后采用主成分分析法进行前端跨模态特征融合。

优选地,步骤S31中,成分的药理学和分子特性数据包括分子量、脂水分布系数、氢键的供体、氢键的受体、口服生物利用度、肠上皮渗透性、血脑屏障、类药性、负表面积、化合物极性、化合物中可旋转键的个数以及药物半衰期,将上述12种数据经过归一化后作为分子描述符特征

步骤S31中,使用iFeature工具提取序列蛋白质描述符特征,该工具常用于靶点、RNA和DNA序列的特征工程分析及建模,能够利用FASTA序列中从多方面表达蛋白质的性质,将提取二肽与预期平均值的偏差(DDE),伪氨基酸组成 (PAAC)、自相关性(Moran)、间隔氨基酸对的组成(CKSAAP)和分组的三肽组合物(GTPC)五种特征类,拼接后通过主成分分析降维至d维,令其为靶点描述符特征向量

优选地,步骤S32中,成分的SMILES序列相似性特征的计算公式为:

式中,c

步骤S32中,靶点的FASTA序列相似性特征的计算公式为:

式中,SW(t

优选地,步骤S33中,成分和靶点的网络拓扑特征计算方法包括:采用node2vec方法生成每个成分和靶点节点的d维特征向量

S331,已知ITI矩阵Y,

S332,根据矩阵Y构建无向无权值的图G=(V,E),V表示节点集合,|V|表示节点的数量,E表示边的集合,

S333,在图G上进行随机游走,以节点c

其中,Z为归一化常数,π

其中,d

S334,由随机游走获取每个节点的序列后,学习目标为使用低维向量表示节点u,并最大化序列N

其中f(u)为最终的节点嵌入表示,以该方法对每个节点进行训练得到d维特征向量

优选地,步骤S34中,分别对成分和靶点的描述符特征、序列相似性特征及网络拓扑特征进行横向拼接前端跨模态特征融合。将成分相关特征进行组合得到

优选地,在步骤S4所述的可靠负样本构建模块中,利用已知的成分-靶点相互作用关系随机选择部分数据作为间谍样本,使用随机森林生成所有样本的预测概率并排序,将概率低于间谍样本的作为可靠负样本集。由于在成分-靶点相互作用预测中没有经过试验验证的负样本,大多数人随机选择一部分未知关系的样本作为负样本,具有较高的假阳性风险,因此本发明采用PU学习中的间谍技术筛选潜在的成分-靶点负样本构建可靠负样本集;

当成分-靶点邻接矩阵Y中的Y

优选地,在步骤S5所述的分类模型构建模块中,将S3得到的成分和靶点特征向量,根据正负样本集的组合情况进行拼接,得到成分-靶点特征向量,并使用极端梯度提升分类器训练二分类模型,训练完的模型可用于成分-靶点相互作用预测。本发明中采用的是集成学习算法极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型,XGBoost的基学习器采用CART决策树,应用了k个树并行构成集成树模型,优化目标函数由损失函数和正则化项组成,如下公式所示:

其中k为树的数量,T为叶子的数量,w为节点的数值,从树的根节点开始,该模型采用贪心算法计算β

采用十折交叉法及ROC曲线下面积(Area Under the ROC Curve,AUC)值评估模型,保存效果最好的模型model_best,将所需预测数据的成分-靶点信息输入模型中,判断成分和靶点是否存在相互作用关系。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。

以上结合附图对本发明的实施方式作出详细说明,但本发明不局限于所描述的实施方式。对本领域的技术人员而言,在不脱离本发明的原理和精神的情况下对这些实施例进行的多种变化、修改、替换和变型均仍落入在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号