首页> 中国专利> 一种基于细胞表型的药物相关性、作用靶点及药效融合图网络分析方法

一种基于细胞表型的药物相关性、作用靶点及药效融合图网络分析方法

摘要

本发明提供了一种基于细胞表型的药物相关性、作用靶点及药效分析融合图网络,使用药物合集与对应配对的基因敲除合集分别对细胞基因表达进行扰动处理,测量得到各自的基因表达图谱;采集扰动处理后的细胞图像,得到药物处理图像合集与对应的基因敲除图像合集,并设置未扰动的对照组细胞并采集对应的对照图像合集;使用所述药物处理、基因敲除、对照组细胞的图像合集提取对应的单细胞图像合集;使用获取的数据训练模型,并获取损失函数。本发明使用两组孪生异质图网络将细胞图像数据和基因表达谱数据结合起来,实现了不同源数据的高效利用。采用多源数据结合的方式,可以提高模型的预测准确率,同时可以加速药物推荐和靶点预测的速度。

著录项

  • 公开/公告号CN116665768A

    专利类型发明专利

  • 公开/公告日2023-08-29

    原文格式PDF

  • 申请/专利权人 杭州济扶科技有限公司;

    申请/专利号CN202310731485.0

  • 发明设计人 肖红江;陈荣周;赵晓诗;

    申请日2023-06-20

  • 分类号G16B15/30(2019.01);G16H20/10(2018.01);G16B25/10(2019.01);G06V10/26(2022.01);G06V10/774(2022.01);G06V10/764(2022.01);

  • 代理机构杭州大道知识产权代理有限公司 33525;

  • 代理人奚丽萍

  • 地址 311121 浙江省杭州市余杭区仓前街道龙舟大厦1103室

  • 入库时间 2024-01-17 01:25:44

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及细胞图像分析技术领域,特别涉及基于细胞表型的药物推荐、药物靶点预测及药效预测融合图网络。

背景技术

使用药物处理细胞可以通过改变细胞的生物化学途径来影响细胞的基因表达谱。例如,使用一种特定的药物可以抑制或促进某些基因的表达,从而导致基因表达谱的变化。这种方法可以帮助我们确定药物如何作用于细胞,并且有助于开发新的药物治疗方法。其次,使用基因敲除技术可以通过删除一个或多个基因来研究这些基因对细胞功能和表达的影响。这可以帮助我们确定特定基因在细胞功能和调节中的作用。例如,如果一个基因的敲除导致某些基因的表达下降,那么这可能意味着这个基因在调节这些基因表达方面起着重要作用。测量基因表达谱可以通过各种方法来实现,包括微阵列和RNA测序。这可以帮助我们确定不同处理条件下基因表达的变化,从而更好地理解细胞和基因调节的机制。

对于药效预测、药物靶点以及药物推荐的预测,目前主要采用的技术是相对独立的。药效预测的通行做法是将加入不同药物及对照组的细胞进行培养,然后进行图像采集,再从图像提取到的表型数据中分析药物的效果。而药物靶点预测和药物推荐的预测则根据不同场景采用不同的方法。传统的靶点预测方法通常以药物作用机制(MoA)及配位体研究为核心,通过分析药物与蛋白质相互作用的特征来预测药物的作用靶点。同时,利用深度学习将基因表达谱作为输入来预测药物效果和靶点也成为了一种常见的方法。因此,在药物研发过程中改为采用基于细胞表型的融合图网络方法,整合处理可以解决存在的高成本、低效率、低成功率等问题。

发明内容

本发明目的在于提供基于细胞表型的药物相关性、作用靶点及药效分析融合图网络,以解决上述背景技术存在的技术问题。

为实现上述目的,本发明提供如下技术方案:

基于细胞表型的药物相关性、作用靶点及药效分析融合图网络,包括如下步骤:

S1:使用药物合集与对应配对的基因敲除合集分别对样本细胞的基因表达进行扰动处理,测量得到各自的基因表达图谱;

S2:采集扰动处理后的细胞图像,得到药物处理图像合集与对应的基因敲除图像合集,并设置未扰动的对照组细胞,采集对应的对照图像合集;

S3:使用所述药物处理图像合集、基因敲除图像合集、对照图像合集提取对应的单细胞图像合集;

S4:使用所述步骤S1至S3获取的数据训练模型,并获取损失函数,具体包括如下:

(1)使用测量得到的基因表达图谱与蛋白质互作网络训练得到孪生网络,并依据输出的差异确认损失函数;

(2)使用所述单细胞图像合集作为输入训练多编码-自动编码器一,并对不同的空间变换设置不同的编码器,并依据变分推断确认损失函数;

(3)对所述单细胞图像合集进行细胞状态分类,并根据将所述多编码-自动编码器一的输出映射于所述细胞状态分类中,以细胞状态分类的标签损失确认损失函数;

S5:根据所述步骤S4获取的损失函数定义总损失函数;

S6:依据所述总损失函数优化整个模型,直至损失函数收敛。

进一步地,每种所述基因表达图谱作为一个若干维的向量,与对应的蛋白质互作网络的节点数量。

进一步地,所述自动编码器输入大小为对应单细胞图像的大小,卷积层和全连接层混合构建,输出为隐含向量的长度,所有所述编码器均输出到同一个隐含空间。

进一步地,所述自动编码器对应还设有解码器,并通过解码器重建单细胞原图。

进一步地,所述步骤S3提取对应的单细胞图像的方法包括如下:

S31:对所述药物处理、基因敲除、对照组细胞的图像合集作为原图像组进行仿射、放大变换,得到对应的新图像组,并对原图像组合新图像组分别标记得到原掩码组、新掩码组;

S32:利用所述步骤S31中的新图像组和新掩码训练细胞掩码识别网络并得到训练完成的第一网络模型,利用所述步骤S31中的新掩码组和原掩码组训练细胞掩码识别网络并得到训练完成的第二网络模型;

S33:分别优化第一网络模型和第二网络模型,得到优化后的第一优化模型和第二优化模型;

S34:使用第一优化模型计算出待分割细胞图像,即所述药物处理、基因敲除、对照组细胞的图像合集的对应掩码

S35:将所述单个细胞掩码转换为对应的单个细胞图像。

进一步地,所述步骤S4的细胞状态分类方法包括如下步骤:

h1:获取一组明场图像组及对应的荧光图像组,提取对应的单细胞图像,得到单个细胞明场图像集合和对应的单个细胞荧光图像集合;

h2:通过单个细胞荧光图像集合对单个细胞明场图像集合活细胞进行标记,制作单个细胞明场图像的细胞状态标签,得到训练集;

h3:使用所述训练集训练多编码-自动编码器二;

h4:利用训练完成的多编码-自动编码二对单个细胞明场图像集合和单个细胞荧光图像集合进行过滤,提取隐藏特征;

h5:构建多层感知机,并用根据所述隐藏特征训练集训练多层感知机,得到训练完成之后的多层感知机;

h6:将所述多编码-自动编码器一中输出的隐藏特征输入训练完成之后的多层感知机中,得到细胞的细胞状态分类。

进一步的,所述细胞状态分类方法构建的感知机在所述步骤S1之前预先训练完成,并在所述步骤S4时直接使用所述感知机进行细胞状态分类。

本发明的有益效果:

在药物推荐及靶点预测的过程当中,既可以使用基因表达谱的相似度,即孪生网络输出的差异排序对药物进行推荐和靶点进行预测,同时我们也能够直接使用表型数据的相似度对药物进行推荐和靶点预测。在药效预测的过程当中,我们直接使用提取到的隐含特征预测细胞的细胞状态来完成药效预测。

本发明使用两组孪生异质图网络将细胞图像数据和基因表达谱数据结合起来,实现了不同源数据的高效利用,采用多源数据结合的方式,可以提高模型的预测准确率,同时可以加速药物推荐和靶点预测的速度,利用药物推荐和药效预测相互加速的方式,可以快速筛选出有效的药物靶点组合,并且可以逐步降低对基因表达数据的依赖,可以在获得更全面的信息的同时,减少实验的时间和成本,提高药物研发的效率。

附图说明

图1为本发明整体原理结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参阅图1,本发明实施例提供了基于细胞表型的药物相关性、作用靶点及药效分析融合图网络,具体训练步骤包括如下:

S1:使用药物集合

S2:分别对上述细胞的图像进行采集,得到药物扰动和基因扰动对应的两组图像数据

S3:使用所述步骤S2获取的细胞图像数据,采用细胞分割算法提取对应的三组单细胞图像集合

S31:对所述药物处理的图像合集

S32:利用所述步骤S31中的新图像组和新掩码训练细胞掩码识别网络并得到训练完成的第一网络模型,利用所述步骤S31中的新掩码组和员掩码组训练细胞掩码识别网络并得到训练完成的第二网络模型;

S33:优化训练第一网络模型和第二网络模型,得到优化后的第一优化模型和第二优化模型,其中优化用的损失函数为:

其中

S34:使用第一优化模型计算出待分割细胞图像,即所述药物处理、基因敲除、对照组细胞的图像合集的对应掩码

S35:将所述单个细胞掩码转换为对应的单个细胞图像。

S4:使用所述步骤S1至S3获取的数据训练模型,并获取损失函数,具体包括如下:

(1)使用所述步骤S1测量得到的基因表达图谱与蛋白质互作网络训练得到孪生卷积图网络,图的近邻矩阵为

对于一个孪生图网络,我们同时将配对药物和基因扰动的基因表达谱数据输入同一个卷积图网络得到隐含向量输出

(2)根据所述步骤S3获取药物和基因扰动及对照组的单细胞图像, 和,将全体单细胞作为训练数据,接着构造一个多编码-自动编码器一(ME-VAE),以上述单细胞图像为输入,对不同的空间变换

(3)依据所述多编码-自动编码器一提取到的隐含向量特征一方面可以根据细胞状态标记对模型进行监督,对单细胞图像合集进行细胞状态分类,并将隐含空间映射到二元的所述细胞状态分类上,最小化预测的标签损失使模型能够提取到具有生物学意义的特征,损失函数为:

其中

其中所述细胞状态分类通过预先训练好的多层感知机进行分类,具体细胞状态分类方法如下包括如下步骤:

h1:获取一组明场图像组B,

h2:通过单个细胞荧光图像集合

h3:使用所述训练集训练多编码-自动编码器二;

h4:利用训练完成的多编码-自动编码二对单个细胞明场图像集合

h5:构建多层感知机,并用根据所述步骤h4获取的隐藏特征训练集训练多层感知机,得到训练完成之后的多层感知机;

h6:将所述多编码-自动编码器一中输出的隐藏特征输入训练完成之后的多层感知机中,得到细胞的细胞状态分类。

通过上述步骤进行细胞状态分类可节约时间人力成本,后期无需再额外进行荧光标记。

S5:将ME-VAE提取到的药物扰动和基因扰动的隐含向量特征

整个模型的训练便基于最小化该损失函数,直到损失函数收敛则视为优化完成。在药物推荐及靶点预测的过程当中,我们既可以使用基因表达谱的相似度(即

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号