首页> 中国专利> 基于领域本体的癌症用药知识库构建方法、系统及终端

基于领域本体的癌症用药知识库构建方法、系统及终端

摘要

本发明的基于领域本体的癌症用药知识库构建方法、系统及终端,获取由创建的与癌症精准用药本体的目标领域相关的包括实体类别以及实体关系的本体框架;将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中,以构建癌症精准用药知识库;本发明通过确定“癌症精准用药”本体的领域和范畴,并以“特定生物标志物的肿瘤细胞”为核心概念来构建本体框架,融合领域相关的概念、术语及其逻辑关系,最终形成一个具有问题分析、逻辑推理能力的癌症精准用药本体知识库。

著录项

  • 公开/公告号CN113836931A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利号CN202111398444.1

  • 发明设计人 马超;

    申请日2021-11-24

  • 分类号G06F40/295(20200101);G06F16/35(20190101);G06F16/31(20190101);G16B50/30(20190101);G16H70/40(20180101);

  • 代理机构31219 上海光华专利事务所(普通合伙);

  • 代理人倪静

  • 地址 201203 上海市浦东新区中国(上海)自由贸易试验区芳春路400号1幢3层

  • 入库时间 2023-06-19 13:49:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-08

    授权

    发明专利权授予

说明书

技术领域

本发明数据处理领域,特别是涉及一种基于领域本体的癌症用药知识库构建方法、系统及终端。

背景技术

肿瘤是一类高度异质化的细胞增生性疾病的总称,其异质性是指同一种恶性肿瘤在不同患者个体间(瘤间异质性)或者同一患者体内不同部位(瘤内异质性)组织细胞间,从基因型到表型上存在的差异,体现了恶性肿瘤在演进过程中的高度复杂性和多样性。因此不同肿瘤细胞表现出免疫特性、生长速度、侵袭能力等表型方面的差异,最终导致对不同抗肿瘤药物的敏感性不同或放疗敏感性的差异。

因此,恶性肿瘤(癌症)的治疗因以个体化医疗为基础的“精准医学(precisionmedicine)”模式,对形成癌症的肿瘤细胞在发生部位、组织来源、生物分子标志物的变化等多个层面进行系统分析,找到最适合的药物或治疗手段。

癌症精准用药的核心内容是通过肿瘤细胞的不同生物标志物变化(包括基因突变、基因扩增、基因融合、肿瘤免疫原性和蛋白表达等),因此有针对性的选择特定的抗肿瘤药物,从而高效、特异性的抑制肿瘤细胞生长具有重要意义。

随着细胞分子生物学相关理论和技术的不断发展,在癌症的基础病理学和临床分子治疗等方面都积累了大量的知识数据,基于这些数据也形成了众多的知识库系统。但是,由于缺乏统一的本体论概念描述框架,这些知识仅以实体的形式存在于各个数据库之中,一方面彼此之间缺乏统一的术语标准化方案,另一方面也没有体现实体概念之间潜在的关联关系或逻辑关系。这样的知识库系统仅能够实现知识库的检索和查询,但缺乏分析问题的逻辑推理能力,尤其是现阶段缺少基于“癌症精准用药”本体的领域和范畴且具有问题分析、逻辑推理能力的癌症精准用药本体知识库。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于领域本体的癌症用药知识库构建方法、系统及终端,用于解决现有技术中缺少基于“癌症精准用药”本体的领域和范畴且具有问题分析、逻辑推理能力的癌症精准用药本体知识库的问题。

为实现上述目的及其他相关目的,本发明提供一种基于领域本体的癌症用药知识库构建方法,包括:获取由创建的与癌症精准用药本体的目标领域相关的本体框架;其中,所述本体框架包括:一或多个实体类别以及实体关系;其中,所述本体框架包括:一或多个实体类别以及实体关系;所述实体类别包括:药物实体类别、基因实体类别、突变实体类别以及肿瘤实体类别;所述实体关系包括:对应所述基因实体类别和突变实体类别之间的突变与基因实体关系、对应所述突变实体类别和肿瘤实体类别之间的突变与肿瘤实体关系、对应所述肿瘤实体类别和药物实体类别之间的肿瘤与药物实体关系、对应所述药物实体类别以及基因实体类别之间的药物与基因实体关系、对应基因实体类别之间的基因实体关系、对应肿瘤细胞实体类别之间的肿瘤细胞实体关系、对应突变实体类别之间的突变实体关系以及对应药物实体类别之间的药物实体关系中的一种或多种;将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中,以构建癌症精准用药知识库;其中,所述突变实体类别的类别包括:用于表示多个生物标志物的组合的TumorCombinationIndex子类、用于表示融合基因突变的FUSMutation子类、用于表示基因或蛋白的异常表达的AbnormalExpression子类、用于表示基因的拷贝数变化的CNVMutation子类以及用于表示改变基因活性的非同义突变的MutationFunction子类中的一种或多种;并且其中,所述MutationFunction子类包括:用于表示在特定转录本特定位置发生的氨基酸变异的MutationAAGroup子类;并且其中,MutationAAGroup子类包括:用于表示具有特定形式的氨基酸突变的MutationAA子类;所述突变实体关系包括:对应MutationAAGroup子类与MutationAA子类之间的实体关系、对应MutationAAGroup子类与MutationFunction子类之间的实体关系以及对应MutationFunction子类与MutationAA子类的实体关系中的一种或多种。

于本发明的一实施例中,所述肿瘤实体类别包括:表示具有特定生物表示物的肿瘤细胞的TumorCells子类以及表示细胞来源的MeshCancerType子类;并且其中,所述MeshCancerType子类包括:对应肿瘤细胞来源的身体部位的BodySite子类以及对应组织来源的Histological子类;其中,肿瘤细胞实体关系包括:Detected_from关系,其定义域为TumorCells类,值域为BodySite子类;和/或,Originated_from关系:其定义域为TumorCells类,值域为Histological子类。

于本发明的一实施例中,所述突变与基因实体关系包括:Has_a关系,其定义域设定为突变实体类别,值域为基因实体类别;所述突变与肿瘤实体关系包括:Has_a关系,其定义域设定为肿瘤实体类别,值域为突变实体类别;所述肿瘤与药物实体关系包括:Inhibited关系,其定义域为药物实体类别,值域为肿瘤实体类别;和/或,Resistance_to关系,其定义域为肿瘤实体类别,值域为药物实体类别;所述药物与基因实体关系包括:Inhibited关系,其定义域为药物实体类别,值域为基因实体类别;所述基因实体关系包括:Activating关系,其定义域和值域都为基因实体类别;和/或, Inactivating关系,其定义域和值域都为基因实体类别。

于本发明的一实施例中,所述药物实体类别包括:用于表示药物的同义名称的Drugtradename属性、用于表示药物的中文名称的Drugchname属性以及用于表示药物的商品名称的Drugalias的属性中的一种或多种。

为实现上述目的及其他相关目的,本发明提供一种基于领域本体的癌症用药知识库构建系统,所述系统包括:框架获取模块,用于获取由创建的与癌症精准用药本体的目标领域相关的本体框架;其中,所述本体框架包括:一或多个实体类别以及实体关系;知识库构建模块,连接所述框架获取模块,用于将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中,以构建癌症精准用药知识库;其中,所述实体类别包括:药物实体类别、基因实体类别、突变实体类别以及肿瘤实体类别;所述实体关系包括:对应所述基因实体类别和突变实体类别之间的突变与基因实体关系、对应所述突变实体类别和肿瘤实体类别之间的突变与肿瘤实体关系、对应所述肿瘤实体类别和药物实体类别之间的肿瘤与药物实体关系、对应所述药物实体类别以及基因实体类别之间的药物与基因实体关系、对应基因实体类别之间的基因实体关系、对应肿瘤细胞实体类别之间的肿瘤细胞实体关系、对应突变实体类别之间的突变实体关系以及对应药物实体类别之间的药物实体关系中的一种或多种;并且其中,所述突变实体类别的类别包括:用于表示多个生物标志物的组合的TumorCombinationIndex子类、用于表示融合基因突变的FUSMutation子类、用于表示基因或蛋白的异常表达的AbnormalExpression子类、用于表示基因的拷贝数变化的CNVMutation子类以及用于表示改变基因活性的非同义突变的MutationFunction子类中的一种或多种;并且其中,所述MutationFunction子类包括:用于表示在特定转录本特定位置发生的氨基酸变异的MutationAAGroup子类;并且其中,MutationAAGroup子类包括:用于表示具有特定形式的氨基酸突变的MutationAA子类;所述突变实体关系包括:对应MutationAAGroup子类与MutationAA子类之间的实体关系、对应MutationAAGroup子类与MutationFunction子类之间的实体关系以及对应MutationFunction子类与MutationAA子类的实体关系中的一种或多种。

为实现上述目的及其他相关目的,本发明提供一种基于领域本体的癌症用药知识库构建终端,包括:存储器,用于存储计算机程序;处理器,用于执行所述的基于领域本体的癌症用药知识库构建方法。

如上所述,本发明是一种基于领域本体的癌症用药知识库构建方法、系统及终端,具有以下有益效果:本发明获取由创建的与癌症精准用药本体的目标领域相关的包括实体类别以及实体关系的本体框架;将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中,以构建癌症精准用药知识库,本发明通过确定“癌症精准用药”本体的领域和范畴,并以“特定生物标志物的肿瘤细胞”为核心概念来构建本体框架,融合领域相关的概念、术语及其逻辑关系,最终形成一个具有问题分析、逻辑推理能力的癌症精准用药本体知识库。

附图说明

图1显示为本发明一实施例中的基于领域本体的癌症用药知识库构建方法的流程示意图。

图2显示为本发明一实施例中的主体框架的结构示意图。

图3显示为本发明一实施例中的主体框架的结构示意图。

图4显示为本发明一实施例中的主体框架的结构示意图。

图5显示为本发明一实施例中的基于领域本体的癌症用药知识库构建系统的结构示意图。

图6显示为本发明一实施例中的基于领域本体的癌症用药知识库构建终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在通篇说明书中,当说某部分与另一部分“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部分“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味着可以还包括其它构成要素。

其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的,但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此,以下叙述的第一部分、成分、区域、层或段在不超出本发明范围的范围内,可以言及到第二部分、成分、区域、层或段。

再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

“本体”作为知识表示、共享和重用的崭新方法,已被知识工程、自然语言处理、知识表达等人工智能领域广泛关注。随着大规模的集成知识库系统的研究,“本体”作为实现知识共享、知识推理的核心,亟需被引入到了肿瘤精准医学知识库系统的建模中。

本发明提供一种基于领域本体的癌症用药知识库构建方法,本发明获取由创建的与癌症精准用药本体的目标领域相关的包括实体类别以及实体关系的本体框架;将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中,以构建癌症精准用药知识库,本发明通过确定“癌症精准用药”本体的领域和范畴,并以“特定生物标志物的肿瘤细胞”为核心概念来构建本体框架,融合领域相关的概念、术语及其逻辑关系,最终形成一个具有问题分析、逻辑推理能力的癌症精准用药本体知识库,解决了现有技术的问题。

下面以附图为参考,针对本发明的实施例进行详细说明,以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现,并不限于此处说明的实施例。

如图1所示,展示本发明实施例中的基于领域本体的癌症用药知识库构建方法的流程示意图。

所述方法包括:

步骤S11:获取由创建的与癌症精准用药本体的目标领域相关的本体框架。

详细来说,所述本体框架包括:一或多个实体类别以及对应各实体类别的实体关系。

可选的,与癌症精准用药本体的目标领域即癌症精准用药的本体包括的顶层概念有基因、身体部位、细胞组织类型、基因、基因突变、基因扩增、基因表达、基因融合、药物、肿瘤细胞等内容;其中,基因突变包括具体位置点突变,如EGFR p.L858R;导致基因激活/失活的突变集合,如MET exon14 skipping;基因的热点位置,该位置任意一种类型的突变都可能导致基因功能发生变化,如KRAS G12、G13等。

可选的,所述本体框架以“具有特定分子标记的肿瘤细胞“为核心构建,描述了肿瘤细胞与药物、药物与基因、肿瘤细胞与肿瘤发生部位、肿瘤细胞的组织类型、基因突变的功能类别与具体突变形式之间的概念层次关系。

可选的,基于癌症精准用药本体的目标领域,创建的所述实体类别包括:所述实体类别包括:药物实体类别、基因实体类别、突变实体类别以及肿瘤实体类别。

可选的,所述实体类别包括:所述实体类别包括:药物实体类别、基因实体类别、突变实体类别以及肿瘤实体类别;基于癌症精准用药本体的目标领域,创建的所述实体关系包括:对应所述基因实体类别和突变实体类别之间的突变与基因实体关系、对应所述突变实体类别和肿瘤实体类别之间的突变与肿瘤实体关系、对应所述肿瘤实体和药物实体之间的肿瘤与药物实体关系、对应所述药物实体以及基因实体关系之间的药物与基因实体关系、对应基因实体类别之间的基因实体关系、对应肿瘤细胞实体类别之间的肿瘤细胞实体关系、对应突变实体类别之间的突变实体关系以及对应药物实体类别之间的药物实体关系中的一种或多种。

可选的,如图2所示,所述本体框架包括:一或多个实体类别以及实体关系;其中,所述实体类别包括:药物实体类别、基因实体类别、突变实体类别以及肿瘤实体类别;所述实体关系包括:对应所述基因实体类别和突变实体类别之间的突变与基因实体关系、对应所述突变实体类别和肿瘤实体类别之间的突变与肿瘤实体关系、对应所述肿瘤实体和药物实体之间的肿瘤与药物实体关系、对应所述药物实体以及基因实体关系之间的药物与基因实体关系、对应基因实体类别之间的基因实体关系。

优选的,所述突变与基因实体关系包括:Has_a关系,其定义域设定为突变实体类别,值域为基因实体类别,表示生物标志物包含一个或多个基因。所述突变与肿瘤实体关系包括:Has_a关系,其定义域设定为肿瘤实体类别,值域为突变体类别,表示肿瘤实体包含一个或多个基因。所述肿瘤与药物实体关系包括:Inhibited关系,其定义域为药物实体类别,值域为肿瘤实体类别,表示药物可以抑制肿瘤细胞生长;和/或,Resistance_to关系,其定义域为肿瘤实体类别,值域为药物实体类别,表示肿瘤细胞可能对某种药物耐药;所述药物与基因实体关系包括:Inhibited关系,其定义域为药物实体类别,值域为基因实体类别,表示药物可以抑制基因活性;所述基因实体关系包括:Activating关系,其定义域和值域都为基因实体类别,表示一个基因对一个基因的作用是激活作用;和/或, Inactivating关系,其定义域和值域都为基因实体类别,表示一个基因对一个基因的作用是抑制作用。

可选的,每个实体类别还可包括一或多个子类,其对应的子类可以集成该实体类别与其他实体类别之间的实体关系。

可选的,如图3所示,所述实体类别包括:药物实体类别Drug、基因实体类别GeneSymbol、突变实体类别Biomarker以及肿瘤实体类别MeshCancerType及TumorCells;

所述突变实体类别Biomarker的类别包括:TumorCombinationIndex子类、AbnormalExpression子类、FUSMutation子类、AbnormalExpression子类、CNVMutation子类以及MutationFunction子类中的一种或多种;

其中,所述TumorCombinationIndex子类,用于表示多个生物标志物的组合评价指标,如MSI、TMB等;所述FUSMutation子类、用于表示融合基因突变,两个基因在染色体上发生融合,产生新的DNA序列,可能表达为一个包含两个基因部分序列的蛋白质;所述AbnormalExpression子类、用于表示基因或蛋白的异常表达,基因在蛋白表达层面具有高表达或低表达;所述CNVMutation子类,用于表示基因的拷贝数变化,例如基因在染色体层面具有扩增或缺失;MutationFunction子类,用于表示改变基因活性的非同义突变,基因突变导致的氨基酸突变的位置和形式都不固定,但突变对基因编码蛋白具有激活或者失活的作用,例如BRAF失活性突变(loss of function)。

且突变实体类别的每个子类分别与GeneSymbol具有突变与基因实体关系,分别与TumorCells具有突变与肿瘤实体关系。

可选的,所述MutationFunction子类包括:用于表示在特定转录本特定位置发生的氨基酸变异的MutationAAGroup子类,基因突变导致有明确氨基酸的突变位置,但具体突变形式不固定,例如BRAF p.V600;并且其中,MutationAAGroup子类包括:用于表示具有特定形式的氨基酸突变的MutationAA子类,基因突变导致有明确氨基酸突变位置和形式的基因突变,例如BRAF p.V600E。

其中,所述突变实体关系包括:对应MutationAAGroup子类与MutationAA子类之间的实体关系、对应MutationAAGroup子类与MutationFunction子类之间的实体关系以及对应MutationFunction子类与MutationAA子类的实体关系中的一种或多种。

举例来说,以上的实体关系均为is_a关系。

可选的,如图3所示,所述肿瘤实体类别包括:表示具有特定生物表示物的肿瘤细胞的TumorCells子类以及表示细胞来源的MeshCancerType子类;并且其中,所述MeshCancerType子类包括:对应肿瘤细胞来源的身体部位的BodySite子类以及对应组织来源的Histological子类;

其中,肿瘤细胞实体关系包括:Detected_from关系,其定义域为TumorCells类,值域为BodySite子类,表示肿瘤细胞存在于身体的特定部位;和/或,Originated_from关系:其定义域为TumorCells类,值域为Histological子类,表示肿瘤细胞的组织来源或细胞类型。

可选的,BodySite子类、Histological子类分别采用Medical Subject Headings(MeSH)疾病分类树中对癌症的Neoplasms by Histologic Type和Neoplasms by Site来描述,该类的定义遵从MeSH子类的原则并继承其层次关系。

可选的,每个实体类别还包括:一或多个对应实体类别设定的实体属性。

可选的,所述药物实体类别包括: Drugtradename属性、Drugchname属性以及Drugalias属性中的一种或多种;

其中,用于表示药物的同义名称的Drugtradename属性,其定义域为Drug类,值域为字符串常量;用于表示药物的中文名称的Drugchname属性,其定义域为Drug类,值域为字符串常量;用于表示药物的商品名称的Drugalias属性,其定义域为Drug类,值域为字符串常量。

可选的,所述基因实体类别包括:Hgnc_name属性,其定义域为GeneSymbo类,值域为字符串常量。唯一的转录本编号和HGNC(The HUGO Gene Nomenclature Committee)指定的标准名称,如NM_001134944.1和GHRL;和/或,GeneNmId属性,其定义域为GeneSymbo类,值域为字符串常量。

可选的,所述突变实体类别中的CNVMutation子类包括:CnvValue属性,其定义域为CNV_mutation类,值域为Gain或Loss。所述突变实体类别中的AbnormalExpression子类包括:ExpressionValue属性,其定义域为AbnormalExpression类,值域为High或Low。所述突变实体类别中的MutationFunction子类包括:Phgvs属性,其定义域为MutationFunction类,值域为字符串常量。所述突变实体类别中的TumorCombinationIndex子类包括:IndexScore的属性,用于表示该类取值的计算得分。

步骤S12:将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中,以构建癌症精准用药知识库。

可选的,依次将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中依次构建实体,基于构建的各实体以及框架中的实体关系获得构建的实体之间的关系,以获得癌症精准用药知识库。

需要说明的是,癌症精准用药知识数据可以从权威的知识数据库中获得,也可从自身收集的数据获得,再本申请中对此不作限定;例如从文献数据库中获取。

可选的,依次将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别以及设定其对应的属性,获得构建的一或多个实体;例如,将癌症精准用药知识数据中的药物实体类别的数据构建一个药物实体(drug_erlotinib),其Drugtradename属性为:Tarceva;特罗凯;Drugchname属性为:厄洛替尼;Drugalias属性为:erlotinib;OSI-744NSC;718781R1415;tarceva;特罗凯。

为了更好的描述基于领域本体的癌症用药知识库构建方法,提供一具体实施例;

实施例1:一种基于领域本体的癌症用药知识库构建方法。如图4所示,为癌症精准用药知识库的主体框架图;

本实施例采用开源Protégé软件(版本5.5.0)进行构建知识库的工作。

所述方法包括:

步骤1:确定本体的领域和范围;

癌症精准用药的本体包括的顶层概念有基因、身体部位、细胞组织类型、基因、基因突变、基因扩增、基因表达、基因融合、药物、肿瘤细胞。其中,基因突变包括具体位置点突变,如EGFR p.L858R;导致基因激活/失活的突变集合,如MET exon14 skipping;基因的热点位置,该位置任意一种类型的突变都可能导致基因功能发生变化,如KRAS G12、G13等。

步骤2:基于确定本体的领域和范围创建概念层次关系;

以“具有特定分子标记的肿瘤细胞“为核心,确定肿瘤细胞与药物、药物与基因、肿瘤细胞与肿瘤发生部位、肿瘤细胞的组织类型、基因突变的功能类别与具体突变形式之间的概念层次关系。

步骤3:基于确定本体的领域和范围,创建以下实体类别:

TumorCells类别:表示具有特定生物表示物的肿瘤细胞。MeshCancerType类别:其子类包括BodySite和Histological,分别代表肿瘤细胞来源的身体部位和组织来源。GeneSymbol类:表示具体的基因。Drug类:表示抗肿瘤药物。Biomarker类:子类TumorCombinationIndex表示多个生物标志物的组合,最终用某一种数值型或布尔型数据表示,如TMB等。FUSMutation子类表示融合基因突变。AbnormalExpression表示基因或蛋白的异常表达。CNVMutation子类表示基因的拷贝数变化。MutationFunction子类表示可以改变基因活性的非同义突变。MutationAAGroup子类表示在特定转录本特定位置发生的任一一种形式氨基酸变异。MutationAA子类表示具有特定形式的氨基酸突变。

步骤4:基于概念层次关系创建以下实体关系;

Has_a关系:其定义域(Domains)为Biomarker类,值域(Ranges)为GeneSymbol类;表示生物标志物包含一个或多个基因。Inhibited关系:其定义域为Drug类,值域为GeneSymbol类和TumorCells类;表示药物可以抑制基因活性或抑制肿瘤细胞生长。Resistance_to关系:其定义域为TumorCells类,值域为Drug类;表示肿瘤细胞可能对某种药物耐药。Detected_from关系:其定义域为TumorCells类,值域为MeshCancerType类;表示肿瘤细胞存在于身体的特定部位。Originated_from关系:其定义域为TumorCells类,值域为MeshCancerType类;表示肿瘤细胞的组织来源或细胞类型。Activating:其定义域和值域都为GeneSymbol类,表示一个基因对一个基因的作用是激活作用。

步骤5:基于创建的实体类别以及实体关系构建本体框架;

步骤6:创建实体属性;Drugtradename:其定义域为Drug类,值域为字符串常量。Drugchname:其定义域为Drug类,值域为字符串常量。Drugalias:其定义域为Drug类,值域为字符串常量。GeneNmId:其定义域为GeneSymbo类,值域为字符串常量。CnvValue:其定义域为CNV_mutation类,值域为Gain或Loss。ExpressionValue:其定义域为AbnormalExpression类,值域为High或Low。Phgvs:其定义域为MutationFunction类,值域为字符串常量。Hgnc_name:其定义域为GeneSymbo类,值域为字符串常量。

步骤7:依次将癌症精准用药知识数据中药物实体类别数据依次填入所述本体框架中对应的药物实体类别以及设定其对应的属性,获得构建的一或多个药物实体;

创建一个药物实体(drug_erlotinib),其Drugtradename属性为:Tarceva;特罗凯;Drugchname属性为:厄洛替尼;Drugalias属性为:erlotinib;OSI-744NSC;718781R1415;tarceva;特罗凯。

创建一个药物实体(drug_savolitinib),其Drugtradename属性为:沃瑞沙;Drugchname属性为:赛沃替尼;Drugalias属性为:沃利替尼;AZD6094;HMPL-504。

创建一个药物实体(drug_cetuximab),其Drugtradename属性为:Erbitux;爱必妥;Drugchname属性为:西妥昔单抗;Drugalias属性为:cetuximab;.;erbitux;爱必妥。

步骤8:依次将癌症精准用药知识数据中基因实体类别数据依次填入所述本体框架中对应的基因实体类别以及设定其对应的属性,获得构建的一或多个基因实体;

创建一个基因实体(gene_egfr),其hgnc_name属性为:EGFR;其GeneNmId属性为:NM_005228.3。

创建一个基因实体(gene_kras),其hgnc_name属性为:KRAS;其GeneNmId属性为:NM_004985.3。

创建一个基因实体(gene_met),其hgnc_name属性为:MET;其GeneNmId属性为:NM_000245.2。

步骤9:依次将癌症精准用药知识数据中突变实体类别数据依次填入所述本体框架中对应的突变实体类别以及设定其对应的属性,获得构建的一或多个突变实体;

创建一个MutationAA类实体(mut_aa_l858r),其氨基酸变异形式属性(phgvs)为:L858R;

创建一个MutationAAGroup类实体(mut_aa_G12),其氨基酸变异形式属性(phgvs)为G12;

创建一个MutationFunction类实体(mut_brca1_lof),其突变活性属性(MutEffect)为LOF;

步骤10:创建突变实体与基因的关系;

在突变实体mut_aa_l858r与基因实体gene_egfr间添加一个has_a关系,表示该突变实体发生在对应的基因实体上;在突变实体mut_aa_G12与基因实体gene_kras间添加一个has_a关系,表示该突变实体发生在对应的基因实体上。

步骤11:创建肿瘤细胞实体及其关系;

创建一个TumorCells类的肿瘤细胞实体,命名为cell_EGFR_L858R的肿瘤细胞。在肿瘤细胞cell_EGFR_L858R实体与突变实体mut_aa_l858r间添加一个has_a关系,表示该肿瘤细胞具有相关的突变。创建一个MeshCancerType类的实体,命名为Mesh_Carcinoma_Non-Sm

all-Cell_Lung。在肿瘤细胞cell_EGFR_L858R实体与Mesh_Carcinoma_Non-Small-Cell_Lung实体间添加一个Detected_from关系,表示该肿瘤细胞来自的肿瘤类型。

步骤12:创建肿瘤细胞实体及其关系;

在基因实体gene_egfr与基因实体gene_kras间添加一个activating关系。该知识库的文本描述为:基因实体gene_egfr通过激活基因实体gene_kras的活性发挥生物学功能。

步骤13:创建药物实体与基因的关系;

在药物实体drug_erlotinib与基因实体gene_egfr间添加一个inhibited关系。该知识的文本描述为:药物实体drug_erlotinib在体外实验中证实可以抑制基因实体gene_egfr编码的蛋白质活性。

步骤14:创建肿瘤细胞实体与药物实体的关系;

在肿瘤细胞实体cells_EGFR_L858R与药物实体drug_erlotinib间添加一个inhibited关系。该知识的文本描述为:实体cells_EGFR_L858R是一个来自非小细胞肺癌(Mesh_Carcinoma_Non-Small-Cell_Lung)的携带mut_aa_l858r突变实体的特定肿瘤细胞。药物实体drug_erlotinib可以抑制肿瘤细胞实体cell_EGFR_L858R的生长。

步骤15:获得并输出癌症精准用药知识库。

与上述实施例原理相似的是,本发明提供一种基于领域本体的癌症用药知识库构建系统。

以下结合附图提供具体实施例:

如图5展示本发明实施例中的一种基于领域本体的癌症用药知识库构建系统的结构示意图。

所述系统包括:

框架获取模块51,用于获取由创建的与癌症精准用药本体的目标领域相关的本体框架;其中,所述本体框架包括:一或多个实体类别以及实体关系;

知识库构建模块52,连接所述框架获取模块51,用于将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中,以构建癌症精准用药知识库;

其中,所述实体类别包括:药物实体类别、基因实体类别、突变实体类别以及肿瘤实体类别;所述实体关系包括:对应所述基因实体类别和突变实体类别之间的突变与基因实体关系、对应所述突变实体类别和肿瘤实体类别之间的突变与肿瘤实体关系、对应所述肿瘤实体和药物实体之间的肿瘤与药物实体关系、对应所述药物实体以及基因实体关系之间的药物与基因实体关系、对应基因实体类别之间的基因实体关系、对应肿瘤细胞实体类别之间的肿瘤细胞实体关系、对应突变实体类别之间的突变实体关系以及对应药物实体类别之间的药物实体关系中的一种或多种。

需说明的是,应理解图5系统实施例中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现;

例如各模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

因此,由于该基于领域本体的癌症用药知识库构建系统的实现原理已在前述实施例中进行了叙述,因此此处不作重复赘述。

可选的,所述知识库构建模块52用于依次将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别以及设定其对应的属性,获得构建的一或多个实体。

可选的,每个实体类别还包括:一或多个对应实体类别设定的实体属性。

可选的,所述药物实体类别包括: Drugtradename属性、Drugchname属性以及Drugalias属性中的一种或多种;

其中,用于表示药物的同义名称的Drugtradename属性,其定义域为Drug类,值域为字符串常量;用于表示药物的中文名称的Drugchname属性,其定义域为Drug类,值域为字符串常量;用于表示药物的商品名称的Drugalias属性,其定义域为Drug类,值域为字符串常量。

可选的,所述基因实体类别包括:Hgnc_name属性,其定义域为GeneSymbo类,值域为字符串常量。唯一的转录本编号和HGNC(The HUGO Gene Nomenclature Committee)指定的标准名称,如NM_001134944.1和GHRL;和/或,GeneNmId属性,其定义域为GeneSymbo类,值域为字符串常量。

可选的,所述突变实体类别中的CNVMutation子类包括:CnvValue属性,其定义域为CNV_mutation类,值域为Gain或Loss。所述突变实体类别中的AbnormalExpression子类包括:ExpressionValue属性,其定义域为AbnormalExpression类,值域为High或Low。所述突变实体类别中的MutationFunction子类包括:Phgvs属性,其定义域为MutationFunction类,值域为字符串常量。所述突变实体类别中的TumorCombinationIndex子类包括:IndexScore的属性,用于表示该类取值的计算得分。

如图6展示本发明实施例中的基于领域本体的癌症用药知识库构建终端60的结构示意图。

所述基于领域本体的癌症用药知识库构建终端60包括:存储器61及处理器62;所述存储器61用于存储计算机程序;所述处理器62运行计算机程序实现如图1所述的基于领域本体的癌症用药知识库构建方法。

可选的,所述存储器61的数量均可以是一或多个,所述处理器62的数量均可以是一或多个,而图6中均以一个为例。

可选的,所述基于领域本体的癌症用药知识库构建终端60中的处理器62会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器61中,并由处理器62来运行存储在第一存储器61中的应用程序,从而实现如图1所述基于领域本体的癌症用药知识库构建方法中的各种功能。

可选的,所述存储器61,可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备;所述处理器62,可能包括但不限于中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的,所述处理器62可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供计算机可读存储介质,存储有计算机程序,所述计算机程序运行时实现如图1所示的基于领域本体的癌症用药知识库构建方法。所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。

综上所述,本发明基于领域本体的癌症用药知识库构建方法、系统及终端,获取由创建的与癌症精准用药本体的目标领域相关的包括实体类别以及实体关系的本体框架;将癌症精准用药知识数据按照其所属的实体类别依次填入所述本体框架中对应的实体类别中,以构建癌症精准用药知识库,本发明通过确定“癌症精准用药”本体的领域和范畴,并以“特定生物标志物的肿瘤细胞”为核心概念来构建本体框架,融合领域相关的概念、术语及其逻辑关系,最终形成一个具有问题分析、逻辑推理能力的癌症精准用药本体知识库。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号