首页> 中国专利> 一种脑卒中病因靶向生物标志物数据库构建方法和装置

一种脑卒中病因靶向生物标志物数据库构建方法和装置

摘要

本公开涉及一种脑卒中病因靶向生物标志物数据库构建方法和装置,其中,方法包括:接收脑卒中致病病因学生物标志物和药物关系的原始数据文献;对原始数据文献进行筛选,获取目标数据文献;根据目标数据文献建立数据文件,数据文件包括脑卒中病因学生物标志物数据表、药物数据表以及生物标志物‑药物关系数据表并存储;其中,每个数据表各自含有多个字段,脑卒中病因学生物标志物数据表和药物数据表分别与脑卒中病因学生物标志物‑药物关系数据表有相同字段,每个数据表包含依据各自包含的每个字段建立的索引。由此,构建的数据库信息准确可靠、规范标准,利于信息传递以及数据库的管理,能够用于解读通过各种方式获取脑卒中生物标志物信息。

著录项

说明书

技术领域

本公开涉及医疗数据库技术领域,尤其涉及一种脑卒中病因学靶向生物标志物数据库构建方法和装置。

背景技术

目前,在测序技术的发展及循证医学的推动下,基因组学、表达谱等生物信息领域与医学领域交叉越来越密切。脑卒中的诊断和治疗方案不再是完全依赖传统的表观判断,更多的是通过检测基因变化提供更可靠的证据。

相关技术中,大批的科研人员及机构投入到药物与基因组学的研究中,大量的实验证据产出为基因组变化与药物关系提供了有力的支持。而精准医疗个体化治疗正是在这些大量的研究数据上建立起来的,为了使药物在临床治疗中更好的发挥作用,减少不良反应的发生,给患者提供最佳的药物使用方案,根据患者的个体基因型的差异“量体裁衣”,选择特异和最佳的药物方案进行治疗。个体化治疗帮助患者选择合适的药物,提高治疗的针对性,最大程度的延长患者的生存期。这类基因检测在临床上的应用,是实现现行医疗模式转变的有效手段。同时必将大大促进临床合理用药的发展进程,为医药学事业的发展做出贡献。

因此,数据库是信息管理最有效的手段,因此脑卒中病因学靶向生物标志物数据库分析平台是个体化治疗知识信息管理的重要信息传递的方法。

然而,有一些相关的数据库,提供的信息并不是很全面。另外这些数据库对基因,药物的名称,生物标志物信息,生物标志物-药物的关系,参考资料都没有统一规范的标准,这对参考数据源可靠性,及信息传递及管理带来很大问题。导致数据库并不太适用于测序检测得到的生物标志物信息对应药物关系的直接解读。

发明内容

为了解决上述技术问题或者部分地解决上述技术问题,本专利公开提供了一种脑卒中病因靶向生物标志物数据库构建方法,解决了脑卒中生物标志物信息关联度不高,新生物标志物挖掘困难,且无专门的储存,上传,挖掘的平台的问题。

本公开第一方面实施例提出了一种脑卒中病因靶向生物标志物数据库构建方法,包括:

接收脑卒中致病病因学生物标志物和药物关系的原始数据文献;

对所述原始数据文献进行筛选,获取目标数据文献;

根据所述目标数据文献建立数据文件,所述数据文件包括脑卒中生物标志物数据表、药物数据表以及生物标志物-药物关系数据表并存储;其中,每个数据表各自含有多个字段,所述脑卒中生物标志物数据表和所述药物数据表分别与所述脑卒中生物标志物-药物关系数据表有相同字段,所述每个数据表包含依据各自包含的每个字段建立的索引。

在本公开的一个实施例中,所述对所述原始数据文献进行筛选,获取目标数据文献包括:

确定第一参数,根据所述第一参数对所述原始数据文献进行第一筛选,获取第一目标数据文献;其中,所述第一参数是通过统计所述原始数据文献中包含的第一关键词组合中各关键词出现的次数N来设置的,所述第一关键词组合包含以下四个预置词汇集中的每个预置词汇集中的至少一个词汇:预置的脑卒中致病病因名称词汇集、预置的脑卒中生物标志物词汇集、预置的药物和治疗方法词汇集、以及预置的药效或治疗效果词汇集;

确定第二参数,根据所述第二参数对剩余的所述原始数据文献进行第二筛,获取第二目标数据文献,所述第二参数是通过统计所述原始数据文献中包含的第二关键词组合中各关键词出现的次数Μ来设置的,所述第二关键词组合包含以下五个预置词汇集中的每个预置词汇集中的至少一个词汇:预置的脑卒中致病病因词汇集、预置的脑卒中生物标志物词汇集、预置的药物和治疗方法词汇集、预置的药效或治疗效果词汇集以及预置的期刊词汇集,所述第二关键词组合包含所述第一关键词组合中的每个关键词;其中,M和N为两个自然数集合,对于同一关键词i,M

在本公开的一个实施例中,所述的脑卒中病因靶向生物标志物数据库构建方法,还包括:

以NCBI数据库中包含的基因表示为标准转换所述原始数据文献中的基因名称,以人类参考基因组HG19版本为标准转换所述原始数据文献中的脑卒中生物标志物基因变异的类型及位置。

在本公开的一个实施例中,所述脑卒中生物标志物数据表与所述脑卒中生物标志物-药物关系数据表的相同字段是所述脑卒中生物标志物数据表的主键;

所述药物数据表与所述脑卒中生物标志物-药物关系数据表的相同字段是所述药物数据表的主键;其中,数据表的主键为唯一标识其所在数据表中的一个记录的一个或多个字段的组合。

在本公开的一个实施例中,所述数据文件还包括:

脑卒中生物标志物信息数据表、信息原始来源数据表和样本信息数据表;其中,所述脑卒中生物标志物信息数据表与所述脑卒中生物标志物数据表有相同字段,所述信息原始来源数据表与所述脑卒中生物标志物-药物关系数据表有相同字段,所述样本信息数据表与所述脑卒中生物标志物数据表有相同字段。

在本公开的一个实施例中,所述脑卒中生物标志物信息数据表与所述脑卒中生物标志物数据表的相同字段为所述脑卒中生物标志物信息数据表的主键,所述信息原始来源数据表与所述脑卒中生物标志物-药物关系数据表的相同字段为所述信息原始来源数据表的主键,所述样本信息数据表与所述脑卒中生物标志物数据表的相同字段为所述样本信息数据表的主键。

在本公开的一个实施例中,所述的脑卒中病因靶向生物标志物数据库构建方法,还包括:

接收脑卒中生物标志物和药物关系的更新数据;

根据所述更新数据更新所述数据文件。

在本公开的一个实施例中,在根据所述更新所述数据文件之前,还包括:

对所述更新数据进行过滤,所述过滤包括第一过滤和第二过滤,所述第一过滤为将更新数据中的每条数据的脑卒中致病病因学信息、脑卒中生物标志物类型、药物名称和治疗方法、以及治疗效果描述分别与预置的病因学分类词汇集、预置的脑卒中生物标志物词汇集、预置的药物和治疗方法词汇集以及预置的药效或治疗效果词汇集比对,完全匹配上的数据保留至第一数据集,匹配上所述四个预置词汇集中的三个的数据保留至第二数据集,删除其它的更新数据;所述第二过滤为将所述第二数据集数据的每条数据的期刊名称与预置的期刊词汇集比对,将完全匹配上的第二数据集中的数据归到第一数据集,删除其它的第二数据集数据。

在本公开的一个实施例中,包括前述实施例所构建的脑卒中病因靶向生物标志物数据库,包括:

接收用户检索需求;

根据所述用户检索需求在所述脑卒中病因靶向生物标志物数据库中进行数据特征匹配,获取匹配结果并输出。

在本公开的一个实施例中,包括前述实施例所构建的脑卒中病因靶向生物标志物数据库,包括:

获取用户提交的待检索序列,利用同源性比对方式根据所述待检索序列在数据库中进行搜索比对,获取标准同源性比对格式的比对结果;其中,所述数据库为已构建的已知脑卒中病因学靶向生物标志物序列的本地数据库;

分析所述比对结果,获取记录脑卒中病因靶向生物标志物序列的特征值数据的信息文件;

对所述脑卒中病因靶向生物标志物序列进行筛选和分类,并以所述脑卒中病因靶向生物标志物序列对应的特征值作为数据项标识建立脑卒中病因靶向生物标志物序列的数据库。

本公开第二方面实施例提出了一种脑卒中病因靶向生物标志物数据库构建装置,包括:

数据接收单元,用于接收脑卒中致病病因学生物标志物和药物关系的原始数据文献;

筛选单元,用于对所述原始数据文献进行筛选,获取目标数据文献;

构建单元,用于根据所述目标数据文献建立数据文件,所述数据文件包括脑卒中生物标志物数据表、药物数据表以及生物标志物-药物关系数据表;其中,每个数据表各自含有多个字段,所述脑卒中生物标志物数据表和所述药物数据表分别与所述脑卒中生物标志物-药物关系数据表有相同字段,所述每个数据表包含依据各自包含的每个字段建立的索引;

存储单元,用于存储所述数据文件。

本公开实施例提供的技术方案与现有技术相比具有如下优点:

能够提供全面的脑卒中生物标志物与药物关系的信息,而且对原始数据进行筛选及统一标准处理,使得所得的数据库信息准确可靠、规范标准,利于信息传递以及数据库的管理,能够用于解读通过各种方式得来的脑卒中生物标志物信息以及查获药物与脑卒中生物标志物的关系信息。以及利用本公开的数据库更新方法,能够自动将后续收集到的各种文献资料加入到已构建的数据库中,使数据库的数据得到不断或定期补充修正。本系统还提供上传功能,任何研究人员都可以通过上传功能将未包含的数据提交到本数据库中。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例所述脑卒中病因靶向生物标志物数据库构建方法的流程示意图;

图2为本公开实施例构建的数据库结构ER图;

图3为本公开实施例所述的基于脑卒中病因靶向生物标志物数据库的检索流程图;

图4为本公开实施例所述的基于脑卒中病因靶向生物标志物数据库的检索界面图;

图5为本公开实施例所述的脑卒中病因靶向生物标志物序列的检索结果示意图;

图6为本公开实施例所述的脑卒中病因靶向生物标志物数据库构建装置的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。

本公开构建的脑卒中病因靶向生物标志物数据库为基于数据库的使用需要设计数据库,构造最优化的数据库模式,建立数据库及其调用平台,满足数据库上下游数据的调用,有效的存储数据,数据库信息的挖掘和更新机制,最终实现用户的信息要求使用和处理。

图1为本公开实施例所述脑卒中病因靶向生物标志物数据库构建方法的流程示意图。

如图1所示,该脑卒中病因靶向生物标志物数据库构建方法包括:

步骤101,接收脑卒中致病病因生物标志物和药物关系的原始数据文献。

在本公开实施例中,所说的数据表的字段为数据表包含的列,每列即为数据表的一个字段,数据表的一行为一个记录,所说的索引实际上也是数据库中一种特殊类型的表,其中,含有关键字段的值(可以由用户定义)和指向实际记录位置的指针,这些值和指针按照特定的顺序(也可以由用户定义)存储,从而可以以较快的速度查找到所需要的数据记录。

在本公开实施例中,选定原始数据文献可以来源为PubMed(一个提供生物医学方面的论文搜寻以及摘要,并且免费搜寻的数据库)文献信息,为考虑数据来源的可靠性,支持信息皆为已发表文献,比如文献来源均为NCBI(National Center of BiotechnologyInformation)PubMed数据库。

具体地,通过PubMed的导出功能下载txt(文本文档)格式文档,此文档数据包括期刊信息、标题、作者及作者信息、研究机构、摘要、著作权、PMID(PubMed文献的ID(Identitydocument,账号))。接着,选取与卒中相关的重要致病病因基因列表,通过PubMed的搜索功能筛选此脑卒中致病病因生物标志物与药物相关文献,通过收集调研,从各种公开报道信息中收集了与精准医疗相关的脑卒中致病病因基因集。这些脑卒中致病病因基因与精准医疗临床治疗,高频突变及机制通路相关。将这些收集的脑卒中致病病因基因按一定的搜索条件通过PubMed的搜索功能筛选此脑卒中致病病因学生物标志物与药物相关文献。

进一步地,从命中篇目中挑选出可录入数据的文章,设定数据库文章的录入标准如下,必需包含:(1)文章中有此脑卒中致病病因基因的变异信息,变异包括核苷酸变异,单核苷酸多态性,脑卒中致病病因基因插入缺失,拷贝数变异,脑卒中致病病因基因融合这6种情况;(2)此种脑卒中致病病因生物标志物有对应的药物治疗或反应,药物包括靶向药物,化疗药物,激素药物,抗体药物,放疗药物,疫苗等,在文章中的药物名称可为已命名的药物名,也可为研发阶段的药物编号;(3)在文章中此项研究与某种疾病分类相关,包括该种病因疾病的临床实验,组织回顾性研究,动物体内实验或体外细胞实验等;(4)脑卒中致病病因生物标志物与药物有明确的作用关系。

其中,药物关系包括:药物敏感,药物抗性,有反应,无反应等。

因此,可以看出根据本公开的这一方法构建的数据库包含脑卒中致病病因生物标志物类型多,构建的数据库收集的脑卒中致病病因基因的变异信息包含了目前DNA(Deoxyribo Nucleic Acid,脱氧核糖核酸),RNA(Ribonucleic Acid,核糖核酸)检测的多种变异类型,包括了核苷酸/氨基酸位点突变,核苷酸/氨基酸的插入缺失,脑卒中致病病因基因的拷贝数变异,单核苷酸或脑卒中致病病因基因的多态性,脑卒中致病病因基因融合,脑卒中致病病因基因表达量差异等。覆盖实验研究的全部脑卒中致病病因基因的变异信息。不同脑卒中致病病因生物标志物还详细记录了变异程度,如拷贝数变异的比率、表达量差异的程度。

基于目前实验研究的有一些脑卒中致病病因基因表达量的变化是基于蛋白表达水平检测的,将这类数据也收录数据库,同时对检测方法信息也做了详细记录。这些脑卒中致病病因生物标志物类型、检测类型及变异范围的信息在最大程度上反映了药物试验适用范围,为个体化治疗检测的脑卒中致病病因生物标志物类型提供了全面信息支持,使用者参照此信息能做出最合适的判断。也可以看出,根据本公开的这一实施方式构建的数据库包含的药物种类全面,药物的信息包含了各个权威机构比如FDA(Food and DrugAdministration,食品药品监督管理局)等已批准药物等多个数据来源,同时通过治疗方法等词汇补充进行搜索,使数据库收集的药物涵盖了靶向、化疗、激素、疫苗、放疗及代谢等多种类型。数据包括了FDA批准药物,临床实验药物及还未进入临床的实验药物的信息。数据库中的药物信息可以涵盖目前研究的所有药物类型。还有构建得的数据库适应疾病种类多,数据库通过Clinicaltrials数据库,及NCBI MESH的疾病词汇同义词,致病病因词汇词库等多个致病病因词汇的搜索能够收集目前所有脑卒中致病病因生物标志物与用药关系的信息,其中还包括一些罕见或是研究稀少的致病病因信息。一旦有这些致病病因信息的发布,数据库自动化更新流程就能将这些研究数据收集起来。

步骤102,对原始数据文献进行筛选,获取目标数据文献。

在本公开实施例中,对原始数据文献进行筛选,获取目标数据文献的方式有很多种,可以根据需要选择设置,比如设置关键词等方式进行过滤筛选,也可以进行一次或者多次筛选。

作为一种可能实现方式,确定第一参数,根据第一参数对原始数据文献进行第一筛选,获取第一目标数据文献;其中,第一参数是通过统计原始数据文献中包含的第一关键词组合中各关键词出现的次数N来设置的,第一关键词组合包含以下四个预置词汇集中的每个预置词汇集中的至少一个词汇:预置的脑卒中致病病因名称词汇集、预置的脑卒中生物标志物词汇集、预置的药物和治疗方法词汇集、以及预置的药效或治疗效果词汇集;确定第二参数,根据第二参数对剩余的原始数据文献进行第二筛,获取第二目标数据文献,第二参数是通过统计原始数据文献中包含的第二关键词组合中各关键词出现的次数Μ来设置的,第二关键词组合包含以下五个预置词汇集中的每个预置词汇集中的至少一个词汇:预置的脑卒中致病病因词汇集、预置的脑卒中生物标志物词汇集、预置的药物和治疗方法词汇集、预置的药效或治疗效果词汇集以及预置的期刊词汇集,第二关键词组合包含第一关键词组合中的每个关键词;其中,M和N为两个自然数集合,对于同一关键词i,M

其中,第一目标数据文献和第二目标文献可以作为获取的目标数据文献。

在本公开实施例中,第一参数也称为严格参数,第二参数也成为宽松参数,通过严格参数筛选原始数据文献得到敏感度相对高的第一步结果,将未被第一筛选筛选出的原始数据文献进行宽松筛选得到第二步结果。依据上述说的录入标准对经第一和第二筛选筛选出的数据进行录入。

在本公开实施例中,上述的各个预置词汇集是通过收集已知数据库、文献中的名称,包括统称命名的、全称、简称、同义词及其它符号代码等书写方式来获得的。比如预置的病因类型名称词汇集:包括各种病因学的全称,简称及其他书写方式。同时也包括病因统称的各种命名。病因学参数的范围来自于收集文献中病因、Clinical trials数据库中的病因、PubMed MESH中的病因等;预置的脑卒中致病病因生物标志物词汇集包括脑卒中致病病因基因碱基及氨基酸变异,单核苷酸或脑卒中致病病因基因多态性,脑卒中致病病因基因拷贝数,脑卒中致病病因基因插入缺失,脑卒中致病病因基因融合,脑卒中致病病因基因表达量相关的变异类型;药物及治疗方法:包括已批准的药物名称(含商品名),研发阶段的药物名称或代号,一种抑制剂或拮抗剂的总称及疾病治疗方法;预置的药物和治疗方法词汇集包括脑卒中致病病因生物标志物对应药物的药效,包括脑卒中致病病因基因是否反应,细胞是否减少,药物敏感,药物抗性,生存期等词汇;预置的期刊词汇集包含与疾病研究相关的专门期刊,包含疾病研究的大型或综合期刊,期刊名称按PubMed数据库的期刊名整理。

在本公开实施例中,原始数据文献,可以是指用少数关键词比如疾病名称、脑卒中致病病因基因名称等在一个或多个数据库检索收集的文献,将这些文献的标题、期刊、作者、摘要信息提出建立词频统计表。

具体地,将文献按NCBI PubMed下载模式重新整理成txt文档。将这些文献标题、摘要的内容建立词汇频率表,词汇频率包括每个词汇总共出现的次数及出现文章的数目。审核词汇频率表中出现的次数(至少要在一篇文章中出现),筛选出各个预置词汇集的词频参数范围。

在本公开实施例中,也同时统计Clinicaltrials数据库内容,补充预置疾病名称词汇集调整其参数范围。具体地,参考Clinicaltrials.gov网站中"Condition ordisease"的"Cerebrovascular accident""Stroke"的病因学疾病类型,和/或统计PubMedMESH查询"Cerebrovascular accident""Stroke"同类词汇,补充该预置疾病词汇集及调整其参数范围。

在本公开实施例中,预置的疾病名称词汇集第一参数范围是词频大于5且出现的文章的数目大于2或者词频大于5且在所参考的网站或数据库出现的次数大于1,第二参数范围是词频大于1且出现的文章的数目大于1或者词频大于5且在所参考的网站或数据库出现的次数大于等于1。

在本公开实施例中,统计Drugbank数据库的药物信息(不包含治疗并发症药物),和/或Clinicaltrials数据库,和/或FDA批准的药物信息,补充预置的药物及治疗方法词汇集及调整其第一参数和第二参数的参数范围。

在本公开实施例中,预置的药物及治疗方法词汇集的第一参数范围是词频大于5且出现的文章的数目大于2或者词频大于5且在所参考的网站或数据库出现的次数大于1,第二参数范围是词频大于1且出现的文章的数目大于1或者词频大于5且在所参考的网站或数据库出现的次数大于等于1。

需要说明的是,为了进一步提高后续数据检索的准确性,在公开的一种可能实现方式中,以NCBI基因数据库中包含的基因表示为标准转换原始数据文献中的基因名称,以人类参考基因组HG19版本为标准转换原始数据文献中的脑卒中生物标志物基因变异的类型及位置。

在本公开实施例中,以NCBI基因数据库中包含的基因表示为标准转换原始数据文献中的基因名称包括将核苷酸或氨基酸点突变或插入缺失、表达量变异,拷贝数变异及基因融合变异信息内容统一规范化处理,比如以人类参考基因组HG19版本为标准转换所述初始数据中的基因变异的类型及位置信息,其中,基因组也可根据需要选择不同版本,默认基因组版本为UCSC人类基因组的HG19。

在本公开的实施例中,所说的数据格式转换还包括:将录入的文献中的表达量变化信息转换为与信息分析结果对应的标准描述;和/或将录入的文献中的拷贝数变异信息转换为与信息分析结果对应的标准描述,比如拷贝数变异的信息分析结果为疾病细胞中脑卒中致病病因基因拷贝数与正常细胞脑卒中致病病因基因拷贝数的比值,可通过自动化流程或脚本将文章中的疾病细胞脑卒中致病病因基因拷贝数值统一换算为为疾病细胞与正常细胞脑卒中致病病因基因拷贝数的比值;和/或将录入文献中的脑卒中致病病因学生物标志物用药效果的原文信息转换为与解读流程直接对应的标准描述,比如文章中的描述通常为一段详细的描述,将具有"Dood outcome"(结果好),"Long survival"(生存期长)/"Dood prognesis"(预后好)/"Sensitive"(敏感)/"Good response"(反应好)一类的信息转换成药效好的描述"变异阳性敏感"及其标识符号"S";将具有"Bad outcome"(结果不好)/"Short survival"(生存期短),"Bad prognesis"(预后不好),"Resistant"(耐药),"Toxicity"(具有毒性),"Bad response"(反应不好)一类的信息转换成用药效不好的描述"变异阳性耐药"及其标识符号"R"。解读流程通过"S"和"R"来判断,给出对应的结果"变异阳性敏感"及"变异阳性耐药"。

上述的各种格式或标准化可以借助自然语言处理编写脚本实现,可以理解,可将上述数据格式转化过程的全部或部分过程通过程序或脚本来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。

根据本公开的这一方法的各种实施方式对数据库各类信息有统一规范的录入标准,可供各类检测数据直接调用。此数据库通过原始检测的位置信息转换成统一脑卒中致病病因基因组版本的标准位置信息,及检测变异的标准描述信息。这些信息的转换有利于基于脑卒中致病病因基因组检测的变异信息的直接对应,减少中间环节的误差。对药效等其他描述性信息,则同时记录了原始信息及统一标准的表述信息,这些标准化的描述信息则有利于信息的直接输出和调用。

步骤103,根据目标数据文献建立数据文件,数据文件包括脑卒中生物标志物数据表、药物数据表以及生物标志物-药物关系数据表并存储;其中,每个数据表各自含有多个字段,脑卒中生物标志物数据表和药物数据表分别与脑卒中生物标志物-药物关系数据表有相同字段,每个数据表包含依据各自包含的每个字段建立的索引。

需要说明的是,将文献信息录入数据库,每种变异类型的条目信息有对应编号及状态,录入时自动生成流水编号及状态。对数据库内容更新时,条目状态依据需要改变,信息则保留。由此,可以得到一个具有可靠信息来源,信息条目(记录)全面,拥有标准的录入格式的数据库,极大提高对数据信息的合理、全面、准确以及适用性。面对飞速发展的脑卒中致病病因基因检测技术,它能实现快速、高效率、准确的给个体化卒中治疗提供有效的解读信息。

其中,每个数据表包含依据各自包含的每个字段建立的索引可以理解为脑卒中生物标志物数据表、药物数据表以及脑卒中生物标志物-药物关系数据表的每一个分别含有索引,索引是基于相应的数据表中所包含的每个字段确定的。

在本公开实施例中,脑卒中生物标志物数据表与脑卒中生物标志物-药物关系数据表的相同字段是脑卒中生物标志物数据表的主键;药物数据表与脑卒中生物标志物-药物关系数据表的相同字段是药物数据表的主键;其中,数据表的主键为唯一标识其所在数据表中的一个记录的一个或多个字段的组合。

在本公开实施例中,脑卒中生物标志物信息数据表与脑卒中生物标志物数据表的相同字段为脑卒中生物标志物信息数据表的主键,信息原始来源数据表与脑卒中生物标志物药物关系数据表的相同字段为信息原始来源数据表的主键,样本信息数据表与脑卒中生物标志物数据表的相同字段为样本信息数据表的主键。

在本公开的一个具体实施方式,脑卒中致病病因生物标志物数据表与脑卒中致病病因生物标志物-药物关系数据表的相同字段是脑卒中致病病因生物标志物数据表的主键,药物数据表与脑卒中致病病因生物标志物-药物关系数据表的相同字段是药物数据表的主键,数据表的主键为能够唯一标识其所在数据表中的一个记录的一个或多个字段的组合。数据表中的一行为一个记录。

作为一种示例,数据库中的数据表之间通过主键与外键形成关系得以关联,对于A表、B表和共同字段C,若C是B表的主键,则称C为A表的外键。

图2为本公开实施例构建的数据库结构ER图。ER图也称实体-联系图(EntityRelationship Diagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。在图2中,在一个数据表中,钥匙标识的是主键,黑点标识的是外键,用以关联主键的表。没有外键的表一般是边缘端的,即处在表关系中的末端。

如图2所示,在本公开实施例中,数据文件还包括:脑卒中生物标志物信息数据表、信息原始来源数据表和样本信息数据表;其中,信息原始来源数据表与脑卒中生物标志物-药物关系数据表有相同字段,样本信息数据表与脑卒中生物标志物数据表有相同字段。

在本公开的一个具体实施方式中,脑卒中致病病因基因信息数据表与脑卒中致病病因生物标志物数据表的相同字段是脑卒中致病病因基因信息数据表的主键,信息原始来源数据表与脑卒中致病病因生物标志物-药物关系数据表的相同字段是所述信息原始来源数据表的主键,样本信息数据表与脑卒中致病病因生物标志物数据表的相同字段是所述样本信息数据表的主键。这边所说的某表的主键同时也是具有该相同字段的数据表的外键,该数据库中的各个数据表之间通过相同字段,或键和外键得以关联,建立联系。

在本公开的一个具体实施方式中,利用MySQL软件进行数据库组建,每个数据表的主键自动形成索引。

在本公开实施例中,脑卒中生物标志物数据表和或脑卒中生物标志物信息数据表中包含但不限于以下脑卒中生物标志物的记录:hs-CRP、C1q、I-CAM-1、MMPS、Lp-PLA2、IL-2、MCP-1、CD40L、VCAM-1、PIGF、MPO、ApoE、ApoA、ApoB、CETP、GALNT2、ABCA1、PLA2G7、PAI1、t-PA、FIB fibrillin、PLA2G2A、PLAUR、PLAU、F9、F5、F7、F3、F2、F12、F11、F13A1、F13B、F3、F5、THBD、miR-7、miR-211、miR-222、miR-126、miR-143、miR-145、rs2383206、rs10757274、rs7014968、rs6007897、ADMA、MMP、S100B、NR2Ab、NR2、GFAP、ALXDRD、PARK7、DJ-1、GATD2、HRL-S-67p、NDKA、ApoC1、ApoC3、NPPB、FABP、BDNF、MBP、NSE、D-dimer、von Willebrandfactor、ENO2、VWF、VWD、F8VWF等中的一种或者多种。可以根据构建的数据库可以确定脑卒中生物标志物与药物关系中的用途。

由此,能够提供全面的脑卒中生物标志与药物关系的信息,而且对原始数据进行筛选及统一标准处理,使得所得的数据库信息准确可靠、规范标准,利于信息传递以及数据库的管理,能够用于解读通过各种方式得来的脑卒中生物标志物信息以及查获药物与脑卒中生物标志物的关系信息。

为了能够自动将后续收集到的各种文献资料加入到已构建的数据库中,使数据库的数据得到不断或定期补充修正,在本公开一个可能实现方式中,接收脑卒中生物标志物和药物关系的更新数据,根据更新数据进行更新数据文件。

也就是说,接收脑卒中生物标志物和药物关系的更新数据;将更新数据辨识为原始数据文献的副本;修改数据文件中的记录,以便包含更新数据。

具体地,为了进一步提高数据的准确性,对更新数据进行过滤,过滤包括第一过滤和第二过滤,第一过滤为将更新数据中的每条数据的脑卒中致病病因、脑卒中生物标志物类型、药物名称和治疗方法、以及治疗效果描述分别与预置的疾病词汇集、预置的脑卒中生物标志物词汇集、预置的药物和治疗方法词汇集以及预置的药效或治疗效果词汇集比对,完全匹配上的数据保留至第一数据集,匹配上所述四个预置词汇集中的三个的数据保留至第二数据集,删除其它的更新数据;第二过滤为将第二数据集数据的每条数据的期刊名称与预置的期刊词汇集比对,将完全匹配上的第二数据集中的数据归到第一数据集,删除其它的第二数据集数据。

在本公开实施例中,针对前述构建的脑卒中病因靶向生物标志物数据库,还可以接收用户检索需求,根据用户检索需求在脑卒中病因靶向生物标志物数据库中进行数据特征匹配,获取匹配结果并输出。

因此,数据库系统包含的数据库能够提供脑卒中生物标志物与药物关系信息,比如图3所示可以通过应用程序接口接收用户检索需求及反馈结果;构建的数据库用于对来自应用程序接口的用户检索需求数据特征进行匹配,将匹配结果输出至应用程序接口,以及在本公开实施例中,还可以在接收用户检索需求后,利用访问控制列表对所述用户检索需求信息进行检查以控制访问。

作为一种应用场景举例,如图4所示,在搜索框输入用户检索需求,构建的数据库用于对来自应用程序接口的用户检索需求数据特征进行匹配,将匹配结果输出至应用程序接口显示在图4所示的界面中,需要说明的是,图4中的匹配结果显示仅仅以“LLA”为关键词进行搜索为例进行显示,还可以根据应用需要选择输入关键词进行搜索并显示对应的匹配结果。

在本公开实施例中,针对前述构建的脑卒中病因靶向生物标志物数据库,还可以获取用户提交的待检索序列,利用同源性比对方式根据待检索序列在数据库中进行搜索比对,获取标准同源性比对格式的比对结果;其中,数据库为已构建的已知脑卒中病因靶向生物标志物序列的本地数据库;分析比对结果,获取记录脑卒中病因靶向生物标志物序列的特征值数据的信息文件;对脑卒中病因靶向生物标志物序列进行筛选和分类,并以脑卒中病因靶向生物标志物序列对应的特征值作为数据项标识建立脑卒中病因靶向生物标志物序列的数据库。

具体地,(1)在计算机系统中构建脑卒中病因靶向生物标志物核酸/蛋白质序列的本地数据库;(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST(Basic LocalAlignment Search Tool,基本局部相似性比对搜索工具))格式的比对结果;(3)使用Bioperl中的SeqIO模块分析比对结果,获取记录脑卒中病因靶向生物标志物核酸/蛋白质特征值数据的信息文件;(4)去除冗余数据;(5)将相邻匹配的核苷酸序列连接,再用FASTA(Basic Local Alignment Search Tool)程序的Smith-Waterman算法进行最优化匹配,完成对脑卒中病因靶向生物标志物核酸/蛋白质的筛选和分类。

作为一种场景举例,在计算机系统中构建已知脑卒中病因靶向生物标志物序列的本地数据库:本实施例中脑卒中病因靶向生物标志物序列的数据主要是利用同源性比对(BLAST等程序)对可能编码已知脑卒中病因靶向生物标志物序列进行搜索和收集。

其中以C反应蛋白氨基酸序列为例数据库(CRPp.fasta)格式为:

>NP_001315986.1C-reactive protein isoform 1precursor[Homo sapiens]

MEKLLCFLVLTSLSHAFGQTDMSRKAFVFPKESDTSYVSLKAPLTKPLKAFTVCLHFYTELSSTRGYSIF

SYATKRQDNEILIFWSKDIGYSFTVGGSEILFEVPEVTVAPVHICTSWESASGIVEFWVDGKPRVRKSLK

KGYTVGAEASIILGQEQDSFGGNFEGSQSLVGDIGNVNMWDFVLSPDEINTIYLGGPFSPNVLNWRALKY

EVQGEVFTKPQLWP。

C反应蛋白质核酸序列(CRPn.fasta)格式为:

>NC_000001.11:c159714589-159712289Homo sapiens chromosome1,GRCh38.p13Primary Assembly

AAGGCAAGAGATCTAGGACTTCTAGCCCCTGAACTTTCAGCCGAATACATCTTTTCCAAAGGAGTGAATT

CAGGCCCTTGTATCACTGGCAGCAGGACGTGACCATGGAGAAGCTGTTGTGTTTCTTGGTCTTGACCAGC

CTCTCTCATGCTTTTGGCCAGACAGGTAAGGGCCACCCCAGGCTATGGGAGAGATTTGATCTGAGGTATG

GGGGTGGGGTCTAAGACTGCATGAACAGTCTCAAAAAAAAAAAAAAAAGACTGTATGAACAGAACAGTGG

AGCATCCTTCATGGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGGTGTGTAACTGGAGAAGG

GGTCAGTCTGTTTCTCAATCTTAAATTCTATACGTAAGTGAGGGGATAGATCTGTGTGATCTGAGAAACC

TCTCACATTTGCTTGTTTTTCTGGCTCACAGACATGTCGAGGAAGGCTTTTGTGTTTCCCAAAGAGTCGG

ATACTTCCTATGTATCCCTCAAAGCACCGTTAACGAAGCCTCTCAAAGCCTTCACTGTGTGCCTCCACTT

CTACACGGAACTGTCCTCGACCCGTGGGTACAGTATTTTCTCGTATGCCACCAAGAGACAAGACAATGAG

ATTCTCATATTTTGGTCTAAGGATATAGGATACAGTTTTACAGTGGGTGGGTCTGAAATATTATTCGAGG

TTCCTGAAGTCACAGTAGCTCCAGTACACATTTGTACAAGCTGGGAGTCCGCCTCAGGGATCGTGGAGTT

CTGGGTAGATGGGAAGCCCAGGGTGAGGAAGAGTCTGAAGAAGGGATACACTGTGGGGGCAGAAGCAAGC

ATCATCTTGGGGCAGGAGCAGGATTCCTTCGGTGGGAACTTTGAAGGAAGCCAGTCCCTGGTGGGAGACA

TTGGAAATGTGAACATGTGGGACTTTGTGCTGTCACCAGATGAGATTAACACCATCTATCTTGGCGGGCC

CTTCAGTCCTAATGTCCTGAACTGGCGGGCACTGAAGTATGAAGTGCAAGGCGAAGTGTTCACCAAACCC

CAGCTGTGGCCCTGAGGCCCAGCTGTGGGTCCTGAAGGTACCTCCCGGTTTTTTACACCGCATGGGCCCC

ACGTCTCTGTCTCTGGTACCTCCCGCTTTTTTACACTGCATGGTTCCCACGTCTCTGTCTCTGGGCCTTT

GTTCCCCTATATGCATTGCAGGCCTGCTCCACCCTCCTCAGCGCCTGAGAATGGAGGTAAAGTGTCTGGT

CTGGGAGCTCGTTAACTATGCTGGGAAACGGTCCAAAAGAATCAGAATTTGAGGTGTTTTGTTTTCATTT

TTATTTCAAGTTGGACAGATCTTGGAGATAATTTCTTACCTCACATAGATGAGAAAACTAACACCCAGAA

AGGAGAAATGATGTTATAAAAAACTCATAAGGCAAGAGCTGAGAAGGAAGCGCTGATCTTCTATTTAATT

CCCCACCCATGACCCCCAGAAAGCAGGAGGGCATTGCCCACATTCACAGGGCTCTTCAGTCTCAGAATCA

GGACACTGGCCAGGTGTCTGGTTTGGGTCCAGAGTGCTCATCATCATGTCATAGAACTGCTGGGCCCAGG

TCTCCTGAAATGGGAAGCCCAGCAATACCACGCAGTCCCTCCACTTTCTCAAAGCACACTGGAAAGGCCA

TTAGAATTGCCCCAGCAGAGCAGATCTGCTTTTTTTCCAGAGCAAAATGAAGCACTAGGTATAAATATGT

TGTTACTGCCAAGAACTTAAATGACTGGTTTTTGTTTGCTTGCAGTGCTTTCTTAATTTTATGGCTCTTC

TGGGAAACTCCTCCCCTTTTCCACACGAACCTTGTGGGGCTGTGAATTCTTTCTTCATCCCCGCATTCCC

AATATACCCAGGCCACAAGAGTGGACGTGAACCACAGGGTGTCCTGTCAGAGGAGCCCATCTCCCATCTC

CCCAGCTCCCTATCTGGAGGATAGTTGGATAGTTACGTGTTCCTAGCAGGACCAACTACAGTCTTCCCAA

GGATTGAGTTATGGACTTTGGGAGTGAGACATCTTCTTGCTGCTGGATTTCCAAGCTGAGAGGACGTGAA

CCTGGGACCACCAGTAGCCATCTTGTTTGCCACATGGAGAGAGACTGTGAGGACAGAAGCCAAACTGGAA

GTGGAGGAGCCAAGGGATTGACAAACAACAGAGCCTTGACCACGTGGAGTCTCTGAATCAGCCTTGTCTG

GAACCAGATCTACACCTGGACTGCCCAGGTCTATAAGCCAATAAAGCCCCTGTTTACTTGA。

具体地,构建本地的脑卒中病因靶向生物标志物序列数据库:formatdb-iCRPn.fasta-p F-o T-n GSeq其中-i参数输入的C反应蛋白氨基酸序列的数据,生成的数据库为GSeq屏蔽重复C反应蛋白氨基酸序列中有大量重复序列。

(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果:BLAST是目前常用的数据库搜索程序。本实验采用大内存服务器进行本地BLAST搜索,包括对生成的数据库GSeq进行BLASTn:blastall-p blastn-d GSeq-i Xn.fasta-e 10-F T-gT-M BLOSUM62-o Pgene.blst其中-p选择类型为blastn,核苷酸序列数据库为GSeq,而用来对比的蛋白质序列为Xn.fasta,采取默认的E值e-10,用BLOSUM62作为比对矩阵,最后输出的文件为Pgene.blst。

为了提高速度,可以将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行BLASTn对比,这样能够充分利用系统的资源,缩短程序运行的时间。

以序列Xn.fasta为例,Xn.fasta为:

AATATACCCAGGCCACAAGAGTGGACGTGAACCACAGGGTGTCCTGTCAGAGGAGCCCATCTCCCATCTC。

最后得到的BLASTn结果是标准的BLAST格式的文本文件,示例如下:BLASTN 2.3.0+

Databases queried:APOE、1sequences,3598letters、created/updated on-Jun11,2021 1:47PM;CRP、1sequences,2301letters、created/updated on-Jun 11,2021 1:48PM;MMPS、1sequences,444letters、created/updated on-Jun 11,2021 1:49PM;hdac9、1sequences,915592letters、created/updated on-Jun 11,2021 6:28AM;mmp1、1sequences,8242letters、created/updated on-Jun 11,2021 6:28AM;mmp3、1sequences,7809letters、created/updated on-Jun 11,2021 6:28AM;Total sequences in querieddatabases:6;Total letters in queried databases:937986。

其中,Number Sequences producing significant alignments Total score Evalue Length:1.NC_000001.11:c159714589-159712289 150.45 1.96×10-31 2301;2.NC_000007.14:18086825-19002416 137.56 6.00 915592;NC_000001.11:c159714589-159712289CRP[organism=Homo sapiens][GeneID=1401][chromosome=1]1/2;Hitlength:2301。

Select|Sequence|FASTA,1.Score E valueIdentities Gaps Strand,127.52(140)1.96×10-31 70/70(100.00)0/70(0.00)+/+;Query 1AATATACCCAGGCCACAAGAGTGGACGTGAACCACAGGGTGTCC TGTCAGAGGAGCCCAT 60,||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||。Subject1891AATATACCCAGGCCACAAGAGTGGACGTGAACCACAGGGTGTCC TGTCAGAGGAGCCCAT 1950。Query 61CTCCCATCTC 70||||||||||。Subject1951CTCCCATCTC 1960。

2.Score E value Identities Gaps Strand 22.93(24)6.00 14/15(93.33)0/15(0.00)+/+Query 19GAGTGGACGTGAACC 33||||||||||||||。Subject 2088GAGAGGACGTGAACC2102。

具体如图5所示,图5中的对不同尺度的匹配使用热力图来表示,更具体的是,较弱的匹配(Weaker hits)使用相当较浅的颜色,较强的匹配(Strong hits)使用相对较深的颜色。Number数字(图5中的1和2等);Sequences producing significant alignments匹配较显著的序列(图5中的NC_000001.11:c159714589-159712289等);Total score总得分(图5中的150.45等);E value期望值(图5中的6.00等);Length长度(图5中的2301等),Query待查的序列;Subject数据库内的序列文件;Identities一致性的序列;Gaps缺失或插入的情况;Strand序列的方向,例如plus/plus指两条序列方向相同;Gene ID基因标识;CRP C-反应蛋白;organism生物;Homo sapiens人类;Select选择;Sequence序列;chromosome染色体。

与上述图1至图5实施例提供的脑卒中病因靶向生物标志物数据库构建方法相对应,本公开还提供一种脑卒中病因靶向生物标志物数据库构建装置,由于本公开实施例提供的脑卒中病因靶向生物标志物数据库构建装置与上述图1至图5实施例提供的脑卒中病因靶向生物标志物数据库构建方法相对应,因此在脑卒中病因靶向生物标志物数据库构建方法的实施方式也适用于本公开实施例提供的脑卒中病因靶向生物标志物数据库构建装置,在本公开实施例中不再详细描述。

图6为本公开实施例所述的脑卒中病因靶向生物标志物数据库构建装置的结构示意图。

如图6所示,该脑卒中病因靶向生物标志物数据库构建装置600应用于电子设备,包括:数据接收单元601、筛选单元602、构建单元603和存储单元604。

数据接收单元601,用于接收脑卒中致病病因生物标志物和药物关系的原始数据文献。

筛选单元602,用于对所述原始数据文献进行筛选,获取目标数据文献。

构建单元603,用于根据所述目标数据文献建立数据文件,所述数据文件包括脑卒中生物标志物数据表、药物数据表以及生物标志物-药物关系数据表;其中,每个数据表各自含有多个字段,所述脑卒中生物标志物数据表和所述药物数据表分别与所述脑卒中生物标志物-药物关系数据表有相同字段,所述每个数据表包含依据各自包含的每个字段建立的索引。

存储单元604,用于存储所述数据文件。

本公开的脑卒中病因靶向生物标志物数据库构建装置,能够提供全面的脑卒中生物标志物与药物关系的信息,而且对原始数据进行筛选及统一标准处理,使得所得的数据库信息准确可靠、规范标准,利于信息传递以及数据库的管理,能够用于解读通过各种方式得来的脑卒中生物标志物信息以及查获药物与脑卒中生物标志物的关系信息。以及利用本公开的数据库更新方法,能够自动将后续收集到的各种文献资料加入到已构建的数据库中,使数据库的数据得到不断或定期补充修正。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

>NP_001315986.1 C-reactive protein isoform 1 precursor [Homo sapiens]

MEKLLCFLVLTSLSHAFGQTDMSRKAFVFPKESDTSYVSLKAPLTKPLKAFTVCLHFYTELSSTRGYSIF

SYATKRQDNEILIFWSKDIGYSFTVGGSEILFEVPEVTVAPVHICTSWESASGIVEFWVDGKPRVRKSLK

KGYTVGAEASIILGQEQDSFGGNFEGSQSLVGDIGNVNMWDFVLSPDEINTIYLGGPFSPNVLNWRALKY

EVQGEVFTKPQLWP

>NC_000001.11:c159714589-159712289 Homo sapiens chromosome 1, GRCh38.p13Primary Assembly

AAGGCAAGAGATCTAGGACTTCTAGCCCCTGAACTTTCAGCCGAATACATCTTTTCCAAAGGAGTGAATT

CAGGCCCTTGTATCACTGGCAGCAGGACGTGACCATGGAGAAGCTGTTGTGTTTCTTGGTCTTGACCAGC

CTCTCTCATGCTTTTGGCCAGACAGGTAAGGGCCACCCCAGGCTATGGGAGAGATTTGATCTGAGGTATG

GGGGTGGGGTCTAAGACTGCATGAACAGTCTCAAAAAAAAAAAAAAAAGACTGTATGAACAGAACAGTGG

AGCATCCTTCATGGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGTGGTGTGTAACTGGAGAAGG

GGTCAGTCTGTTTCTCAATCTTAAATTCTATACGTAAGTGAGGGGATAGATCTGTGTGATCTGAGAAACC

TCTCACATTTGCTTGTTTTTCTGGCTCACAGACATGTCGAGGAAGGCTTTTGTGTTTCCCAAAGAGTCGG

ATACTTCCTATGTATCCCTCAAAGCACCGTTAACGAAGCCTCTCAAAGCCTTCACTGTGTGCCTCCACTT

CTACACGGAACTGTCCTCGACCCGTGGGTACAGTATTTTCTCGTATGCCACCAAGAGACAAGACAATGAG

ATTCTCATATTTTGGTCTAAGGATATAGGATACAGTTTTACAGTGGGTGGGTCTGAAATATTATTCGAGG

TTCCTGAAGTCACAGTAGCTCCAGTACACATTTGTACAAGCTGGGAGTCCGCCTCAGGGATCGTGGAGTT

CTGGGTAGATGGGAAGCCCAGGGTGAGGAAGAGTCTGAAGAAGGGATACACTGTGGGGGCAGAAGCAAGC

ATCATCTTGGGGCAGGAGCAGGATTCCTTCGGTGGGAACTTTGAAGGAAGCCAGTCCCTGGTGGGAGACA

TTGGAAATGTGAACATGTGGGACTTTGTGCTGTCACCAGATGAGATTAACACCATCTATCTTGGCGGGCC

CTTCAGTCCTAATGTCCTGAACTGGCGGGCACTGAAGTATGAAGTGCAAGGCGAAGTGTTCACCAAACCC

CAGCTGTGGCCCTGAGGCCCAGCTGTGGGTCCTGAAGGTACCTCCCGGTTTTTTACACCGCATGGGCCCC

ACGTCTCTGTCTCTGGTACCTCCCGCTTTTTTACACTGCATGGTTCCCACGTCTCTGTCTCTGGGCCTTT

GTTCCCCTATATGCATTGCAGGCCTGCTCCACCCTCCTCAGCGCCTGAGAATGGAGGTAAAGTGTCTGGT

CTGGGAGCTCGTTAACTATGCTGGGAAACGGTCCAAAAGAATCAGAATTTGAGGTGTTTTGTTTTCATTT

TTATTTCAAGTTGGACAGATCTTGGAGATAATTTCTTACCTCACATAGATGAGAAAACTAACACCCAGAA

AGGAGAAATGATGTTATAAAAAACTCATAAGGCAAGAGCTGAGAAGGAAGCGCTGATCTTCTATTTAATT

CCCCACCCATGACCCCCAGAAAGCAGGAGGGCATTGCCCACATTCACAGGGCTCTTCAGTCTCAGAATCA

GGACACTGGCCAGGTGTCTGGTTTGGGTCCAGAGTGCTCATCATCATGTCATAGAACTGCTGGGCCCAGG

TCTCCTGAAATGGGAAGCCCAGCAATACCACGCAGTCCCTCCACTTTCTCAAAGCACACTGGAAAGGCCA

TTAGAATTGCCCCAGCAGAGCAGATCTGCTTTTTTTCCAGAGCAAAATGAAGCACTAGGTATAAATATGT

TGTTACTGCCAAGAACTTAAATGACTGGTTTTTGTTTGCTTGCAGTGCTTTCTTAATTTTATGGCTCTTC

TGGGAAACTCCTCCCCTTTTCCACACGAACCTTGTGGGGCTGTGAATTCTTTCTTCATCCCCGCATTCCC

AATATACCCAGGCCACAAGAGTGGACGTGAACCACAGGGTGTCCTGTCAGAGGAGCCCATCTCCCATCTC

CCCAGCTCCCTATCTGGAGGATAGTTGGATAGTTACGTGTTCCTAGCAGGACCAACTACAGTCTTCCCAA

GGATTGAGTTATGGACTTTGGGAGTGAGACATCTTCTTGCTGCTGGATTTCCAAGCTGAGAGGACGTGAA

CCTGGGACCACCAGTAGCCATCTTGTTTGCCACATGGAGAGAGACTGTGAGGACAGAAGCCAAACTGGAA

GTGGAGGAGCCAAGGGATTGACAAACAACAGAGCCTTGACCACGTGGAGTCTCTGAATCAGCCTTGTCTG

GAACCAGATCTACACCTGGACTGCCCAGGTCTATAAGCCAATAAAGCCCCTGTTTACTTGA

AATATACCCAGGCCACAAGAGTGGACGTGAACCACAGGGTGTCCTGTCAGAGGAGCCCATCTCCCATCTC

GAGTGGACGTGAACC

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号