首页> 中国专利> 生物信息处理方法、生物信息处理装置及记录介质

生物信息处理方法、生物信息处理装置及记录介质

摘要

本发明提供了能够预测和控制生物体的状态变化的生物信息处理方法、生物信息处理装置及记录介质。在特定时间间隔内测量生物体中的分子的表达水平;将所测量的时间序列数据分为周期分量、环境刺激响应分量和基线分量;根据基线分量的变化或根据周期分量的振幅或周期变化识别时间序列数据的恒定区,并识别所识别出的恒定区之间的因果关系。识别外部环境和内部环境的变化之间的关系,并根据所识别出的恒定区间的因果关系推定生物体的状态变化。此外,根据外部环境和内部环境的变化之间的关系,能够推定生物体内的疾病发作。分子可为血液中的分子或培养基中的分子。

著录项

  • 公开/公告号CN113113077A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 索尼公司;

    申请/专利号CN202110373287.2

  • 发明设计人 樱田一洋;

    申请日2011-06-28

  • 分类号G16B5/00(20190101);G16B25/00(20190101);G16B40/00(20190101);G16B50/00(20190101);G16H50/20(20180101);

  • 代理机构11240 北京康信知识产权代理有限责任公司;

  • 代理人吴孟秋

  • 地址 日本东京

  • 入库时间 2023-06-19 11:49:09

说明书

本申请是国际申请日2011年6月28日、国际申请号PCT/JP2011/064743的国际申请于2012年12月28日进入国家阶段的申请号为201180032593.4、发明名称为“生物信息处理方法和装置、记录介质及程序”的专利申请的分案申请,其全部内容结合于此作为参考。

技术领域

本技术涉及一种生物信息处理方法和装置、记录介质和程序,具体地涉及一种预测和控制人类生物体状态的未来变化的生物信息处理方法和装置、记录介质和程序。

背景技术

新的治疗方案、诊断方案和预防方案的开发的生产性低下一直是解决与健康相关的社会问题的重要问题。由于基础生物学中获得的巨大感知不能有效地用于解决临床实践中的问题(非专利文献1),所以造成生产性低下。根据最新的国际调查,目前患有糖尿病的世界人口已增加至2亿8500万。患有糖尿病的人口预计到2030年将超过4亿3500万,超过北美人口。这表明世界上的成人糖尿病的患病率接近7%。

人体包含60万亿个细胞,具有存储每个细胞包含6亿个碱基对的DNA(脱氧核糖核酸)信息的复杂性,并且是在人的一生中进行细胞分裂10

生物学的特性之一是级别性。人体以包括诸如DNA或蛋白质的分子的“细胞”为基础,且特征在于包括各种细胞的子系统、组织和器官。级别性对来自环境的刺激响应的反应时间尺度多样化。细胞内的信息传播以毫秒或秒为单位进行,细胞之间的信息传播以分钟或小时的尺度为单位进行,以及细胞增殖或分化的过程以天或小时为单位进行。时间尺度的多样性造成生物体的时间延迟。

在复杂多样的生命现象中,基础生物学已经阐述了包含在生物体中的分子之间的因果关系以将生物体表象为机械系统。这是通过从多个参数中选择特定的分子参数并变化特定分子参数的方案来实施的。

在临床科学中,通过强调减轻相关症状来治疗疾病。

此外,为了获得临床效果,根据指定时间内生物学的指标推定诸如给药量的介入与临床结果之间的诸如关系式和规则的实验规则。

现代医学的重要课题是提供适合于每个人的健康管理或治疗。当其安全性和有效性已被统计验证的治疗方案或药物治疗被投入市场并被大规模的集团所使用时,对一部分患者观察到副作用或没有疗效。其原因之一是接收治疗的病人的基因多样性。关于由于基因多样性引起的疾病发作的差异,最近“(全基因组关联研究;GWAS)”(非专利文献2)一直在进行分析。

现有技术文献

非专利文献

非专利文献1:Nature 453;840-9,2008

非专利文献2:J.Hum.Genet.Doi:10.1038/jhg.2010.19

发明内容

本发明所要解决的问题

然而,在目前的临床实践中,为了仅在有限的时间内测量有限的生物学的指标,并统计地平均指标,因此抽取对群组中所包含的不同人随着时间所获取的各种特性。此外,与强调微观尺度问题的基础生物学相比,临床研究处理个体级别的宏观尺度问题,诸如身体障碍、生理功能的丧失以及特定疾病或身体状况,作为临床结果。在基础生物学和临床研究中,在级别间存在差别。

此外,目前的治疗策略被迫使通过提取随着时间所获取的多样化来构建疾病,因此,每个治疗策略是对症治疗。然而,通过减轻症状,使得无法从疾病恢复到原始健康状态。

这些问题表明,当前的基础生物学和临床实践的概念无法预测和控制人类生物体状态的未来变化,因此很难开发有效的预防方案和治疗方案。

鉴于上述情况,本发明技术被构思出并可预测和控制人类生物体状态的未来变化。

问题的解决方案

本技术的一个方面是生物信息处理方法,包括以下步骤:在特定时间间隔内测量生物体中的分子的表达水平;将所测量的时间序列数据分为周期分量、环境刺激响应分量和基线分量;根据基线分量的变化或根据周期分量的振幅或周期变化识别时间序列数据的恒定区,并识别所识别的恒定区之间的因果关系;以及根据所识别出的恒定区之间的因果关系推定生物体状态变化。

识别步骤可进一步识别生物体状态变化和外部环境之间的关系,且推理步骤可进一步根据所识别出的生物体状态变化和外部环境之间的关系推定生物体的疾病发作。

测量步骤可测量代表全身状态、局部状态和染色体状态的分子。

分子可以是生物体的血液分子。

分子可以是与代谢综合症相关的分子。

分子可以是培养基中的分子。

根据本技术的一个方面,在特定时间间隔内测量生物体中的分子的表达水平,所测量的时间序列数据被分为周期分量、环境刺激响应分量和基线分量,根据基线分量的变化或根据周期分量的振幅或周期变化识别时间序列数据的恒定区,并识别所识别出的恒定区之间的因果关系。根据所识别出的恒定区之间的因果关系推定生物体状态变化。

本技术的方面的生物信息处理装置、记录介质和程序是与上面描述的技术的方面的生物信息处理方法对应的生物信息处理装置、记录介质和程序。

本技术的另一个方面是一种生物信息处理方法,包括以下步骤:获取受试者的生物体的生物分子的细胞记忆信息;获取与受试者的生物体的环境条件相关的环境信息;获取与包含在受试者的生物体中的基因序列相关联的基因信息;以及搜索所述受试者之外的人的生物体的、与所获取的所述细胞记忆信息、所述环境信息和所述基因信息相关联的类似信息。

基因信息可以是单核苷酸多态性和结构多态性。

可基于所述细胞记忆信息、所述环境信息和所述基因信息间的相关关系的相似度进行搜索。

获取细胞记忆信息的步骤包括以下步骤:在特定时间间隔内测量受试者的生物体中的分子的表达水平;将所测量的时间序列数据分为周期分量、环境刺激响应分量和基线分量;以及根据基线分量的变化或根据周期分量的振幅或周期变化识别时间序列数据的恒定区,并识别所识别出的恒定区之间的因果关系。

根据该本技术的另一方面,获取受试者的生物体的生物分子的细胞记忆信息;获取与受试者的生物体的环境条件相关联的环境信息,获取与包含在受试者的生物体中的基因序列相关联的基因信息;并搜索所述受试者之外的人的生物体的、与所获取的所述细胞记忆信息、所述环境信息和所述基因信息相关联的类似信息。

本技术的另一方面的生物信息处理装置、记录介质和程序是与上面描述的技术的另一方面的生物信息处理方法相对应的生物信息处理装置、记录介质和程序。

本发明的效果

如上所述,根据本技术的一个方面和另一个方面,能够预测和控制人类生物体状态的未来变化。

附图说明

图1是示出生物信息处理装置的实施方式的构造的框图。

图2是示出健康状态预测和控制处理的流程图。

图3是示出与使用恒定区作为节点的因果关系相关的模型图。

图4是示出生物信息处理装置的另一实施方式的构造的框图。

图5是示出培养细胞的细胞状态的预测和控制处理的流程图。

图6是示出细胞模型的构造的示图。

图7是示出细胞状态的变化的示图。

图8是示出信息的因果关系的示图。

图9是示出生物信息处理装置的另一实施方式的构造的框图。

图10是示出另一个健康状态预测和控制处理的流程图。

图11是示出与生活习惯的因果关系相关的模型的示图。

图12是示出表示细胞记忆的历史的矩阵的示图。

具体实施方式

下文中,将描述用于实施本技术的方式(在下文中,被称为实施方式)。将以下列顺序进行描述。

1.过程

2.定义

3.第一实施方式

4.第二实施方式

5.第三实施方式

6.第四实施方式

7.第五实施方式

8.第六实施方式

9.第七实施方式

10.第八实施方式

11.第九实施方式

<过程>

首先,将在下面描述本技术的过程。

本技术的开发者严密地研究了代表人类生物体的时间演化以及预测和控制未来变化的方向的方法。结果是,除了通常用于公式化生命的遗传型、表现型和外部环境的三个参数之外,通过引入被称为“经历时间演化的细胞记忆”的新参数,发现可以解决经历时间演化的人类生物体的问题。此外,为了使“经历时间演化的细胞记忆”公式化,本技术的开发者指出,由于表观遗传修饰和基因修饰,具有在各细胞中表达的双稳态开关的特性的转录因子的细胞记忆会随着时间变化。表观遗传修饰包括DNA甲基化或组蛋白修饰,且基因修饰包括DNA突变或结构变化。

本技术的开发者已经构建了“经历时间演化的细胞记忆模型”,这表明通过改变由双稳态开关控制的目标基因产物的表达水平来使基因修饰和表观遗传修饰改变细胞状态。此外,根据“经历时间演化的细胞记忆模型”,本技术的开发者已构建了被称为“染色体状态”的概念,包括作用在染色体上的转录因子、基因修饰和表观遗传修饰。

接下来,为了根据所观察到的全身状态或局部状态的值,推定“染色体状态”,本技术的开发者将作为构成人生物体系统的三个不同级别的全身状态、局部状态和“染色体状态”彼此链接起来。为此,本技术的开发者已构建了对应于全身状态、局部状态和“染色体状态”的各个级别的宏观模型、中观模型和微观模型。此外,使用该“生物体级别链接模型”,本技术的开发者提出以细胞为单位链接和公式化宏观模型、中观模型和微观模型的方法。

接下来,为了观察操纵人类生物体的时间演化的“染色体状态”,本技术的开发者研究了将“生物体级别链接模型”整合入时间序列模型的方法的开发,并发现了使用“生物状态空间模型”的新整合方法。于是,本技术的开发者提出一种通过将使用“生物状态空间模型”反映全身状态的分子标记的时间序列数据分割为周期分量、环境刺激响应分量和基线分量来提取“染色体状态”的方法。

于是,本技术的开发者严密地研究了首次使用由本技术表示的人类生物体的时间演化变化的数据的控制模型的开发。然后,本技术的开发者发现表示最初外部环境的输入响应于随后外部环境的输入而变化的“构建变化”的概念,并提出其中“经历时间演化的细胞记忆”由“构建变化”控制的“动态构建模型”。

此外,本技术的开发者进行了严密地研究来对临床实践中的问题应用“动态构造模型”,并提出一种使用“生物状态空间模型”识别与生物体中产生的分子的表达水平相关的时间序列的恒定区的“生物体局部恒定区模型”的方法。此外,本技术的开发者提出一种使用在生物体中产生的分子的表达水平的时间序列变化期间发现的生物体局部恒定区作为节点来分析因果结构和生物体状态跟踪的方法。

<定义>

接下来,将描述在本技术的实施方式的描述中使用的术语的定义。

人类生物体的时间演化表示其中人类生物体的状态或功能随时间不可逆地变化的过程。人在经历了从受精的瞬间的诸如繁殖、出生、生长和变老的不可逆变化之后死亡。疾病的发病经历接收潜在变化的发病的前阶段、发病、特定生理功能障碍、特定生理功能丧失、身体残疾和死亡。这表明人类生物体的瞬间和另一瞬间在时间上是不同质的。

“经历时间演化的细胞记忆”表明由转录因子构建的细胞记忆可因基因修饰和被引入作为输入至细胞的环境或偶然的结果的表观遗传修饰而变化。细胞记忆按常规可被定义为,即使在来自外部环境的刺激消失之后,仍然保持着通过来自外部环境的刺激所获取的细胞状态的变化(Cell140:13-18,2010)的现象。由细胞表达的分子的类型、量和修饰特性表示细胞状态,且由转录因子控制细胞状态的保持和变化。

即,常规细胞记忆提供了细胞的状态提供了利用包括在转录因子中的双稳态开关的特性的特定均衡状态的概念。然而,仅可提供开关的开(ON)和关(OFF)的均一时间。然而,实际上,随着时间引入的基因修饰和表观遗传修饰会随着时间改变由转录因子提供的细胞状态,从而进一步与仅由转录因子表现的细胞状态相比时,使细胞的状态多样化。

即,在“经历时间演化的细胞记忆”中,可通过可被继承的历史(诸如基因修饰和表观遗传修饰)来公式化细胞状态的多样性,且“经历时间演化的细胞记忆”与常规细胞记忆的本质不同之处在于可应付时间不均一性。

转录因子形成常规细胞记忆的分子基础。当转录因子的电路是非线性的,并表示双稳态特性时,分子的状态处于开(ON)或关(OFF)的均衡状态,且即使在细胞分裂之后,记忆也可被继承。在转录因子和启动子的结合部分之间形成的亲和力,多个转录因子之间的协调性或多聚化向转录因子提供非线性的特性。

通过对转录因子的响应提供阈值样的特性,非线性抵抗瞬时干扰并使表达水平被继承。此外,通过正反馈或正双反馈或负双反馈获取足够大的希尔系数的转录因子获取双稳态开关的特性,且即使在原始输入消失之后,状态变化也会被锁定。即,在细胞中表达的转录因子的类型、量和后转译修饰形成常规细胞记忆的骨架。

基因修饰(诸如在人类基因组中观察到的单核苷酸多态性、DNA序列一部分的缺陷、重复和复制数的变化)以及表观遗传修饰(诸如DNA甲基化、组蛋白修饰和蛋白质的变性)担当“经历时间演化的细胞记忆”的分子基础(Nature Review Genetics 7:85-97,2006,Cell 128:655-658,2007)。

每个基因修饰和表观遗传修饰直接或间接地改变与转录因子的非线性或双稳态开关的特性相关的参数,从而修饰常规细胞记忆的功能。

关于基因修饰,通过全基因组连锁分析方案分析单核苷酸多态性和疾病发作率之间的关系。使用分析方案,十九个基因已被识别为2型糖尿病的关联基因。然而,仅总数的1%是具有突变的糖尿病患者(Nature 462:307-314,2009)。同样,在全部乳腺癌患者的仅3%中观察到BRCA 1/2基因突变。在对同卵双胞胎的寿命与非同卵双胞胎的寿命进行比较的实验中,流行病学调查表明基因序列对寿命的贡献的百分比是约15%至25%(Hum.Genet97:319-323,1996)。

表观遗传修饰被定义为可在不伴随有DNA序列的变化的情况下可继承的基因功能的改变。DNA甲基化和染色质蛋白的化学修饰是表观遗传的分子物质。此外,由于蛋白质(诸如朊病毒蛋白和淀粉状蛋白)的变性而引起的细胞功能的改变在广义上被归类为表观遗传学。由沃丁顿提出的表观遗传学的概念用于描述其中在繁殖过程中基因信息被改变为表现型的机制。

然而,表观遗传学的功能影响组织或细胞特定基因表达的确立和维持。除此之外,由于营养状态、社会压力和化学物质引起的刺激引入表观遗传修饰。人类流行病学的研究已经报道了,由于表观遗传学的介入,胎儿或新生儿阶段期间接收的来自环境的刺激会影响成年后的慢性疾病的发病率(Stem Cell Res.4;157-164,2010)。

上述表观遗传修饰被称为环境表观遗传,以区别于与细胞分化相关联的发生型表观遗传。本技术的开发者已发现,环境表观遗传的功能被视为“基于外部环境信息的改变来更新DNA信息的功能”。

在影响转录因子的功能变化的基因修饰和表观遗传修饰之间,继承的时间尺度是不同的。基因修饰是从父母遗传给孩子的细胞记忆的主要原因。另一方面,表观遗传修饰在时代中获得的细胞记忆中起主要作用。

然而,跨代表观遗传的发现表明在生殖细胞系中引入的环境表观遗传抵抗繁殖的初期化,并从父母遗传给孩子(Stem Cell Res.4;157-164,2010)。此外,新基因修饰(诸如引入体细胞的DNA突变或错位)被视为致癌的主要原因。

“经历时间演化的细胞记忆的模型”是被引入来将由于基因修饰和表观遗传修饰而随时间变化的“经历时间演化的细胞记忆”公式化的概念。随时间变化的转录因子的表达特性、基因修饰和表观遗传修饰被整合到“染色体状态”中。

这不同于常规细胞记忆,其相对于转录因子仅定义开(ON)和关(OFF)两种状态。在本技术的染色体状态下,相对于利用转录因子产生的目标基因产物,抑制作用和诱导离散地变化。通过引入染色体状态的概念,细胞状态被公式化为染色体状态和细胞的外部环境状态的两个时间序列变化的连接。此外,“经历时间演化的细胞记忆”被公式化为“染色体状态”的时间序列变化的函数。

“生物体级别链接模型”是新模型,其被提议用于使用“经历时间演化的细胞记忆”来预测个人级别的健康或疾病时所请求的“染色体状态”和“个人状态”的连接。人类个体是按级别顺序建立的连续体。细胞由分子形成,且其它复杂实体(诸如组织和器官)被构建于细胞上。人体的状态可基于上述级别结构被分类为全身状态、局部状态和染色体状态,且响应于每个状态,可构建宏观、中观和微观三个不同尺度的模型。

宏观模型是将整个身体视为一种状态的模型。因此,该状态可由在整个身体中扩散的分子的表达特性定义。在整个身体中扩散的分子的代表性示例包括内分泌系统或免疫系统的激素、生长因子和细胞因子。此外,影响自律神经系统的控制的肾上腺素和去甲肾上腺素定义整个身体的状态。

中观模型是一种发现生物体内同质局部空间的状态的模型。每个器官或组织将同质状态形成为一体。通常,炎症等的症状尤其发生在局部部位。这包括形成炎症部位的多个细胞。另一方面,组织的细胞新生由少数的组织干细胞的繁殖和分化控制。因此,中观模型包括不同数量或类型的细胞,诸如一个细胞、炎症组织、组织和器官。除了在局部环境中表达的自分泌和旁分泌分子团之外,局部状态还由全身性分子定义。

微观模型是一种发现包含在每个细胞中的染色体的状态的模型。微观模型没有处于细胞状态下的原因是,细胞状态仅表示由转录因子驱动的外显的细胞记忆,并且包括基因修饰或表观遗传修饰的潜在变化被抽象化。染色体状态由基因修饰、表观遗传修饰特性和转录因子的表达特性定义。

染色体状态下的表观遗传修饰和转录因子的表达特性由具有染色体的细胞的局部环境和全身性环境控制。除了基因状态之外,产生全身性分子的细胞还由细胞的局部状态和染色体状态控制,且产生作为局部环境的分子的自分泌和旁分泌因子的细胞由全身状态、细胞的局部环境和染色体状态控制。即,这通过公式化为“染色体状态”、局部状态和全身状态同时决定彼此的变化、被同时被赋予方向并同时经历时间演化的分析是明显的。公式化被称为“生物体级别链接模型”。

人接收来自依赖于社会环境、人类的行为特性等的各种不同环境的刺激。来自外部环境的刺激由体细胞的各种系统认出,并且被转译为人体的内部环境变化。因此,由于接收刺激的体细胞系统的个体差异,来自相同环境的刺激可能不一定会引起内部环境的相同变化。这表明环境因素的定量测量可能无法单独准确地预测人体的状态变化。来自环境的刺激可根据特性归类为物理压力(温度、氧气、紫外线等)、化学压力(内分泌干扰物、致癌物质等)、社会心理压力、运动压力、营养压力(过量进食和饥饿)、感染压力、伤害压力等。

来自环境的刺激由接收系统检测,然后被转译成具有不同时间延迟的全身状态、局部状态和“染色体状态”的变化。因此,为了将“经历时间演化的细胞记忆”扩展到全身体级别的记忆,时间需要被视为离散分布而不是连续分布。时间延迟的不稳定性由生物体内的反馈系统控制。因此,当以发现从反馈系统到新的反馈系统的变化的时间单位发现状态变化时,时间延迟的问题会被抽象化。

“生物状态空间模型”是一种被提出用于将“生物体级别链接模型”应用于时间序列模型的新模型。用于时间序列模型的各种模型一般由状态空间模型以统一方式利用(时间序列分析入门,北川源四朗,岩波书店,第9章、11章和12章)。此外,时间序列分析的大量问题被公式化为状态空间模型的状态推定的问题。

状态空间模型包括两个子模型:系统模型(x)和观察模型(y),且两种解释是可行的。当观察模型被视为表达其中观察时间序列数据yn被观察的结构的回归模型,系统模型(x)的状态xn是回归常数。在这种情况下,系统模型是一种表达回归系数的时间变化的状态的模型。另一方面,当状态xn被视为要推定的信号时,系统模型表示指出信号的产生机制的模型,且观察模型表示当实际观察到信号时信号被转换并且添加噪声的状态。

在“动态构建模型”中,xn表达实际的人体状态,yn被假定为与细胞外因子群的可测量表达水平相关联的多变量时间序列矢量,且状态xn被视为要推定的信号。当“生物体级别链接模型”被应用于临床预测时,测量所有的“染色体状态”和局部状态是不现实的。然而,在整个身体中循环的细胞外因子(诸如激素、生长因子和细胞因子)是可以被测量出的。

“生物体级别链接模型”阐明了“染色体状态”、局部状态和全身状态同时决定彼此的变化,被同时指向并实质上经历同时演化。这表明在整个身体内循环的细胞外因子的时间序列变化的数据包含“染色体态”和局部状态的变化。即,局部状态和“染色体状态”的分量直接或间接地反映在yn上,yn是包括人体状态xn的全身性血液因子的多变量时间序列数据。该公式化方案被称为“生物状态空间模型”。

在整个身体内循环的细胞外因子的时间序列数据yn可被分解成分别为使用季节性调整模型的周期分量、使用多线性模型的环境刺激响应分量和使用多项式平滑样条模型的基线分量。细胞记忆可反映在与生物体中产生的分子的表达相关联的周期分量的振幅和频率、刺激响应分量的最高表达水平和长期基线的变化上。因此,通过组合“生物体级别链接模型”与“生物状态空间模型”,能够具体地并按时间顺序表示“经历时间演化的细胞记忆”。

“动态构建模型”是对经历时间演化的人类生物体的控制理论。生物体的时间演化的一个功能是来自环境的最初刺激改变对随后相似类型的刺激的响应。响应改变的分子实体在本说明书中被称为“构建的变化”。经历时间演化的人类生物体可由该公式化控制。

在“构建的变化”中,“当施加对于生物体不是致命的压力时,改善对随后的强压力的响应”的表示通常被称为毒物兴奋效应(Toxicology and Applied Pharmacology 222:122-128,2007)。到现在为止,毒物兴奋效应的分子机制尚不清楚。在本技术的“经历时间演化的细胞记忆模型”中,包括毒物兴奋效应的“构建的变化”阐明了经过基因修饰和表观遗传修饰的动态细胞记忆担当分子基础。以此方式,可以理解到,慢性疾病的发作是由本技术的“经历时间演化的细胞记忆”和随后压力之间的不匹配所造成的。

“构建的变化”不同于传统的控制模型,诸如动态平衡模型和动态非平衡模型,其基于基因决定论的固定遗传算法的前提。即,“构建的变化”假设基因的功能由于来自环境的输入或偶然因素而变化,且基因定义的算法在变化的部分被未来继承时变化。因此,需要新的控制理论用于“构建的变化”。

在基因决定论中,表现型(P(t))的时间变化由给定的基因型(Gx)和随着时间变化的环境因素(E(t))的乘积表达为如下。

P(t)=Gx×E(t) (1)

对于一个“构建的变化”,表现型(P(t))的时间变化由随着时间变化并结合本技术的“经历时间演化的细胞记忆”的染色体状态(C(t))和随时间变化的环境因素(E(t))的乘积表达为如下。

P(t)=C(t)×E(t) (2)

由式子(2)表示的生物体模型被称为“动态构建模型”。

“生物体局部恒定模型”是一种使用本技术的“动态构建模型”控制健康和疾病的新的数据处理方案。与在生物体中产生的分子的表达水平相关的时间序列数据一般是非恒定的。然而,甚至非恒定的数据可通过将时间间隔分割为适当的短时间间隔而被假设为在各个短时间间隔内为恒定的数据。时间序列模型一般被称为局部恒定模型,在该模型中,时间间隔被独立于上述系统功能的算法分割为适当的短间隔,且各个短时间间隔可被假设为恒定的(时间系列分析入门,北川源四朗,岩波书店(Iwanami bookstore,KitagawaGenshiro,Introduction to time series analysis),第8章)。

在“生物体局部恒定模型”中,为了将细胞记忆状态的变化分割为各个不同的恒定状态,在生物体中的细胞或培养细胞中表达的分子的表达水平变化的时间序列数据首先通过使用“生物状态空间模型”被分解成周期分量、环境刺激响应分量和基线的趋势分量,然后识别局部恒定区。细胞记忆影响基线分量、周期分量的振幅和频率以及环境刺激响应分量的最高表达水平和最低表达水平的变化。其中,可独立于来自环境的输入强度识别三类变化-基线分量和周期分量的振幅和频率的变化。

在“生物体局部恒定模型”中,局部恒定区由该三类别识别。通常,局部恒定区被分为三种状态:原始稳定状态、新的稳定状态和从原始稳定状态至新的稳定状态的变化。本技术的“生物体局部恒定模型”与常规的局部恒定模型的根本不同之处在于,基于生物体的特性而不是简单地和机械地将时间序列变化分解成恒定区来指定恒定区。

“使用局部恒定区作为节点来分析因果结构和进行生物状态跟踪的方案”是一种通过识别诱导人类生物体的状态经历时间演化而变化的内在原因来预测和控制健康保持和疾病发作的方案。疾病从获取潜在变化的无症状期开始,经历急性症状、慢性、部分生理功能紊乱、部分生理功能损失、身体残疾、长期卧床和死亡的非稳定时间演化。即,疾病的时间演化可近似于被视为定常状态的时间分割的连续演化。

为了预测和控制健康状态或疾病的状态变化,需要使用由细胞产生的分子作为代理指标,来对指示全身性复杂方面的疾病的局部恒定状态区进行编码。这表明,由疾病相关的器官、组织和子系统的细胞表达的分子的时间序列数据从局部恒定区的观点来分割,并且与疾病的表现型相关联。使用由生物知识构建的因果结构模型作为现有概率,通过贝叶斯的方法从多个个体分析生物体内的分子的表达水平的时间序列变化的数据,并且可选择对于关联有效的最佳类型的分子。因此,由细胞产生的各种分子中的血液分子可使用血液样本相对容易地获取时间序列数据,并对于本技术的“动态构建模型”应用是有效的。

作为用于测量血液分子的装置,血糖仪被视为原型装置(利舒坦,雅培公司)。血糖仪可通过使用针管采集的少量血液来测量血糖的量。该系统可应用于测量葡萄糖以外的血液分子。另一方面,最近,开发了一种经皮肤测量血液分子的方案。

从血液分子的表达水平的时间序列变化中提取的恒定区的时间分割不仅对于编码与各种疾病相关联的状态并跟踪状态变化是有效的,而且还可用于分析作为疾病发作的原因的因果关系。健康管理的问题是识别作为从健康状态移行到无症状的疾病初期的原因的血液分子的变化并利用该变化来防止疾病的发作。此外,疾病管理的问题是识别作为诱导初始疾病至并发症的原因的血液分子的变化并使用该变化来防止并发症的发作。

为了使用本技术的“动态构建模型”进行控制,首先使用生物知识对生物体内的分子群的表达水平变化之间的因果关系进行建模。然后,将其用于与通过从多个患者的生物体内的分子的时间序列变化数据中提取恒定区所确定的节点之间的概率结构/因果结构相关联的图形(graph)结构。在下文中,改良为使用多个健康人或患者的生物分子的表达变化的时间序列数据的最佳图形结构。可以作为回归分析中的共变量的选择问题解决图形结构的变化。构建的最佳图形结构可用于预测和控制未来生物状态的变化,以用于通过继续测量生物分子表达的经时变化而对各个人进行健康管理或疾病管理。

<第一实施方式>

[动态构建模型至健康状态和疾病状态的预测和控制的应用]

现代医学渴求的重要挑战是根据个体的多样性和过去的各种历史来对糖尿病、癌症、免疫紊乱、痴呆症和心血管疾病开发有效的预防。使用本技术的“动态构建模型”,可针对疾病群进行个体预防。

图1是示出预测和控制健康状态的生物信息处理装置1的构造的框图。生物信息处理装置1包括选择器11、确定单元12、测量单元13、创建单元14、分割单元15、识别单元16和推定控制单元17。

选择器11选择测量分子。确定单元12确定分子测量间隔。测量单元13进行测量。创建单元14创建图形。分割单元15分割分量。识别单元16识别恒定区和因果关系,并识别分子标记的因果关系和与外部环境的关系。推定控制单元17推定和控制状态的变化。

图2是示出预测和控制健康状态的处理的流程图。下文中,将参照图2描述由图1的生物信息处理装置进行的预测和控制处理。

在步骤S1中,选择器11选择用于预测和控制与代谢综合症的关系的测量分子。即,选择进行表达水平的测量的血液分子类型。

本技术的“动态构建模型”可用于预测和控制由代谢综合症发展为循环系统疾病的一系列疾病的发病。糖尿病位于从代谢综合症发展到循环系统疾病的一系列疾病中(Nature 444;839-888,2006)。代谢性疾病会由包括不良饮食习惯和缺乏运动的生活习惯的问题引起肥胖、内脏型肥胖、脂联素分泌不足、胰岛素抵抗性等。此后,疾病状态会发展为高血压、餐后高血糖和血脂异常。到目前为止,状态被称为代谢综合症。

代谢综合症引起内脏脂肪的炎症,激活各种器官的再生系统,并增加氧化应激。结果是,会引起脂肪肝或非酒精性脂肪性肝炎。此后,胰腺功能紊乱和胰岛素分泌不足发生,从而引起糖尿病的发作。

糖尿病引起肾病、视网膜病、神经官能症、闭塞性动脉硬化症、脑血管障碍和缺血性心脏病,并会发展为肾透析、失明、下肢截肢、中风、痴呆症和心功能不全,从而导致死亡。特别地,由代谢综合症引起的炎症引起癌症或神经变性疾病。当本技术的“动态构建模型”应用于肥胖或2型糖尿病时,下面的全身性血液因子可用作分子标记,来使用表达水平的时间序列数据(Nature 444;839-888,2006)。

首先,与脂肪组织和下丘脑-垂体之间的相互作用相关的分子群执行饮食、糖代谢、脂质保存和能量平衡的重要功能,因此可用于表示和分析不良饮食和缺乏运动的状态。例如,慢性的社会压力对脂肪组织和下丘脑-垂体-肾上腺皮质系统之间的相互作用具有表观遗传影响,并改变糖皮质激素和醛固酮从肾上腺的产生。结果,改变了食欲或睡眠的功能。

为了识别变化,除了血液中的糖皮质激素和醛固酮之外,对于测量由脂肪组织产生的瘦脂素、脂联素、内脂素和网膜素以及由垂体产生的ACTH(促肾上腺皮质激素)的表达水平的时间序列变化也是有用的。为了表示和控制肥胖、内脏肥胖、脂联素的分泌不足以及胰岛素抵抗,测量由胰腺产生的胰岛素、胰高血糖素、胰淀素和GLP以及由脂肪组织产生的卵磷脂和RBP4的表达水平的时间序列变化是有用的。在从代谢综合症至内脏脂肪的炎症的发展中,对于测量由免疫细胞或脂肪组织产生的TNF-α、IL-6和MCP1以及由肝脏产生的CRP、PAI-1、NEFA、VLDL和LDL-ox的时间序列变化是有用的。

在步骤S2中,选择器11选择用于预测和控制与炎症性疾病的关系的测量分子。

由全身性红斑狼疮(SLE)和风湿病表示的包括结缔组织疾病、溃疡性结肠炎和散发性硬化症的免疫紊乱由于过去的感染历史、肠道中细菌的特性等原因发症是已知的。对于预测和控制免疫系统疾病以作为分子标记跟踪由以下细胞产生的细胞因子的特性变化:粒细胞、单核细胞、巨噬细胞、树突状细胞和影响自然免疫力的自然杀伤细胞和T细胞、辅助T细胞(TH0、TH1和TH2)、CD8+阳性T细胞、调节性T细胞和影响后天免疫力的B细胞。细胞因子的示例包括白细胞介素、干扰素、趋化因子、生长因子和淋巴因子。

在步骤S3中,确定单元12确定分子测量间隔。

优选的是,用于测量分子标记的表达水平的时间间隔很短。然而,可以根据测量环境使用很长间隔(诸如天、周和月)的时间序列数据。很多分子经过24小时间隔的昼夜节律的表达水平的变化。因此,当以超过一天的时间间隔进行测量时,需要通过在一天之内设置预定时间间隔来获取数据。优选的是,使用约100个离散数据作为一组(而不管获取数据的时间间隔)来分析所获取的时间序列数据。因此,为了期望精确度,每天需要至少两次至三次测量,优选为每天50次到100次。

在步骤S4中,测量单元13进行测量。在本文中,测量作为生物分子的血液分子的表达水平。具体地,测量表示全身状态、局部状态和染色体状态的分子。以在步骤S3中确定的时间间隔进行测量。

针可用作用于测量血液中的分子标记的装置。可使用针采集少量的血液。此外,根据分子,可使用经皮测量血液分子的方案。可通过对要测量的分子荧光标记所选择的抗体来实施分子的类型或量。

在步骤S5中,创建单元14创建时间序列变化图形。具体地,创建基于式子(5)至式子(11)的图形图。此外,在步骤S6中,分割单元15分割分量。即,使用生物状态空间模型从时间序列数据中提取三个分量。三个分量可以被设定为例如周期分量、环境刺激响应分量和基线分量。

用于预测和控制的信息需要从分子标记的时间序列测量数据中选择。作为一种方案,期望将包括多个血液分子的多变量时间序列数据作为“状态空间模型”以统一方式来管理。“状态空间模型”包括两个子模型:系统模型和观察模型。在一般情况下,使用如下的条件概率来表达两个子模型。

x

y

本文中,y

可用于表示从代谢综合症到糖尿病和循环系统疾病的进展的各个可测量的血液分子(如分子群)、与免疫系统疾病相关的分子群、内分泌系统的分子群等的时间序列数据y(t)由下面的式子表示。即,可使用包括三个不同分量的模型来表达。

y(t)=s(t)+x(t)+b(t)+v(t) (5)

s(t):周期分量

x(t):环境刺激响应分量

b(t):基线分量

v(t):观察误差

环境刺激响应分量x(t)可以被公式化为如下的多线性模型。

x(t)=F(t)×(t-1)+v

i=1,2,3,...,n

在上述式子中,F(t)表示相对于环境刺激的输出的转换函数,且v

基线分量b(t)可通过多项式平滑样条模型被定义为如下m度的回归模型。

[式子1]

a

另外,基线分量b(t)可被表示为如下。

b(t)=H(t,t-1)b(t-1)+V(t,t-1) (8)

H(t,t-1)是m×m矩阵,且V(t,t-1)是与m维噪音相关的矩阵。使用该模型选择用于平滑基线的最佳函数。

在本技术的“动态构建模型”中,周期分量s(t)的主要分量因素是24小时间隔的昼夜节律。当在间隔期间获得p个观察值时,周期分量近似满足下面的式子。

s(t)=s(t-p) (9)

当这使用时间延迟算符G来表示时,近似满足下面的式子。

(1-Gp)s(t)=0 (10)

因此,1度的周期分量可通过白噪音ν(t)被公式化为如下的季节性调整模型。

[式子2]

通过该处理,血液分子的时间序列数据可被分为周期分量、环境刺激响应分量和基线分量。

在步骤S7中,识别单元16识别恒定区。即,使用“生物体局部恒定模型”来识别恒定区。

可通过使用周期分量、环境刺激响应分量和基线分量的模型分析时间序列数据,来发现局部恒定区。在“动态构建模型”中,强调由“经历时间演化的细胞记忆”引起的稳定状态的变化和新稳定状态的获取是有用的。细胞记忆影响基线分量、周期分量的振幅和频率以及环境刺激响应分量的最高表达水平和最低表达水平的变化。其中,可以独立于来自环境的输入的强度来识别基线分量的变化和周期分量的振幅和频率的变化。注意这一点,根据基线分量的变化、周期分量的振幅的变化以及周期分量的频率的变化中的至少一个来识别局部恒定区。

除了24小时间隔的昼夜节律之外,血液分子群的时间序列变化包括按月或按年重复出现的季节变化的模式。当这被解释为基线的变化时,存在导致错误的预测或控制方案的风险。从基线分量中提取季节分量,且将所述季节分量分割为长时间段的周期分量。

在步骤S8中,识别单元16识别因果关系。即,创建各分子的稳定状态间的因果关系。动态构建模型可以用来识别因果关系。

与通过该方案抽象化的“经历时间演化的细胞记忆”相关的血液中的分子群的恒定区根据时间顺序形成直接或间接的因果关系。为了对疾病进展的控制应用因果关系,通过使用恒定区作为节点创建与概率结构/因果结构相关的图形结构来表示因果结构。

图3是示出与使用五个血液分子A、B、C、D和E的四个恒定区y

在这个模型中,节点Y

与这种生物分子的恒定区之间的因果结构相关的图形结构的推定可以公式化如下。首先,生物分子Molecule 1的定常状态的值被视为随机变量。即,在一种情况下,Molecule 1的量被视为随机变量X1的实现值。由实施方式的生物体局部恒定模型处理的观察数据可被视为测量一种情况下p种血液分子类型的随机变量的实现值的数据。由于在不同的时间段和情况下观察定常状态,所以由局部恒定模型处理的观察数据可以被表示为数据矩阵。即,包括n个不同定常状态的观察数据的大小是p×n矩阵。分析的目的是推定矩阵数据中的依存关系。

作为推定表示数据矩阵中随机变量之间的依存关系的图形的方案,提出了各种数学模型,如布尔网格、贝叶斯网格、图形高斯模型和常微分方程,并且这些模型可为本实施方式所使用。在这些模型之中,通过假设使用随机变量之间的非闭合路径有向图所表达的依存关系,并假设非闭合路径有向图的节点和结构之间的依存关系的马尔科夫链定律,使用由基于相对于父变量为随机变量的给定集合的条件概率的乘积表达的贝叶斯网格的推定可用于本实施方式。

贝叶斯网格的进一步详细适应可应用用于DNA芯片的数据分析的方案(333-356,第二期,第54卷,玉田嘉纪、井元清哉、宫野悟,统计数理(333-356,Second issue,Volume54,Statistical Mathematics,Yoshinori Tamada,Kiyochika Imoto,and SatoruMiyano))。具体地,通过使实施方式的定常状态的表达水平与DNA芯片的mRNA的表达水平匹配来实现。现有的生理模型可用作先前的知识,以推定本实施方式的定常状态图形结构。

首先,以个人级别构建图形结构。现有的生理模型会不足够匹配个体的多样化或多元化,因此在图形结构推定中会存在误差。为了优化图形结构,可对多个个体图形结构进行相互比较,并且将其被分类为具有类似结构的小组,并再次选择图形结构。以此方式,构建最佳图形结构。

导致多个患者的共同症状的原因和结果的路径在个体之间会是不同的。因此,为具有相同因果结构而不是使最佳图形结构汇聚为一个的每组确定最佳图形结构。

在步骤S9中,识别单元16识别分子标记的因果关系和与外部环境的关系。即,创建各个分子之间的因果关系和与环境的关系。生活习惯的时间序列变化的测量值可以用作外部环境。

当来自环境的输入可以被定量测量时,可通过分析其中在不同时段接收到的不同强度的刺激影响血液分子的反应性的机制,表示“构建的变化”并将其应用于控制。例如,可以由DRM(每日重建方法)(一天构建方法)测量负应激水平。这针对每个事件将一天分割成平均约24个度,并以一步一步的方式以0至6的数值表示相应的正值和负值。

参照膳食的影响,通过电子记录每餐的内容,测量诸如热量、碳水化合物(糖类)、脂肪、蛋白质、维生素和植物化学物质的摄入信息是可能的。此外,能够测量补充物等的摄入量。当观察到环境刺激和血液分子的表达水平的变化之间的相关性时,环境刺激可以用于控制目的血液分子的表达水平的变化,即,生物体状态的变化。

在步骤S10中,推定控制单元17推定并控制状态变化。即,推定人的生物体状态的未来变化,并提出包括预防方案的干预方案。

状态变化的推定将在步骤S8中获取的恒定区之间的因果结构的相互类似性分类为组。以此方式,可以通过从经历疾病发展的患者中获得的因果结构推定出归类在同一组中的疾病预备组的未来变化。此外,疾病从疾病发作之前的潜在变化恢复至健康状态而没有任何疾病发作的因果结构可用于预防疾病发作的控制方案。分子标记(即,内部环境)的因果关系和在步骤S9中识别的与外部环境的关系可用于控制。

<第二实施方式>

[动态构建模型至培养细胞的标准化的应用]

图4是示出预测和控制培养细胞的细胞状态的生物信息处理装置51的构造的框图。生物信息处理装置51包括选择器61、测量单元62、确定单元63、分割单元64、识别单元65和推定控制单元66。

选择器61选择测量分子。测量单元62进行测量。确定单元63确定测量间隔。分割单元64分割分量。识别单元65识别恒定区,并识别分子标记之间的因果结构和分子标记和环境条件的因果结构。推定控制单元66推定和控制培养细胞的细胞状态。

图5是示出预测和控制培养细胞的细胞状态的处理的流程图。在下文中,将参照5描述由图4的生物信息处理装置51执行的预测和控制处理。

在步骤S31中,选择器61选择测量分子。

改变伴随培养细胞的培养的性质是使用细胞构造评价系统或使用细胞作为有效成分的药物的开发的主要障碍。在培养细胞状态变化的预测和控制中,能够对中尺度的状态推定的问题进行公式化。中尺度的状态由通过在培养基中添加的成分和由培养细胞产生的分子形成的局部细胞外环境表达。因此,在培养细胞的状态预测和控制中,测量由培养细胞产生的分子群和培养基中的分子的时间序列变化。

由培养细胞产生的分子除了包括分泌细胞之外,还包括以细胞表面表达的分子群,但不包括细胞内信息转导分子或转录因子。对于培养基中的成分,对测量IGF-I或胰岛素的量是有用的。对于由细胞产生的分子,除了胰岛素和IGF-I之外,对整合素家族分子、包括FGF-2、EGF和PDGF的生长因子是有用的。

在步骤S32中,测量单元62进行测量。

当与培养基比较时,通过获取较小量的样本来测量由培养细胞产生的分子和培养基中的分子。此外,对于由细胞产生的分子中由细胞外表达分子获取的且不会浮游于培养基中的分子,在分子上进行荧光标记,然后通过培养细胞的图像分析进行定量估算。此外,对于难以测量的分子,通过使用细胞内的报告系统由分泌蛋白或膜蛋白的基因表达来代替测量。

在步骤S33中,确定单元63确定测量间隔。

优选的是,测量间隔在约十分钟到一小时的范围内。当使用报告系统时,获取连续数据。

在步骤S34中,分割单元64分割分量。此外,在步骤S35中,识别单元65识别恒定区。

为了从所获取的分子标记的时间序列数据中提取信息,以统一的方式将包括由培养细胞产生的分子和培养基中的分子的多变量时间序列处理为状态空间模型。状态空间模型包括两个子模型:系统模型和观察模型。在一般情况下,使用如下的条件概率表达两个子模型。

x

y

在本文中,y

由培养细胞产生的分子群的时间序列数据y

在步骤S36中,识别单元65识别分子标记之间的因果关系。在步骤S37中,识别单元65识别分子标记和环境条件的因果结构。

周期分量的振幅和频率的变化、基线的变化、添加到培养基中的人工成分的时间变化和环境刺激响应分量形成根据时间序列的直接或间接的因果关系。为了对培养细胞状态的变化控制应用因果关系,通过使用各种培养基中的分子群和由培养细胞产生的分子群的局部恒定状态作为节点,创建与概率结构/因果结构相关的图形结构来表达因果结构。

图形结构是基于常规生物学知识来创建的,并然后升级到使用时间序列数据的最佳图形结构。图形结构的变化被作为回归分析中的共变量的选择问题来解决。导致状态的相同变化的培养细胞的原因和结果的路径依据起源而不同。因此,为具有相同因果结构而不是使最佳图形结构汇聚为一个的每个培养细胞组,确定最佳图形结构。“生物状态空间模型”的状态变化特性用于该组的分类。此外,单独创建由环境条件(诸如培养基成分、细胞培养密度、氧分压和温度)的变化的干预导致的因果结构。

在步骤S38中,推定控制单元66推定和控制培养细胞的细胞状态。

可根据过去的因果结构(其中在类似的条件下培养源自相同组织的细胞)进行培养细胞状态的变化的推定和控制。此外,可根据细胞状态的变化和环境条件(诸如培养基成分、细胞培养密度、氧分压和温度)的变化的因果结构进行在获得细胞状态的方向上的控制。

<第三实施方式>

接下来,讨论产生血液中分泌的分子A的细胞的模型。如图6所示,细胞具有以下特性。

(1)通过定常状态下的昼夜节律进行控制。

(2)响应于来自环境的刺激产生诱导表达。

(3)通过阻遏物R和分子A的受体接收正反馈和负反馈。

(4)当以表观遗传的方式修饰阻遏物R时,控制表达。

细胞中由血液分泌的分子A的时间序列变化改变为图7的A的y。

假设时间序列测量数据y(t)如下。

y(t)=s(t)+x(t)+b(t)+v(t) (14)

s(t):周期分量

x(t):环境刺激响应分量

b(t):基线分量

v(t):观察误差

环境刺激响应分量x(t)被公式化为如下的多线性模型。

x(t)=F(t)×(t-1)+v(t) (15)

在上述式子中,F(t)表示相对于细胞的环境刺激的输出的转换函数,且v(t)表示环境刺激。关于转换函数的参数,使用自回归模型搜索最佳值。

基线分量b(t)被定义为如下2度的回归模型,并被使用。

b(t)=a

在本文中,a

b(t)=H(t,t-1)b(t-1)+V(t,t-1) (17)

在本文中,H(t,t-1)是2×2矩阵,且V(t,t-1)是两维噪音。选择优化的函数以使得平滑基线。

周期分量s(t)是基于24小时间隔的昼夜节律的。因此,当在间隔期间获得p个观察值时,周期分量近似满足下面的式子。

s(t)=s(t-p) (18)

当这使用时间延迟算符G来表示时,近似满足下面的式子。

(1-G

因此,1度的周期分量可通过白噪声ν(t)被公式化为如下的季节性调整模型。

[式子3]

使用这个模型,图7的A的y的时间序列数据被分解成周期性分量s、环境刺激响应分量x和基线分量b。在此,图7的A中的i表示诱导分量。

接下来,根据基线的可变特性,进行分解成三个恒定区Y

以此方式,在每个实施方式中,能够公式化人的生物体的时间演化变化,以预测和控制可用于健康管理、疾病预测、疾病根治等的生物状态的变化。

此外,能够将实施方式应用于控制慢性疾病的发作和由长期的生活习惯造成的慢性疾病的进展,该慢性疾病使用常规方案不能治疗。此外,实施方案可同时管理个体之间的共通性和异质性,因此是用于个人医疗保健的有效工具。此外,本实施方式可控制由细胞培养诱导的细胞的时间演化造成的多样化,并且可应用于细胞评估系统或细胞治疗的标准化。

<第四实施方式>

由胎内营养不良造成的胎儿发育不全导致大多数新生化体重偏低,从而需要赶上两岁的延迟,以具有标准体重的出生孩子的体格。当在出生后接收低热量饮食作为饮食时,用于赶上延迟的成长被抑制,而甚至在两岁之后接收高热量饮食,生长也可能无法赶上延迟。当快速成长被表现为追赶延迟时,未来,观察到胰岛素抵抗性的风险会增加(Rotteveel,J.et al.European Journal of Endocrinology 158;899-904,2008)。即使当体格恢复时,由适于胎内营养环境的胚胎改变的胰腺β细胞的分化效率低下,胰岛素信号的响应性、食欲水平、应激反应响应性等不可恢复,这被推定为一个原因。

然而,并非由发育不良导致的所有低体重婴儿(表现出用于赶上延迟的生长)经历胰岛素抵抗的发作。每个个体的胰岛素分泌能力、胰岛素信号响应性、食欲水平和应激反应响应性不会表现出诸如用于赶上延迟的生长的快速变化,而同时被生活习惯变化。因此,通过使用本实施方式的方案监测血液中的胰岛素的量、血液中瘦素的量、血液中的糖皮质激素的量、血糖水平、热量摄入量等,能够预测和控制肥胖趋势、胰岛素抵抗发病趋势等。

具体地,当由于进食而摄入热量的关系,测量进食之后的胰岛素分泌量和血糖水平的时间变化,并且每天进行比较,能够测量每次胰岛素分泌的热量摄取的生产量以及胰岛素的响应性的强度变化从一个定常状态改变到另一个定常状态。定常状态的变化可被分类为其中胰岛素抵抗性提高的方向上的变化和其中胰岛素抵抗性降低的方向上的变化。胰岛素分泌量和胰岛素响应性的强度的增加是提高方向上的变化,相反是降低方向上的变化。

使用本实施方式的方案,糖皮质激素或瘦素的分泌量可以首先被公式化为从一个定常状态到另一个定常状态的变化。当瘦素的生产量相对于预定热量摄取低时,降低食物摄取的抑制,肥胖趋势增加。当糖皮质激素的量高时,在多个作用部位中,肥胖趋势和循环系统疾病发病趋势增加。因此,糖皮质激素的分泌量减少且瘦素的分泌量增加的方向上的定常状态的变化是胰岛素抵抗性和相关疾病的发病趋势提高的方向上的变化。

本实施方式的特征之一是广泛跟踪各种生物体内的分子的时间变化。因此,本实施方式可使用胰岛素分泌、胰岛素响应性、糖皮质激素分泌和瘦素分泌,以识别从一个定常状态到另一个定常状态的变化中所涉及的生物体内的未知分子。此外,通过明确新的相关生物分子的关系和使用本实施方式的方案的生活习惯的记录,能够提出一种用于改善胰岛素抵抗性或肥胖的新的改善方案。

<第五实施方式>

对于男性和女性,其中硫酸添加到脱氢表雄酮的血液中的DHEA-S的量在约6至7岁的年龄开始增加,在约12到13岁的年龄达到峰值,保持高值直到约13到25岁的年龄,然后随着年龄的增大而线性下降。在长期跟踪研究中,世界各地的很多研究都阐明了男性血液中的DHEA-S值与心血管疾病的死亡率或发病率反相关(柳濑敏彦,抗衰老医学,第5卷.No1.42-46,2009)。然而,目前还不清楚是什么降低了DHEA-S的生产量。根据本实施方式,生物分子与DHEA-S分泌量从一个定常状态到另一个定常状态的变化相关,且可阐明与生物分子的变化相关的生活习惯,并可进行抑制DHEA-S的降低的方案的新提议。

<第六实施方式>

延缓衰老和延长寿命的最有效的方案是热量的限制。热量的限制是在摄入最佳营养而不是仅仅减少餐量时进行热量的限制。然而,关于最佳营养或适当热量限制水平的充分科学证据是不存在的。本实施方式可以用来阐明个人级别的最佳营养摄入水平或热量摄入水平。

例如,当对很可能得糖尿病的病人强迫进行热量限制时,能够测量对应于炎症性指标的C-反应蛋白(CRP)和对应于脂肪细胞的质变的指标的脂联素产物和活性氧产物的时间系列变化。以此方式,可以对脂肪细胞的状态、活性氧应激的状态和从一个定常状态到另一个定常状态的炎症性状态变化公式化。

此外,本实施方式还可以用来识别与从一个定常状态到另一个定常状态的变化相关的新生物分子。可以使用与生物分子标记和进食相关的新发现的时间系列记录来单独优化营养摄入和热量摄入。

<第七实施方式>

对压力的敏感性的差异引起由慢性压力所造成的抑郁症或自杀的发病。压力的敏感性取决于由海马投射至杏仁核的糖皮质激素响应性的神经元的负反馈强度。此外,神经元的负反馈强度取决于糖皮质激素受体基因的表观遗传修饰。当针对神经元的表观遗传修饰与控制组相比自杀时,表明,受儿童虐待或儿童疏忽的人具有由表观遗传修饰抑制的糖皮质激素受体基因(Hyman,S.Nature Neuroscience,Vol.12,No.3,241 243,2009)。

当识别出对压力的灵敏性的水平时,能够通过定量地识别很可能经受抑郁症的发病的人并提供合适的环境来防止抑郁症发病。当使用本实施方式以约10分钟的短时间间隔测量血液中的糖皮质激素的时间序列变化时,该时间序列的变化可被分为每天变化分量和刺激依赖分量。使用每天变化分量,可以计算测量日期血液中的糖皮质激素的平均分泌量。此外,使用刺激依赖分量,通过测量最大分泌量和持续时间可以计算负反馈的相对强度。因此,当应用本实施方式时,能够测量对压力的敏感性,并跟踪对压力的敏感性随生活习惯变化的过程。

与抑郁症发病机制方面相关的最著名的假说认为BDNF(脑源性神经营养因子)的降低是起因,BDNF是神经营养因子(Shi,Y.et al.Psychiatry and ClinicalNeuroscience 64,249-254,2010)。BDNF是通过t-PA(组织型胞浆素原活性化因子)由前BDNF(BDNF前体)产生。即,使用本实施方式,能够通过观察血液中的BDNF、前BDNF和t-PA的时间序列变化并识别从一个定常状态到另一个定常状态的变化来推定抑郁症的发病或治疗效果。此外,本实施方式可用于发现与抑郁症的发病和预防相关的新生物分子标记。

<第八实施方式>

慢性劳累过度(如对伴侣的护理和心理压力)会增加传染性疾病的频率,减少伤口愈合的能力,并增加高血压或肝脏疾病的频率。与慢性劳累过度和心理压力相关的生物标记包括炎性细胞因子IL-6(白细胞介素6)。已知IL-6与随着年龄发展的循环系统疾病、骨质疏松症、2型糖尿病、癌症、牙龈疾病、虚弱体质、器官衰竭等相关联。通过伴随抑郁、消极情绪和压力的经验发展为诱导产生IL-6。此外,从事护理的人的血液中的IL-6比不从事护理的人的血液中的IL-6更加显著增加(Kiecolt-Glaser JK et al.Proc.Natl.Acad.Sci.USA100:9090-9095)。这样,通过跟踪IL-6的表达水平的变化,能够预测和预防与年龄相关的疾病或与压力相关的疾病的发病。

<第九实施方式>

人体是开放系统,且未来的身体状况不是过去的简单重复。本技术的细胞记忆可仅通过测量生物分子获取其中生物体根据历史经历时间演化的过程,并可公式化该过程。为了对个人保健应用该公式化的基于时间的变化,需要基于个体的多样性和多元化来提供未来生活习惯的适当选择。

此外,个体从父母继承的DNA序列信息可用于在基于本技术启动个体的生物状态测量之前,推定过去的多样性和多元化的物质。每个个体的当前多样性是由遗传多样化和过去的生活习惯形成。这样,通过基于细胞记忆信息、DNA多态性信息和经历本技术的时间演化的生物分子的生活习惯合并三种环境信息,能够提高对健康的未来预测的准确性。

随着基础装置技术的发展,能够分析个体的全基因组序列。根据序列分析,能够检测包括在个体中的单核苷酸多态性和结构多态性。基因多样性和健康或疾病之间的关系可分为四种类型:染色体异常、单基因病、多因素基因疾病和突发性疾病(Thompson&Thompson“Genetic Medicine,Seventh Edition”Medical Science International,2009)。

人的体细胞含有23对、46条染色体,其中22对为不包括两性之间的差异的常染色体。剩余对被称为性染色体。女性有两条X染色体,男性有一条X染色体和一条Y染色体。染色体异常的发生频率高,每1,000个新出生的婴儿中有约6个新出生的婴儿受到影响。在染色体异常中,与染色体数目增多相对应的异常经常会发生。当染色体的数目增加1个,即被称为三染色体。例如,21-三体综合症会引起名为唐氏综合症的一种疾病。大约每800个人中就会有一个人是天生患有唐氏综合症。

出生婴儿患有唐氏综合症的频率随母亲的年龄指数增加,母亲的年龄是45岁以上时,约1%的婴儿出生时患有唐氏综合症。唐氏综合症的一个主要问题是智力低下。然而,此外,白血病的风险增加,而且很多患有唐氏综合症的患者在40岁之后会发展为阿尔茨海默氏症型痴呆。21-三体综合症的90%的原因是包含在形成母亲卵子的减数分裂的过程中。因此,21-三体综合症从受精的时刻就发生异常。然而,症状在各个时期发生,且“时间延迟”包括在遗传性病因形成和疾病发病之间。

单基因病是一种由基因的基因组突变发展的并被称作为孟德尔障碍的疾病。到目前为止,报告了3917种类型的孟德尔障碍。遗传模式包括显性模式和隐性模式。显性模式是仅通过遗传母亲和父亲中的一个的基因突变而发展的遗传模式。部分隐性模式表示只有当基因突变是从父母双方遗传时发展的遗传模式。已知,组的2%在生命开始的时候出现单基因疾病。

单基因病是一种主要在童年时期发展的疾病。然而,约不到10%的单基因疾病在青春期后出现症状。此外,1%以下会在生殖年龄结束之后的生命后期会出现症状。一生中不管症状开始的时期多长,在获取变异和症状发病之间会观察到“延迟时间”。

出生时观察到的疾病(如先天性异常)和在中年发展的慢性疾病(如心肌梗死、癌症、糖尿病、风湿病、精神疾病、痴呆症等)被称为多因素疾病。出生时出现这种类型疾病的频率是每1,000人中有约50人。然而,由于很多人受到慢性疾病的影响,所以从组中看到每1,000人中有约600人。很多基因因素结合会发病,其中经常接触或有机会接触到特定环境因素被认为是涉及其中。由被称为全基因组关联研究(GWAS)的方案分析该多因素疾病的基因影响。

突发性疾病被定位于孟德尔基因突变和多因素疾病之间。除了家族性疾病之外,帕金森氏病或阿尔茨海默氏病包括在突发性疾病中。不同于多因素疾病,个体基因组序列分析需要被用来识别该突发性变异。

对于染色体异常,孟德尔单基因疾病、多因素疾病以及突发性疾病中的任何一种,时间延迟都包括在变化的获取和发病之间。此外,不适合描述多个环境因素使疾病发展为即时的响应反应。“时间延迟”包括在包括遗传因素和环境因素时的时间点和疾病发展时的时间点之间。即,遗传因素和环境因素创建生物体的潜在变化,作为细胞记忆,这在遗传因素和环境因素形成组合时显现为一种症状。

当环境条件的变化添加至基因多态性时,获取细胞记忆,从而定量地记录环境条件对于未来的健康预测是有效的。在环境条件中,可定量测量外部环境,如压力、饮食习惯、运动习惯、感染史和治疗史。

当个人不适应环境时,识别压力,并且对于相同的环境条件在人们之间感觉到的压力是不同的。因此,不能仅根据环境条件确定压力。采用例如每日重建法(DRM方案)记录压力是有效的(Kahneman D,Krueger AB,Schkade DA,Schwarz N,Stone AA.“A surveymethod for characterizing daily life experience:the day reconstructionmethod.”Science.306:1776-1780,2004)。

该方案将每天的事件分割为24度,并记录各个心理的正值和负值。以此方式,能够识别每个时刻的压力应对的情况。通过继续记录,压力可分为约几个小时至一天的短期压力、约数天至一个月的中期压力和超过几个月的长期压力。

关于饮食习惯,通过记录被分为烹饪原料的膳食内容,能够记录热量的摄入量、碳水化合物比例、蛋白质比例和脂肪的类型和量、维生素、植物化学物质、微量金属(铁、锌、铜、钴、碘、硒、锰、钼、铬、硼和钒)、饮酒(酒精)等。

关于运动量,使用包括加速度传感器的便携式装置能够自动测量行走和跑步的质量或数量。

可通过私人医生的电子图表数据识别感染史或治愈/剂量史。此外,个人摄入的中药或一般药物可由个人来记录。

如前面所描述,可使用作为染色体异常、单基因疾病、多因素基因疾病和突发性疾病的病因的DNA的单核苷酸多态性和结构多态性分类个体的基因多样性。能够使用压力状态、饮食摄入成分、运动量、感染史、治愈/剂量史来定量地记录环境条件的基于时间的变化。

为了基于细胞记忆信息、DNA多态性信息和经历本技术的时间演化的生物分子的生活习惯合并三种环境信息,使用条件概率阐明以下三个小组之间的关系。三个小组是基于基因多样性划分的小组、基于环境条件的变化划分的小组和基于生物分子的细胞记忆信息划分的小组。基于基因多样性划分的小组是作为染色体异常、单基因疾病、多因素基因疾病和突发性疾病的起因的DNA的单核苷酸多态性和结构多态性的基因多样性的小组。基于环境条件的变化划分的小组是基于环境条件(诸如压力状态、饮食习惯、运动习惯、感染史、治愈/剂量史)的小组。基于生物分子的细胞记忆信息划分的小组是基于由图2的流程图中所示的过程产生的由图3所代表的生物状态的变化。

如图8所示,组的条件概率的关系可宽泛地分为以下三种关系。

i)基因多样性和环境条件之间的关系

ii)环境条件和生物状态之间的关系

iii)基因多样性和生物状态之间的关系

对个人保健应用本技术提供了未来的选项,以基于被表示为生物体的分子的表达水平的恒定区之间的因果关系的保健受试者的过去的细胞记忆的数据来保持健康。识别未来的选项的方案包括参考另一个人(即,受试者之外的人)的生活习惯的记录,所述另一个人综合地具有与受试者的历史类似的历史,如基因信息的历史、环境条件的历史和生物状态的历史。本方案可以通过阐明个人的生物分子的细胞记忆信息、如DNA多态性信息的基因信息和基于图8中所示的生活习惯的环境信息之间的相关性的相似度来实现。

数据的相似度可以通过应用常规聚类方法来确定。聚类方法大致可分为分割型聚类和层级聚类。具体地,能够应用以下文献中描述的方案:A.K.Jain,M.N.Murthy和P.J.Flynn,Data Clustering:A Review,ACM Computing Reviews,(1999)或Ying Zhao和George Karypis,“Hierarchical Clustering Algorithms for Document Datasets”,Data Min.Knowl.Discov.10(2):pp.141-168(2005)。

当进行本实施方式的过程时,生物信息处理装置101被配置为如图9所示。生物信息处理装置101包括选择器111、确定单元112、测量单元113、创建单元114、分割单元115、识别单元116、检测器117、搜索单元118、数据库119和推定控制单元120。选择器111、确定单元112、测量单元113、创建单元114、分割单元115、识别单元116和推定控制单元120的功能基本上类似于图1中所示的选择器11、确定单元12、测量单元13、创建单元14、分割单元15、识别单元16和推定控制单元17的功能。因此,描述可重复,并因而被提供。

检测器117检测基因信息。搜索单元118从数据库119中搜索类似的历史。

数据库119通过将信息分类为上述参考图8所述的三个小组中的任一个来存储多个个人。即,将通过执行前述中所述的图2的过程所获得的多个人的检查结果的信息存储。此外,在该情况下中,添加用于获得确定被分类的三个小组中的一个所使用的信息的测量/检查。具体地,除了诸如压力状态、饮食习惯、运动习惯、感染史、治愈/剂量史的环境条件的测量/检查和生物分子的细胞记忆信息的测量/检查之外,还添加指定DNA的单核苷酸多态性和结构多态性的基因多样性的测量/检查。

本实施方式的该过程示于图10的流程图中。在下文中,将参照图10描述本实施方式的过程。

在步骤S101中,执行数据库形成处理。即,对多个个人进行图2的流程图中所示的处理,同时进行指定每个个人的DNA的单核苷酸多态性和结构多态性的基因多样性的测量/检查,并将结果存储于数据库119中。然而,以隐藏个人隐私的形式存储信息。

如前面所述,数据库119中存储的信息被分为基于基因多样性的组、基于环境条件变化的组和基于生物分子的细胞记忆信息的组。然后,使用条件概率分析下面各组的三个关系。

i)基因多样性和环境条件之间的关系

ii)环境条件和生物状态之间的关系

iii)基因多样性和生物状态之间的关系

为了便于描述,数据库形成过程被描述为图10的流程图的健康状态预测过程的步骤1。然而,当使用方案预先生成数据库并提供数据库时,可以使用数据库。在这种情况下,可跳过数据库形成过程。

图10的步骤S102至S109的过程基本上类似于图2的步骤S1至步骤S8。将简要地进行描述,以避免重复描述。即,在步骤S102中,选择器111选择保健的受试者的测量分子。在步骤S103中,确定单元112确定分子测量间隔。在步骤S104中,测量单元113以在步骤S103中确定的分子测量间隔测量在步骤S102的过程中选择的测量分子。

在步骤S105中,创建单元114创建时间序列变化图。即,根据上述式子(5)至(11)创建图。此外,在步骤S106中,分割单元115分割分量。即,使用生物状态空间模型,时间序列数据被分割成周期分量、环境刺激响应分量和基线分量。

在步骤S107中,识别单元116识别恒定区。即,使用“生物体局部恒定模型”识别恒定区。在步骤S108中,识别单元116识别因果关系。即,创建每个分子的恒定区之间的因果关系。动态构建模型可用于识别因果关系。

在步骤S109中,识别单元116识别分子标记的因果关系和与外部环境的关系。即,创建各个分子之间的因果关系以及与环境的关系。生活习惯的时间序列变化的测量值可用作外部环境。由受试者输入测量值,或者由测量装置等输入测量值。

通过上述过程,获得受试者的生物体的环境信息和细胞记忆信息。

在步骤S110中,检测器117检测DNA多态性。即,检测器117检测单核苷酸多态性和结构多态性,作为包括保健的受试者的基因的基因信息。

当如前所述获得受试者的历史时,在步骤S111中,搜索单元118从存储于数据库119中的信息中搜索类似于受试者的历史的另一人的历史。即,如前所述,确定个人的生物分子的细胞记忆信息、诸如DNA多态性信息的基因信息和基于生活习惯的环境信息中的相关性的相似度,并搜索最类似的历史。

将参考图11和图12描述对类似历史的搜索。例如,如图11所示,假设根据目的选择健康的受试者的五个血液分子A至E,并进行测量。类似于图3中的情况,图11是示出使用五个血液分子A、B、C、D和E的恒定区y

节点Y

当每个恒定区中引入细胞记忆的情况被表示为符号+,并且未引入细胞记忆的情况被表示为符号—时,图11中的受试者的细胞记忆的历史可被表达为图12的矩阵。图12的符号+和符号—分别对应于图11的节点Y

此外,假设五种类型的相关分子G(A)至G(E)被检测为与血液分子A至E相关联的基因的基因信息。当每个基因中的n种类型多样性包含在由基因组分析的结果产生的比较组中,该组可以根据基因组信息被分类成n!×5(!表示阶乘)个小组(在图11中的左框中示出的组)。

当对类似历史执行搜索时,首先根据基因组信息将数据分成小组,然后从图12中所示的矩阵的同源性选择近似数据。当同源性最高时,矩阵的所有项都相互匹配。当其部分地近似时,根据大小排名近似性。由于生活习惯的记录连接到矩阵的数据,所以受试者可以参照另一个人的类似生活习惯信息来选择未来的生活习惯。

在步骤S112中,推定控制单元120推定和控制状态变化。即,推定受试者的生物体的状态的未来变化,并提出包括预防方案的干预方案。

最简单的建议是向受试者提示步骤S111的搜索结果。即,在步骤S111的搜索过程中,搜索类似于一受试者的历史的另一人的历史。当另一个搜索到的人患有疾病或生病时,受试者极有可能患有类似的疾病或病。因此,例如,受试者可通过改变生活习惯以使环境条件不同于另一个人的生活习惯来预防类似的疾病或病。

此外,可积极地构建并提供用于保持受试者的健康的其它选项。例如,在诸如压力、饮食习惯、锻炼习惯、感染史和治愈史的环境条件中,可建议指定具有很强的因果关系的元素,并且改变该元素。另外,当可改变与基因相关的因素时,可建议进行变化。

如前所述,通过搜索与健康情况的受试者的细胞记忆信息、环境信息和基因信息类似的、不同于受试者的人的生物体的信息,能够可靠地获得用于保持受试者的健康的合适信息。

在本说明书中,描述流程图的过程的步骤除了包括按照顺序以时间序列方式执行的过程之外,还包括并行或单独执行的过程,即使该过程不是时间序列过程。

此外,本技术的实施方式并不限于上述实施方式,并且在不背离本技术的精神的范围内,可进行各种变化。例如,可将两个以上的任意实施方式组合在一起。

符号的说明

1 生物信息处理装置

11 选择器

12 确定单元

13 测量单元

14 创建单元

15 分割单元

16 识别单元

17 推定控制单元

51 生物信息处理装置

61 选择器

62 测量单元

63 确定单元

64 分割单元

65 识别单元

66 推定控制单元

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号