首页> 中国专利> 表型整合的社会研究数据库和方法

表型整合的社会研究数据库和方法

摘要

一种在人类生物表型与人类行为和/或情感表型之间生成相关性和任选地与时间定位相关的方法,所述方法包括以下步骤:将关于生物表型的数据与关于行为和/或情感表型的基于调查的数据相关。关于生物表型的数据从来自个体的样品收集,而基于调查的数据可以从来自个体或来自由第三方观察个体的行为和情感问题的答案收集。相关性可以进一步用于预测行为,包括偏好、健康需求和欲望和/或情感。基于这样的相关性可以将反馈、建议和指导提供给个体。出于标准化或对产品质量和效力评级的目的,和/或出于促销和销售目的,这样的相关性进一步用于产品和服务供应商以及实业公司。还提供了一种包括关于生物表型的数据和基于调查的数据的数据库。

著录项

  • 公开/公告号CN105431853A

    专利类型发明专利

  • 公开/公告日2016-03-23

    原文格式PDF

  • 申请/专利权人 艾弗诺泰普有限责任公司;

    申请/专利号CN201480029773.0

  • 发明设计人 杰·肖特;史蒂夫·布里格斯;

    申请日2014-05-23

  • 分类号G06F19/10;G06F17/30;

  • 代理机构北京路浩知识产权代理有限公司;

  • 代理人瞿卫军

  • 地址 美国加利福尼亚

  • 入库时间 2023-12-18 14:50:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-06

    未缴年费专利权终止 IPC(主分类):G06F19/10 专利号:ZL2014800297730 申请日:20140523 授权公告日:20181228

    专利权的终止

  • 2018-12-28

    授权

    授权

  • 2016-06-22

    实质审查的生效 IPC(主分类):G06F19/10 申请日:20140523

    实质审查的生效

  • 2016-03-23

    公开

    公开

说明书

技术领域

本发明涉及使生物表型与行为和情感相关。特别地,本发明提供了 使社会行为和情感与生物表型相关的方法和数据库。

背景技术

在理解和预测消费者行为方面有很大兴趣。例如,许多在线零售商 已使用消费者浏览历史找到消费者对哪个商人感兴趣以及消费者可能从 哪个商人购买。因此,目标广告可以对准消费者推荐适合商人。几个组 已经使用用户反馈使对产品、活性和信赖(例如,Hunch: www.hunch.com)的偏好相关。其他已经使用购物行为作为引导以推荐将 来的产品购买(例如Amazon)。设备的其他专业程序(“应用程序”) 包括收集和比较用于将来预测的类似使用者的数据。一个实例是餐馆应 用程序,其中使用者给餐馆打分并且数据被收集并用于预测将来的餐馆 选择。

已经描述了预测消费者行为的方法。例如,美国专利号8,200,525描 述了通过将包括例如消费者交易信息的来自不同数据库的折合信息组合 来预测消费者行为的方法和系统,据此通过引用将其整体并入本文。

为了使卖家能够在购买周期过程中定位可能的消费者,预测将来购 买选择的能力是高度希望的。使用适当的信息,商人可以获得定制的目 标广告并为适当的消费者提供激励(例如折扣优惠券)。还被广泛认可 的是消费者希望通过研究在线存货快速、容易地并使用移动设备准确鉴 定其想要的是什么。更有效地进行研究也吸引使用者并向其提供重要的 附加值。传统地,对于理解人类行为或购物体验不使用定量物理学生物 学参数。

几个组已经使用在以下情况下发生的基因片段如单核苷酸多态性 (SNP)或DNA序列变异,该情况为在基因组中的单个核苷酸—A、T、 C或G—或其他共享序列在生物物种的成员或个体中的成对染色体之间 不同时。问卷可以用于将个体的健康风险与其遗传变异相关以及用于确 定个体的系谱(例如,23andMe,NationalGeographicand WorldFamilies.net)。此外,许多公司使用遗传信息来诊断包括心理病症 的疾病。

用于诊断医学病症的生物分子的测量实例包括测试,如广泛可用的 妊娠测试和可用于消费者和医学实验室的计数测定中的其他测试;然而 这些实例没有具体描述或预测商人和消费者希望的特征的行为。

US2003/0083822A2公开了一种基于在摄取药物之后使动物的生物 表型与动物行为相关来确定药物作用的方法,包括:(i)获得使用测试 化合物处理的一种或多种动物的行为和生理测量值以及神经和生物化学 测量值中的一个或多个;(ii)将获得的数据与表示动物对测试化合物的 响应与一组预测变量之间的概率关系的标签进行比较,所述预测变量限 定观察的行为、神经、生物化学和/或生理响应与已知药物和/或预定遗 传特征之间的相关性。所述关系可以通过使用至少一种自动非线性算法 导出。最后,由步骤(ii)的比较数据确定测试化合物的进一步临床开发 的适合性。

US2011/0224912公开了一种定量对患者药物治疗的作用的方法。 所述方法包括以下步骤:提供能够测量一个或多个生理参数的监测平 台;通过使用该监测平台获得来自患者的生理参数的第一组测量值;编 译来自第一组测量值的第一标签;以及将第一标签与之前用于确定生理 参数变化概率编译的第二标签进行比较。

US2011/0230732公开了一种用于监测个体在电子媒介背景下使响 应(例如反馈、推荐、奖励或指导)能够呈递给个体的系统。所述系统 包括:使能够测量与所述个体的健康状况或健康状况的变化相关的至少 一个生理参数的至少一个监视器,和基本上包含在至少一个电子设备中 的至少一个评估器。该评估器可以接收来自监视器的生理数据并确定个 体的健康状况或健康状况的变化。基于确定的状态与目前、过去、比较 的或存储的生理数据的比较,通过至少一个评估器生成至少一个响应。 出于改善所述个体的健康的目的,可以通过电子媒介将响应传送给个 体。

美国专利号7,468,034B2公开了一种通过以下方式监测穿衣目标的 姿势的方法,所述方式为获得关于目标身体表面的位移的信息并计算确 定目标身体表面的位移的姿势变化。可以从个人的姿势信息如放松程 度、压力程度或高兴或生气的状态推测一些有限的情感状态。该专利还 公开了基于推测的情感状态,可以对个人进行推荐如音乐选择,以帮助 个人。

本发明提供了使人的生物学参数与人的行为和/或情感状态相关以及 任选地与时间定位(temporallocation)相关的方法。这样的相关通过例 如基于预测的行为和/或情感状态,将活动、产品、服务等建议给个体而 将使个体的生活环境和生活方式的适应成为可能。相关可以进一步用于 预测行为,包括偏好、健康需求和欲望和/或情感。基于这样的相关可以 将反馈、建议和指导提供给个体。出于标准化或对产品质量和效力评级 目的,和/或出于促销和销售目的,这样的相关可以进一步用于产品和服 务供应商以及实业公司。

发明内容

一方面中,本发明提供了生成生物表型和行为表型/情感表型之间的 相关的方法,所述方法包括以下步骤:使从个体收集的生物表型数据的 数据与行为表型和/或情感表型相关,其中所述生物表型通过样品中的一 个或多个生物标志物来指示。

另一方面中,本发明的方法也可以与关于个体的生物表型的数据结 合使用关于个体的生理表型的数据,以生成在生物学和/或生理表型与行 为和/或情感表型之间的相关性。

另一方面中,本发明的方法也可以与关于个体的生物表型的数据结 合使用关于个体的时间定位的数据,以生成生物表型和行为和/或情感表 型和/或时间定位之间的相关性。

再一方面中,本发明提供了数据库,该数据库包含关于个体的生物 表型的数据、关于个体的行为和/或情感表型的数据、以及生物表型和行 为和/或情感表型之间的相关性。

又一方面中,本发明的数据库可以包含个体的身份。

再又一方面中,本发明的数据库可以包含从个体收集样品的时间和/ 或位置,并且数据库中的相关性至少部分基于时间和/或位置信息。

在本发明的各方面中,行为是生活方式行为,包括偏好、健康需 求、与健康的偏离、个性特征和/或欲望,并且数据以间接方式收集。

本发明的相关性用于许多应用,包括但不限于:用于向包括消费者 的个体提供反馈或指导;用于将产品或服务的营销和销售中有用的信息 提供给产品供应商;以及用于提供在产品或服务的分级中有用的行业信 息。

定义

如本文所使用,术语“样品”是指体液或从身体获得其他物质,包 括但不限于:唾液、汗液、血液、眼泪、粘液、尿液、口腔细胞刮屑 (mouthcellscraping)、粪便、呼气、屁、毛囊、指甲或其它体细胞。 样品可以通过以下方式收集:通过使个体呼气至表面上、刮支票 (scrapingacheck)、将痰吐在管中、将尿排在容器中或表面上、或通过 任何其他方法来提供流体(液体)或固体样品,借此例如使用采样装置 可以收集样品用于分析。

如本文所使用,术语“体液”是指可以从个体的身体分离的任何流 体。例如,“体液”可以包括血液、血浆、血清、胆汁、唾液、尿液、 眼泪、汗液和信息素等。目标体液不仅包括由身体分泌的液体,如尿 液、泪液、痰和鼻分泌物,而且还包括内部体液,如淋巴液、滑液(通 过关节穿刺术获得)或脑脊液(通过腰椎穿刺获得)。

如本文所使用,术语“数据库”是指数据的有组织集合体。数据通 常被组织成以支持需要该信息的处理的方式使现实的有关方面模型化。

如本文所使用,术语“表型”包括可以通过一些技术程序使其可见 的特征或特性并且可以包括作为可观察特性的行为。本发明的表型可以 包括基于个体的物理生物组分的生物参数的生物表型,和基于个体的行 为或情感状态的行为和/或情感表型,或其组合。

如本文所使用,术语“多肽”是指由肽键连接的氨基酸的聚合物。 天然多肽是长的、连续的且无分支的肽链。多肽可以是蛋白质或蛋白质 片段。多肽可以具有一个或多个修饰,如翻译后修饰(例如,糖基化等) 或任何其他修饰(例如,聚乙二醇化等)。

如本文所使用,术语“蛋白质组”是在一定时间通过基因组、细 胞、组织或有机体表达的整组蛋白质。更具体地,它是在规定条件下在 给定时间在给定类型的细胞或有机体中的一组表达蛋白质。

术语“多核苷酸”、“核酸”和“核酸分子”在本文中可互换使用 来指任何长度的核苷酸的聚合形式并且可以包括核糖核苷酸、脱氧核糖 核苷酸、其类似物或其混合物。该术语仅指分子的一级结构。因此,该 术语包括三链脱氧核糖核酸、双链脱氧核糖核酸和单链脱氧核糖核酸 (“DNA”)以及三链核糖核酸、双链核糖核酸和单链核糖核酸 (“RNA”)。其也包括例如通过烷基化和/或通过加帽修饰的或未修饰 形式的多核苷酸。更具体地,术语“多核苷酸”、“核酸”和“核酸分 子”包括多脱氧核糖核苷酸(含有2-脱氧-D-核糖)、包括拼接或未拼接 的tRNA、rRNA、hRNA和mRNA的多核糖核苷酸(含有D-核糖)、 以及为嘌呤或嘧啶碱基的N-糖苷或C-糖苷的任何其它类型的多核苷酸。

如本文所使用,术语“核苷”和“核苷酸”包括不仅含有已知嘌呤 和嘧啶碱基而且含有已经被修饰的其他杂环碱基的那些部分。这样的修 饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶或其它杂环。修饰的核 苷或核苷酸还可以包括对糖部分的修饰,例如其中一个或多个羟基被卤 素或脂族基团取代,或官能化为醚、胺等。术语“核苷酸单位”旨在包 括核苷和核苷酸。

如本文所使用,术语“微生物”包括病毒、来自古生菌域、细菌域 和真核生物域的原核微生物物种和真核微生物物种,后者包括酵母和丝 状真菌、原生动物,藻类或高等原生生物。术语“微生物细胞”和“微 生物”可以与术语“微生物类”互换使用。

如本文所使用,术语“微生物群落”是指具体定位位置中的微生物 的群体。微生物群落的实例包括在胃中的微生物、在肠中的微生物、在 正常皮肤的外表面定居的微生物。微生物群落典型地在正常情况下不会 对个体造成威胁且不会引起感染。

如本文所使用,术语“代谢物”是指在代谢过程中产生的任何物 质。如本文所使用,术语“代谢”被定义为参与保持细胞和有机体的生 活状态的所有化学反应。代谢可以便利地分为两类:分解分子以获得能 量的分解代谢和合成细胞所需要的所有化合物的合成代谢。代谢与营养 和养分的可用性密切相关。

如本文所使用,术语“适体”是指对靶分子,如蛋白质、多核苷酸 或小分子(例如代谢物)具有特异性结合亲和力的核酸。适体可以是单 链核酸或双链核酸(如RNA或DNA),其不同的核苷酸序列确定了将 分子折叠成独特的三维结构。与所有核酸一样,特定的核酸配体可以通 过典型地15-40个核苷酸长的核苷酸(A、U、T、C和G)线性序列描述。

如本文所使用,术语“阵列”包括具有(bearing)与可寻址区域相 关的特定化学部分或多个部分(如配体,例如,生物聚合物如多核苷酸 或寡核苷酸序列(核酸)、多肽(例如蛋白质或抗体)、糖类、脂质、 适体等)的可寻址区域的任何一维、二维或基本上二维(以及三维)布 置。在许多感兴趣的实施方案中,阵列是包括寡核苷酸、多核苷酸、 cDNA、mRNA、及其合成的模拟物等的核酸阵列。其中阵列是寡核苷 酸阵列,寡核苷酸可以共价连接至在沿着核酸链的任何点处的阵列。在 一些实施例中,寡核苷酸连接到其一个末端处(例如,3'或5'末端)。

在一些实施方案中,阵列可以包括选择性地结合至样品中的分子 (例如多核苷酸、多肽、代谢物)的多个抗体和/或适体。

如本文所使用,术语“微阵列”是指多核苷酸、多肽、适体和化学 微阵列。特异性多核苷酸、多肽、抗体、小分子化合物、适体、肽和糖 类可固定在固体表面上以形成微阵列。微阵列可以用于检测样品中的多 核苷酸、多肽和其他化学物质。

如本文所使用,术语“特异的”、“特异性地”或“特异性”是指 第一分子与第二分子的结合,即第一分子与第二分子之间的稳定络合的 识别、接触和形成,基本上很少指第一分子与第二分子中的每一个与可 以存在的其他分子之间的稳定络合的不识别、不接触和不形成。示例性 的特异性结合包括抗体-抗原相互作用、细胞受体-配体相互作用、多核 苷酸杂交、酶底物相互作用等。

如本文所使用,术语“抗体”是指完整的免疫球蛋白质分子,以及 能够结合至抗原表位的免疫球蛋白质分子的片段如Fab片段、Fab'片 段、(Fab')2片段,Fv片段和SCA片段。保留了选择性地结合至这些 抗体片段衍生的抗体的抗原(例如,多肽抗原)的一些能力的这些抗体 片段可利用本领域熟知的方法(参见,例如Harlow和Lane,同上)制备 并进一步描述如下。抗体可用于通过免疫亲和色谱法分离制备量的抗 原。这样的抗体的各种其他用途是用于诊断疾病和/或将疾病分阶段(例 如,肿瘤形成)以及用于治疗疾病如肿瘤形成、自身免疫疾病、AIDS、 心血管疾病和感染等的治疗性应用。

Fab片段由抗体分子的单价抗原结合片段组成并且可以通过使用木 瓜蛋白酶消化整个抗体分子以产生由完整轻链和一部分重链组成的片段 来生成。

抗体分子的Fab'片段可以通过使用胃蛋白酶处理整个抗体分子、然 后还原以产生由完整轻链和一部分重链组成的分子来获得。两个Fab'片 段按照以这种方式处理的抗体分子获得。

抗体的(Fab')2片段可以通过使用胃蛋白酶处理完整抗体分子而没 有随后的还原来获得。(Fab')2片段是通过两个二硫键保持在一起的两 个Fab'片段的二聚体。

Fv片段被定义为含有表达为两条链的轻链可变区和重链可变区的基 因工程片段。

如本文所使用,术语“单链抗体”是指包含在一般通过间隔肽(例 如,[Gly-Gly-Gly-Gly-Ser]x)连接的多肽连接(polypeptidelinkage)中的 VH域和VL域、并且可以在氨基末端和/或羧基末端包含附加氨基酸序 列的多肽。例如,单链抗体可以包含用于连接至编码多核苷酸的链片段 (tethersegment)。作为实例,scFv是单链抗体。单链抗体通常是蛋白 质,该蛋白质由基本上由免疫球蛋白超家族(例如,参见Williams和 Barclay,1989,第361-368页,其通过引用并入本文)的基因编码,最 常见的是通过啮齿动物、非人灵长类动物、鸟类、猪、牛、绵羊、山羊 或人重链或轻链基因序列编码的至少10个连续氨基酸的一个或多个多肽 片段组成。官能性单链抗体一般包含免疫球蛋白超家族基因产物的足够 部分以保留结合至特异性靶分子,通常是受体或抗原(表位)的特性。

如本文所使用,术语“氨基酸”是指含有氨基(--NH2)和羧基 (-COOH)的任何有机化合物,优选作为游离基或可供选择地缩合后作 为肽键的一部分的氨基(--NH2)和羧基(-COOH)的任何有机化合物。 “形成20个天然编码的多肽的α-氨基酸”是本领域理解的并且是指:丙 氨酸(ala或A)、精氨酸(arg或R)、天冬酰胺(asn或N)、天冬氨 酸(asp或D)、半胱氨酸(cys或C)、谷氨酸(glu或E)、谷氨酰胺 (gln或Q)、甘氨酸(gly或者G)、组氨酸(his或H)、异亮氨酸(ile 或I)、亮氨酸(leu或L)、赖氨酸(lys或K)、甲硫氨酸(met或M)、 苯丙氨酸(phe或F)、脯氨酸(pro或P)、丝氨酸(ser或S)、苏氨 酸(thr或T)、色氨酸(trp或W)、酪氨酸(tyr或Y)和缬氨酸(val 或V)。

如本文所使用,术语“扩增”是指增加多核苷酸的拷贝数。

如本文所使用,术语“聚合酶链式反应(PCR)”是指用于DNA体 外扩增的体系。与待扩增的靶DNA(每条链一个)的两个区域互补的两 种合成的寡核苷酸引物,在过量脱氧核苷酸和热稳定的DNA聚合酶, 例如,TaqDNA聚合酶存在的情况下加入至靶DNA(不需要是纯的)。 在一系列例如30个温度循环中,靶DNA被重复变性(例如,大约90 ℃)、退火到引物(例如,在50-60℃下),子链(daughterstrand)从引 物延伸(例如,72℃)。当子链本身用作随后循环的模板时,与两个引 物匹配的DNA片段呈指数地扩增,而不是线性地扩增。

如本文所使用,术语“嵌套式PCR”是指其中通过使用两套引物顺 序地改进特异性的PCR。初始PCR使用“外部”引物对进行,然后小份 用作使用“内部”引物对进行第二轮PCR的模板。

如本文所使用,术语“逆转录PCR或RT-PCR”是指其中起始模板 是RNA,意味着需要初始逆转录步骤以获得DNA模板的PCR。一些热 稳定聚合酶具有可观的逆转录酶活性;然而,更常见的是进行明确的逆 转录、使逆转录酶失活或纯化产物、并继续进行单独的常规PCR。

如本文所使用,术语“引物”是指杂交到靶序列,通常用于引发扩 增过程中的核酸的寡核苷酸。

如本文所使用,术语“寡核苷酸(oligonucleotide)”(或者同义词 “寡核苷酸(oligo)”)是指可化学合成的单链多脱氧核苷酸或两个互 补的多脱氧核苷酸链。这样的合成寡核苷酸可能具有或可能不具有5'磷 酸盐。

如本文所使用,术语“核酸探针”是指包含如上所定义的含有可以 结合至相应靶标的核酸序列的多核苷酸的结构。探针的多核苷酸区域可 以由DNA和/或RNA和/或合成的核苷酸类似物组成。

如本文所使用,术语“序列一致性”是指两个多核苷酸序列在比较 窗口是相同的(即在核苷酸与核苷酸(nucleotide-by-nucleotide)的基础 上)。术语“序列一致性百分比”是通过以下来计算:在比较窗口比较 两个最优对齐的序列、确定在两个序列中出现相同核酸碱基(例如A、 T、C、G、U或I)的位置的数量以获得匹配位置的数量、将匹配位置的 数量除以在比较窗口(即窗口大小)中的位置的总数量、并将结果乘以 100以产生序列一致性百分比。如本文所使用,该“大体一致性”表示 多核苷酸序列的特性,其中多核苷酸包含相对于参考序列,具有至少 80%的序列一致性,优选地至少85%的序列一致性,通常是90%至95% 的序列一致性,以及最常见的是至少99%的序列一致性的序列。

如本文所使用,术语“互补或匹配”是指两个核酸序列具有至少 50%的序列一致性。优选地,两个核酸序列具有至少60%、70%、 80%、90%、95%、96%、97%、98%、99%或100%的序列一致性。“互 补或匹配”还指两个核酸序列可以在低严格条件、中度严格条件和/或高 严格条件下杂交。序列一致性或同源性的百分比通过当与参考序列的对 应部分对齐时将一个序列与另一个序列比较来计算。

一对分子(例如,抗体-抗原对或核酸对)的成员是指在它们以比其 他非特异性分子更大的亲和力彼此结合时彼此“特异性结合”。例如, 针对比非特异性蛋白质更有效地结合的抗原提高的抗体可描述为特异性 结合至抗原(类似地,核酸探针可以在其通过碱基配对相互作用与靶标 形成特异性双链体时描述为特异性结合到核酸靶标(见上文))。

如本文所使用,术语“测定”是指对样品中的组分,优选是多肽、 多核苷酸、代谢物、或其它生物分子的定量或定性的测量。一个或多个 多肽和/或从个体的样品中的细胞的整个蛋白质组可被测定。

如本文所使用,术语“进行检测”或“检测”是指确定靶标或信号 在空间的有限部分,包括但不限于样品、反应混合物、分子络合物和包 括平台和阵列的基底中的发生、存在或事实。当检测是指、涉及或参与 靶标或信号的含量或量的测量时,其是“定量的”(也称为定量),定 量包括但不限于设计用于确定靶标或信号的量或比例的任何分析。当检 测是指、涉及或参与就另一个靶标或信号的相对丰度而言确定靶标或信 号的质量或类型时,检测是“定性的”,其是未定量的。

如本文所使用,术语“靶标”是感兴趣的分析物。术语“分析物” 是指其在样品中的存在或不存在必须被检测的物质、化合物或组分。分 析物包括但不限于生物分子,特别是生物标志物。如本文所使用,术语 “生物分子”表示与生物环境相关的物质、化合物或组分,包括但不限 于糖、氨基酸、肽、寡核苷酸、多核苷酸、多肽、有机分子、半抗原、 表位、生物细胞、生物细胞的部件、维生素和激素等。术语“生物标志 物”表示与生物环境的具体状态相关的生物分子,所述生物环境的具体 状态包括但不限于细胞周期的时期、健康和疾病状态、情感状态或社会 行为。生物标志物的存在、不存在、减少、上调与特定状态相关并指示 该特定状态。

如本文所使用,术语“基于适体的传感器”是指在其上靶标的结合 可以发出通过光谱检测技术如SERRS、SERS或SEF((本文中统称为表 面增强光谱)可检测的信号。如本文所使用,术语“表面增强光谱”表 示其中与金属表面结合进行来自相应的光谱探针的信号检测的信号增强 技术。适于检测本文描述的基于适体的传感器的示例性光谱技术包括表 面增强共振拉曼光谱(SERRS)、表面增强拉曼光谱(SERS)、表面增 强荧光(SEF)、表面增强红外吸收(SEIRA)、表面增强超拉曼散射 (SEHRS)、表面增强相干反斯托克斯拉曼散射(SECARS)以及本领 域技术人员可识别的另外的技术。

如本文所使用,术语“色谱法”是指其中由液体或气体携带的化学 混合物在固定液或固相周围或在固定液或固相上流动时由于化学实体的 差异分布的结果而使该化学混合物分离其组分的方法。

如本文所使用,术语“液相色谱法”或“LC”是指当流体通过细分 物质的柱子或通过毛细管通道均匀渗出时,流体溶液的一种或多种组分 选择性阻滞的方法。阻滞的原因是当该流体相对于固定相(或多个固定 相)移动时,混合物的组分在一个或多个固定相与大量流体(流即动相) 之间的分布而引起。“液相色谱法”的实例包括反相液相色谱法 (RPLC)、高效液相色谱法(HPLC)和涡流液相色谱法(TFLC)(有 时称为快速涡流液相色谱法(HTLC)或高通量液相色谱法)。

如本文所使用,术语“高效液相色谱法”或“HPLC”(有时称为 “高压液相色谱法”)是指其中通过在压力下强迫流动相通过固定相, 通常是密集填充柱来增加分离的程度的液相色谱法。

如本文所使用,术语“涡流液相色谱法”或“TFLC”(有时称为快 速涡流液相色谱法或高通量液相色谱法)是指利用通过柱填充测定的材 料的涡流作为进行分离的基础的一种色谱形式。在通过质谱法分析之 前,TFLC已经应用于包含两种未命名药物的样品的分离。参见,例如 Zimmer等人,JChromatogrA854:23-35(1999);还参见美国专利号 5,968,367、5,919,368、5,795,469和5,772,874,其进一步解释了TFLC。 当流体涡流流动时,其以旋涡和旋转(或涡流)的形式流动,比当流体 为层流式时具有更多的“阻力”。许多参考文献可用于帮助确定流体流 动是层流还是涡流(例如湍流分析:测量和预测(TurbulentFlowAnalysis: MeasurementandPrediction),P.S.Bernard&J.M.Wallace,JohnWiley& Sons,Inc.,(2000);湍流介绍(AnIntroductiontoTurbulentFlow),Jean Mathieu&JulianScott,剑桥大学出版社(CambridgeUniversityPress) (2001))。

如本文所使用,术语“气相色谱法”或“GC”是指其中使样品混 合物汽化并注入通过包含由液体或微粒固体组成的固定相的柱子移动的 载气流(如氮气或氦气)中以及根据化合物对固定相的亲和力将该混合 物分离为其组分化合物的色谱法。

如本文所使用,术语“质谱法”或“MS”是指通过化合物的质量 鉴定化合物的分析技术。MS是指基于离子的质荷比或“m/z”过滤、检 测和测量离子的方法。MS技术一般包括(1)使化合物电离形成带电荷 化合物;和(2)检测带电荷化合物的分子量并计算质荷比。可以通过 任何适合的方式使化合物电离并进行检测。“质谱仪”一般包括电离器 和离子检测器。一般来说,使感兴趣的一个或多个分子电离,随后将离 子引入质谱仪中,在质谱仪中由于磁场和电场的组合,离子遵循依赖于 质量(“m”)和电荷(“z”)的空间路径。参见,例如,题目为“来自表 面的质谱法(MassSpectrometryFromSurfaces)”的美国专利号 6,204,500、题目为“用于串联质谱法的方法和装置(Methodand ApparatusforTandemMassSpectrometry)”的美国专利号6,107,623、题 目为“基于质谱法的DNA诊断(DNADiagnosticsBasedOnMass Spectrometry)”的美国专利号6,268,144、题目为“用于分析物的解吸和 监测的表面增强光不稳定性附着和释放(Surface-EnhancedPhotolabile AttachmentAndReleaseForDesorptionAndReleaseForDesorptionAnd DetectionOfAnalytes)”的美国专利号6,124,137、Wright等人的前列腺 癌和前列腺疾病(ProstateCancerandProstaticDiseases)1999,2:264-76 以及Merchant和Weinberger的电泳(Electrophoresis)2000,21: 1164-67。

如本文所使用,术语“基于调查的数据”和“调查数据库”是指通 过从个体获得选自数据库查询的问题的答案主动收集的数据,或通过经 由数据合并累积数据被动收集的数据,所述数据合并是由于与收集的一 个个体或一组个体的活动或经历相关,例如经由来自设备如电话或传感 器的输入,所述电话或传感器基于个人经历、遗传、生物分子、偏好、 欲望、个性特征、习惯、健康、情感状态或其他特征从基于时间和/或位 置的相关或隐匿信息的数据库收集信息。问题的答案和任选地进行调查 的环境可以包括基于调查的数据。进行调查的环境可以包括被调查的一 个个体或一组个体或非人类个体的身份、时间、位置或与调查相关的任 何其他时间。数据可以通过各个网络论坛或网络媒体如Facebook或调查 面板进行收集。

如本文所使用,术语“分类”是指通过基于一些预测变量建立模型 预测项目所属的组数的算法。“分类树”是将类别变量置于类别中的决 策树。

如本文所使用,术语“聚类算法”是指用于找到类似项目的组的算 法。其将数据集分开使得具有类似内容的记录处于相同的组中,并且组 尽可能彼此不同。当分类未指定时,这有时称为非监督聚类。当分类先 验地指定时,这有时称为监督聚类。

如本文所使用,术语“判别分析”是指基于用于确定将数据分成类 别的边界的最大可能性的统计方法。

如本文所使用,术语“k最近邻”是指通过计算一个点与训练数据 集中的多个点之间的举例而对该点进行分类的分类方法。然后,其将所 述点指定到在其k最近邻(其中k是整数)中最普通的类别。

如本文所使用,术语“机器学习”是指用于通过以自动方式建立概 率模型从数据库中提取有用信息的计算机算法。

如本文所使用,术语“回归树”是指预测连续变量的值的决策树。

如本文所使用,术语“监督学习”是指使用定义明确的(已知的) 因变量的数据分析。所有的回归算法和分类算法受到监督。相反,“非 监督学习”是指其中在不使用因变量的情况下确定数据分组的算法的收 集。术语“测试数据”是指用于评价模型参数(即重量)的估计值的独 立于训练数据集的数据集。

如本文所使用,术语“促销”或“报价(offer)”是指出于促销产 品或服务的目的,以任何语言或翻译成任何语言提供任何类型的信息或 以任何语言或翻译成任何语言将与任何产品或服务相关的社会媒体内容 改编成剧本,并且促销包括但不限于任何类型的广告、做广告、营销、 优惠券、折扣、报价、每日交易和用于促销或报价的拍卖等。

如本文所使用,术语“产品”是指本文描述的或者本领域已知的任 何产品:产品的非限制性实例包括但不限于:商品、零售产品、批发产 品、虚拟产品、电子产品、服装、食品、水、饮料、商业产品、家庭产 品或住宅产品、清洁产品、鞋类、家电、汽车、卡车、摩托车、船、飞 机、商业和住宅建设产品、音乐、音频、视频产品、书籍、电脑、硬 件、系统、操作系统、软件、与手机银行和手机钱包服务相关的产品、 与娱乐或购物相关的产品、与一分钱拍卖或网上拍卖相关的产品、与附 属服务相关的产品、与电子商务相关的产品、与运动相关的产品、媒 体、乐器、教育产品、理财产品、旅游及酒店产品、房地产产品、运动 和体育赛事、市场趋势和预测信息、抵押贷款报价、贷款、保险、广 告、信息传送、新闻订阅、天气、新闻、房地产产品(如空置的土地、 住宅、商业、娱乐、零售、大商场、宾馆、汽车旅馆、高尔夫球场、赌 场、度假村、游艇码头、工业、度假、次新股(timeshares)、公寓、多 户住宅、以及其他类型的房地产等)、重新安置产品、网络营销、房屋 装修/重塑(家庭担保、保险、室内和户外家具、固定装置、门窗、板 壁、屋顶、加热/制冷、太阳能、水管、电气、机械及类似产品)、食品 杂货、家畜、发用制品、度假村、地板、家具、固定装置、游戏产品、 个人产品、美容产品、减肥产品、护肤产品、饮食产品、膳食补充剂、 运动补充品、营养素和维生素等。

如本文所使用,术语“产品供应商”是指包括消费品的任何产品的 任何供应商(以任何形式例如不限于发现者、创造者、开发商、制造 商、合作开发商、营销商、经销商、批发商、零售商、进口商、出口 商、销售商、经销商、拍卖商、投标商、代理商、代理人等)。

如本文所使用,术语“服务”是指本文所描述的或者本领域已知的 任何服务:服务的非限制性实例包括但不限于:搜索引擎或搜索请求、 社交、本地、移动搜索、移动业务、移动银行和移动钱包服务、娱乐、 购物、一分钱拍卖或网上拍卖、相关服务、电子商务、运动、媒体和娱 乐、教育、个体和金融服务、旅游与酒店管理服务、房地产、运动和体 育赛事、由服务供应商的服务、网上约会、网上赌博、博彩、零售商 店、虚拟社区、房地产中介服务、广告、信息传送、新闻、天气、新 闻、房地产服务业务(如:空置土地、住宅、商业、娱乐、零售、大商 场、宾馆、汽车旅馆、高尔夫球场、赌场、度假村、游艇码头、工业、 度假、次新股、公寓、多户、以及其他类型的房地产等的租赁、买入或 卖出)、经纪人、代理人、搬迁服务、网络营销、礼宾、交通、贷款、 评估师、开发商、承包商、检查人员、房屋装修/重塑(家庭担保、保 险、屋顶、加热/制冷、太阳能、管道、电气、机械服务以及类似类型的 服务)、商品采购、清洗、运输、银行、拍卖、遗产规划、畜牧、兽 医、医疗、美容、水疗、搬家、迁厂、复制、办公、管理、归档、会 计、饮料服务等。

如本文所使用,术语“服务供应商”是指任何服务的任何供应商 (以任何形式,例如不限于发现者、创造者、开发商、制造商、合作开 发商、营销商、经销商、批发商、零售商、进口商、出口商、销售商、 经销商、拍卖商、投标商、代理商、代理人、医师等)。

如本文所使用,术语“间接方法”或“间接分析“是指在组合实验 中从活的有机体中回收的多种生物标志物或其他分子的常规或重复的监 测和/或收集,而监测方式不必具有结局或结果的预定期望值,特别是当 估计输入、环境或条件的同时发生组合的作用时。也可以以间接方法收 集或监测与行为相关的数据。

如本文所使用,术语“健康”指与个人所处的比较状态相比,所处 的包括性感、健康、适应度、心理、美丽、自信和欲望的任何实际或感 知的改进状态。这不是其中健康仅通过疾病或虚弱的不存在来确定的健 康的传统模型。在本发明的上下文中健康是个体的改进的功能状态而不 管个体的目前健康状态或残疾。因此,健康存在于连续统一体上并且基 于个体的独特的情况对于每个个体个人来说是独特的。健康也可以被视 为将个体看成一个整体的整体性概念,而不仅是个体的血压水平或个体 的体重多少或个体如何管理好压力。

如本文所使用,术语“生物传感器”是指将靶标与识别分子之间的 相互作用转化为信号,如电信号,以测量或检测靶标的传感器。常规的 生物传感器由用于将化学物质识别为检测靶标的受体位点和用于将在位 点处产生的物理变化或化学变化转化成电信号的传感器位点组成。在活 体中,存在彼此具有亲和力的物质,如酶/底物、酶/辅酶、抗原/抗体、 适体/配体或激素/受体。生物传感器根据以下原理运行,即与如上所述 的接收分子具有亲和力的物质被固定在待用作分子-识别物质的物质上, 使得相应的物质可以选择性地测量。

如本文所使用,术语“行为”包括生活方式行为,影响健康的活动 或动作、消费活动、运动、沉思、偏好、个性特征和欲望。

具体实施方式

为了说明的目的,本发明的原理通过参考各种示例性实施方案描述。 虽然在本文中具体地描述了本发明的某些实施方案,但是本领域的普通 技术人员将容易认识到相同的原理同样适用于并且可以用于其它系统和 方法中。在详细地解释本发明的公开的实施方案之前,要理解的是,本 发明并不限于将其应用在示出的任何特殊实施方案的细节中。另外,本 文中使用的术语是为了描述而非限制的目的。此外,虽然某些方法参照 本文按特定顺序提供的步骤进行描述,但是在许多情况下,这些步骤可 以以本领域技术人员可以理解的任何顺序进行,因此,新型的方法并不 限定于在本文中公开的步骤的具体布置。

必须注意的是,除非上下文另外明确规定,否则如在本文和所附权 利要求中使用的单数形式“一个(a)”,“一个(an)”和“所述”包括复 数引用。此外,术语“一个(a)”(或“一个(an)”),“一个或多个”和 “至少一个”可在本文中互换使用。术语“包含”、“包括”,“具有”和 “由…构成”也可以互换使用。

本发明提供了使行为表型和/或情感表型如社会行为表型或社会情感 表型与生物表型整合的新型方法。本发明还提供了用于商人、消费者和 其他人使用的这样的信息的数据库。在本发明的方法和数据库中,在生 物表型和行为和/或情感表型之间进行相关。这可以被看作类似于使基因 型与表型或基因型与基因型相关的传统方法。

生物表型通过可定量的遗传、发育和环境变量确定,所述变量可以 测量为生物分子状态,如基因组序列、表观基因组修饰、RNA和微RNA 水平、蛋白质水平、蛋白质折叠和修饰、代谢物水平和电信号。生物表 型是有机体的可观察特性或特征:如其形态学、发育、生物化学或生理 学特性、物候学、行为以及行为的产物(如燕窝)。生物表型由有机体的 基因的表达以及环境因素的影响和二者之间的相互作用造成的。在本发 明的方法中,生物分子状态使用遗传、发育和/或环境或其他变量,如本 文中描述的那些测量。

生物表型可以包含样品中呈现的多肽。样品中的多肽组成可以通过 本领域技术人员已知的任何技术分析。例如,样品中的多肽可以通过选 自以下的方法分离:各种色谱方法(如LC、HPLC、TFLC和GC)、基于 凝胶电泳的方法(如2D-SDS凝胶电泳)和基于交换柱的技术。单独分离 的多肽然后可以通过例如蛋白质免疫染色、蛋白质免疫沉淀、免疫电泳、 免疫印迹、蛋白质印迹、分光光度法、质谱法、测序和酶测定进行检测。 关于分析样品中的多肽的方法的更详细信息可见于例如WO00/11208,其 讨论了多肽分析的质谱法;Cravatt和Sorenson的“化学生物学中的当前建 议(CurrentOpinioninChemicalBiology)”,(2000)4(6):663-668, 其讨论了用于分析多肽功能的化学策略;美国专利号4,433,051,其讨论 了用于多肽分析的α-二氟甲基鸟氨酸;美国专利号6,127,134,其讨论了 使用匹配的多种染料的差异凝胶电泳;Gygi等人,在美国国家科学学院 院刊(Proc.Natl.Acad.Sci.USA)(2000)97:9390-5,其讨论了与质谱 法结合使用2D凝胶电泳分析酵母多肽;以及Aebersold等人的 PCT/US99/19415,其讨论了标记的多肽样品的消化。

质谱法特别适用于本发明,特别适用于与特定行为状态和/或情感状 态相关的新的和现有的生物标志物的发现,以及适用于生物标志物测量。

特别适用于本发明的另一种技术是蛋白质微阵列。蛋白质微阵列可 以用于大规模检测样品中的多肽。基于微阵列的技术也不需要从样品中 分离多肽的预备步骤。蛋白质微阵列由捕获蛋白的阵列结合的支撑表面, 如载玻片、硝酸纤维素膜、珠子或微滴定板组成。捕获蛋白,通常是抗 体结合到样品中的靶多肽。结合到微阵列上的抗体的多肽然后使用激光 扫描器检测。关于蛋白质微阵列的更详细信息可见于美国专利号 4,591,570、4,829,010、5,100,777,据此通过引用将其整体并入。

适体可以用于检测样品中的多肽。用于特异性靶多肽的适体可以通 过已知方法发现。在一个实施方案中,使用称为SELEX(指数式富集配 体系统进化)的体外选择方法发现了核酸配体。参见例如Gold等人(美 国专利号5,270,163和5,475,096),据此将其各自的内容通过引用整体并入 本文。SELEX是用于鉴定来自大的核酸库的选择的分子靶的核酸配体的 迭代过程。该过程依赖于标准分子生物学技术,其使用多轮选择、分区 和扩增核酸配体以使用对靶分子的最高亲和力分解核酸配体。SELEX方 法包括鉴定含有修饰的核苷酸的高亲和力核酸配体。

在一些实施方案中,可以将适体引入样品中以结合到靶多肽并因此 形成适体/多肽络合物。适体可以被标记,其中标记用于促进从络合物中 去除未结合的适体和样品中的其他分子以去除测定中的潜在噪音来源。 检测络合物的适体部分会发现给出关于多肽在样品中的信息的结合的多 肽。该测定的更详细信息在US2009/0042206中描述,通过引用将其整体 并入本文中。

在一些其他实施方案中,可以将适体固定在阵列上,用于在单个测 定中检测很多多肽。每个适体被固定在阵列表面上的微观点处。多肽与 阵列上的其特异性适体的结合可以通过以下直接荧光检测进行检测:荧 光报告基因、荧光各向异性、FRET、SPR成像和电化学检测。参见Baldrich 的“适体阵列(Aptamerarray)”,MolBiol.方法,671栏,35-54页,2011, 据此通过引用将其整体并入。

生物传感器在生物标志物检测的本发明的方法中也是特别有用的。

在一个实施方案中,生物传感器包括用于在修饰的常规酶联免疫吸 附试验(ELISA)中检测免疫球蛋白质G(IgG)的半导体纳米粒子离子 敏感场效应晶体管(ISFET)。氧化铟和二氧化硅纳米粒子分别使用作为 电化学传感器的反向充电的聚电解质和抗体固定位点逐层进行自组装。 氧化铟纳米粒子ISFET响应于靶IgG的浓度生成电信号。夹心的ELISA结 构在辣根过氧化物酶的帮助下催化酸性底物至中性物质的转化。样品溶 液的pH变化通过纳米粒子ISFET检测。参见Lee等人的“使用氧化铟纳米 粒子敏感场效应晶体管的酶联免疫吸附试验中的免疫球蛋白G的电子检 测(AnelectricdetectionofimmunoglobulinGintheenzyme-linked immunosorbentassayusinganindiumoxidenanoparticleion-sensitive field-effecttransistor)”J.Micromech.Microeng.,22栏,015009页,2012, 据此通过引用将其整体并入本文中。

预期个体可以将样品或来自样品测定的数据递送到其可以用于相关 分析的位置。首先,将测定一种或多种多肽和/或完全蛋白质组。在优选 的实施方案中,测定一种蛋白质,例如激素,例如肾上腺素。在另一个 实施方案中,测定5种蛋白质。在另一个实施方案中,测定10种蛋白质。 在另一个实施方案中,测定50种蛋白质。在另一个实施方案中,测定100 种蛋白质。在另一个实施方案中,测定500种蛋白质。在另一个实施方案 中,测定1000种蛋白质。在另一个实施方案中,测定2000种蛋白质。在 另一个实施方案中,测定2500种蛋白质。在另一个实施方案中,测定3000 种蛋白质。在另一个实施方案中,测定高达10,000种蛋白质。

蛋白质组(由基因组、细胞、组织或有机体表达的全套蛋白质)在 给定细胞、组织或有机体中的特异性状态被称为蛋白质型。蛋白质型是 表型的唯一基础的蛋白质组状态。蛋白质分型通过使独特的氨基酸标签 可视化在蛋白质水平开发(mine)基因的遗传信息。结果,可以可视化 由单个基因产生的许多蛋白质形式。蛋白质型整合了由基因型、环境和 发育史(即,皮肤细胞与心脏细胞具有不同的蛋白质型,在相同环境中 具有相同的基因型)施加的约束因素。由于所有分子由蛋白质制备并且 由蛋白质调节,因此蛋白质型可以直接并部分地确定生物表型。因此, 生物学蛋白质型可以用于直接推导出对表型贡献的基因型(因为肽反映 到DNA)并使表型的合成重建成为可能(蛋白质水平或翻译后修饰的变 化可以工程改造)。蛋白质型的完整描述可以将生物表型部分限定在分子 水平。

有机体的活动和作用受到蛋白质的影响。因此,可以测量蛋白质来 证实个体的生物分子状态。蛋白质的大规模研究,“蛋白质组学”目前用 于诊断疾病并用于确定基因是否在样品中表达。过去,利用不太有效的 方法来确定蛋白质相关的活性,例如测量核酸(RNA)水平。用于某些 涉及蛋白质相关活性的研究,蛋白质组学可以比确定例如RNA水平更加 准确,原因是转录速率、RNA半衰期、蛋白质半衰期和蛋白质分布均影 响蛋白质在允许蛋白质相关活性发生的足够水平是否可用。

虽然核酸通过编码蛋白质从而允许蛋白质表达有助于蛋白质水平, 但蛋白质是否实际存在并以足够的含量存在由多种因素决定。因此,测 量蛋白质是减少误差并降低潜在误解相关的方式。在本发明的实施方案 中,利用蛋白质组学和/或蛋白质分型来测量个体的生物分子状态或个体 的生物表型。

总是存在或总是不存在的蛋白质预测未来的社会行为,因为蛋白质 的存在或不存在与对于询问的响应相关,如在本文中陈述的。此外,在 响应时诱导的蛋白质允许进一步的遗传相关性,其使DNA为预测性的(然 而,认识到编码蛋白质的基因不必是诱导特定蛋白质水平移动的基因)。

有研究表明了个体的蛋白质型与人类行为之间的相关性。例如, Jagannath等人的“生物钟的CRTCI-SIKI途径调节雾沫(TheCRTC1-SIK1 PathwayRegulatesEntrainmentoftheCircadianClock)”Cell,154栏, 1100-1111页,2013,发现某些蛋白质在CRTC1-SIK1途径中的存在可以改 变哺乳动物对自然光的反应,即改变生物钟系统功能。作者分析了对光 调节响应的相关细胞的转录组并鉴定了盐诱导激酶1(SIK1)和调节 CREB的转录共激活剂1(CRTC1)在改变生物钟系统功能中的关键作用。

其他实例包括在运动过程中正常转换的AMPK(AMP活化蛋白激 酶)、儿茶酚胺如与压力相关并且可以在尿常规中鉴定的肾上腺素、与集 中和攻击或逃避反应相关的肾上腺素、与快乐相关的多巴胺并在性格外 向的人中观察到更高的水平,以及与压力和抑郁相关的IL6。

本发明采取系统性方法将生物表型(包括多肽)与行为和/或情感表 型相关,特别地与人类行为和/或情感表型相关。

生物表型可以通过存在于样品中的多核苷酸来确定。检测多核苷酸 的已知方法可以用于本发明。在一些实施方案中,可以组合使用几种技 术:例如基于测序的技术、基于同构发生的技术和基于适体的技术。

在基于测序的技术中,可以通过电泳分离样品中的多核苷酸并且样 品中的多核苷酸的每种物质可以通过常规多核苷酸测序技术进行测序。 这些技术被广泛地描述于文件中,例如,Pettersson等人的“测序技术世 代(Generationsofsequencingtechnologies)”Genomics,93栏,105-111 页,2009。

对于样品中的mRNA测序,由于mRNA倾向于降解,因此可能希望在 进行测序之前将mRNA复制为cDNA。由于DNA一般比RNA稳定得多,因 此将mRNA转化为cDNA将使样品保存并随后测序。

基于同构发生的技术,其基于以下原理:样品中的多核苷酸将与核 酸探针杂交,所述核酸探针与多核苷酸互补或匹配。在一些实施方案中, 核酸探针是与标记物缀合的寡核苷酸或寡核苷酸类似物,所述标记物通 常是荧光化合物如荧光素。适合的寡核苷酸类似物包括但不限于含有锁 核酸或肽核酸的至少一个残基的寡核苷酸。优选地,均匀检测基于竞争 性杂交(EP0232967B1,据此整体并入)或给予使用两种标记物标记的探 针,当探针未杂交稻靶序列时,两种标记物中的一个能够吸收或淬灭由 另一个标记物发出的信号。这样的探针的实例已经描述于,例如美国专 利号5,925,517、6,103,476和6,150,097以及EP0792374Bl,通过引用将其 整体并入。

在一些实施方案中,基于同构发生的方法利用寡核苷酸微阵列或 DNA微阵列。在DNA微阵列技术中,将寡核苷酸探针固定在固体表面上 的微观点上。因此,成千上万的探针可以固定在使样品中高达数千个多 核苷酸能够平行检测的单个芯片上。DNA微阵列可以被定制以特异性检 测样品中的多核苷酸(生物标志物)的某些物质。在一些实施例中,商 用DNA微阵列可以用于检测样品中尽可能多的多核苷酸。商用DNA微阵 列包括由美国昂飞公司(Affymetrix)制造的“基因芯片”、Illumina公司 制造的“珠芯片”、安捷伦科技公司(Agilent)制造的单通道阵列、Applied Microarrays制造的“CodeLink”阵列以及Eppendorf公司制造的“双芯片 和Silverquant”。关于DNA微阵列技术的更详细信息可在ShalonD、Smith SJ、BrownPO(1996)的“使用双色荧光探针杂化用于分析复杂DNA 的DNA微阵列系统(ADNAmicroarraysystemforanalyzingcomplexDNA samplesusingtwo-colorfluorescentprobehybridization)”,GenomeRes6 (7):639-645;YukFaiLeung和DuccioCavalieri的cDNA微阵列数据的基 本原理(FundamentalsofcDNAmicroarraydataanalysis),遗传学趋势 (TRENDSinGenetics)19栏,2003年11月11号;SchenaM、ShalonD、 DavisRW、BrownPO(1995)“具有互补DNA微阵列的基因表达模式 的定量监控(Quantitativemonitoringofgeneexpressionpatternswitha complementaryDNAmicroarray)”,科学(Science)270(5235):467-470; PeaseAC、SolasD、SullivanEJ、CroninMT、HolmesCP、FodorSP的(1994) “用于快速DNA测序分析的光生成寡核苷酸阵列(Light-generated oligonucleotidearraysforrapidDNAsequenceanalysis)”,PNAS91(11): 5022-5026中找到,据此通过引用将其整体并入。

在一些实施方案中,特异性结合到多核苷酸的适体可以用于检测样 品中的多核苷酸。用于特异性靶向多核苷酸的适体可以通过本领域已知 的任何方法发现,如以上讨论的SELEX。在一些实施方案中,适体被引 入样品中以结合到靶多核苷酸,从而形成络合物。可以标记适体,其中 标记可以用于促进从络合物中去除未结合的适体和样品中的其他分子。 最后检测络合物的适体部分会发现给出关于多核苷酸在样品中的信息的 结合的多肽。该测定的更详细信息描述于US2009/0042206中。

在一些其他实施方案中,可以将适体固定在阵列上,用于检测样品 中的大量多核苷酸。每个适体被固定在阵列表面上的微观点处。多核苷 酸与阵列上的其特异性适体的结合可以通过以下进行检测:荧光报告基 因的直接荧光检测、荧光各向异性、FRET、SPR成像和电化学检测。参 见Baldrich的“适体阵列(Aptamerarray)”,MolBiol.方法,671栏,35-54 页,2011。

在一些实施方案中,样品中的多核苷酸可以在检测之前扩增。用于 扩增多核苷酸的典型技术是聚合物链式反应(PCR),如在Saiki等人的 “用于镰状细胞性贫血的诊断β球蛋白基因序列和限制位点分析的酶扩 增(Enzymaticamplificationofbeta-globingenomicsequencesandrestriction siteanalysisfordiagnosisofsicklecellanemia)”1985科学230,1350-1354 中所述的,据此通过引用将其整体并入。使用PCR,可能的是将单个拷 贝的特异性多核苷酸序列扩增至可以通过几种不同的方法(例如染色、 与标记的探针杂交以及掺入生物素化引物,然后通过抗生物素蛋白-酶缀 合物检测,将32P-标记的三磷酸脱氧核苷酸,如dCTP或dATP掺入至扩增 的片段中)检测的水平。

可以修改这种基于PCR的技术以实现高特异性。例如,在本发明的 一些实施方案中可以使用嵌套式PCR。对于样品中的RNA分子,可以使 用逆转录PCR将RNA分子扩增为DNA分子。

有单独的研究提示在个体的遗传变异与人类行为之间的相关性。例 如,Ebstein等人的“人类社会行为的遗传学(Geneticsofhumansocial behavior)”Neuron,65栏,831-844页,2010公开了基于双胞胎和家族研 究,人类特性如同理心、利他主义、公平感、爱、信任、音乐、经济行 为、甚至政治至少部分由基因决定。基因如精氨酸加压素受体和催产素 受体对从田鼠到人的许多物种的社会行为产生影响。还发现了其他多肽 基因如编码多巴胺奖励途径、血清素激活情感的调节或性激素与复杂的 社会行为相关。这些相关中的任一个或多个可以用于本发明的数据库中。

生物表型也可以由样品中的代谢物确定。代谢物可以是大分子或由 体内化学反应产生的小的化学物质。一些常见的代谢物包括氨基酸、肽、 核苷酸和核苷。代谢物通常存在于溶液(例如体液)中。然而,代谢物 也可以存在于气体如呼气和屁中。

在一些实施方案中,可能存在检测样品中的代谢物需要的两个步骤: 从样品中分离代谢物,然后鉴定分离的代谢物。用于从样品中分离代谢 物的技术包括与以上描述的用于分离多肽,如色谱技术和基于电泳的技 术相同的技术。在一些实施方案中,气相色谱法提供了非常高的分辨率, 但对于许多生物分子来说需要化学衍生化。该技术特别适用于分析大的 和/或极性代谢物。

在一些其他实施方案中,高效液相色谱法尽管典型地具有低分辨率, 但其提供了能够分离许多代谢物的优点。在一些其他实施方案中,可以 使用毛细管电泳从样品中分离代谢物。毛细管电泳提供了高分离效率的 优点并且适合与大范围的代谢物类别一起使用。用于分离代谢物的其他 方法包括“液相色谱法”,其包括反相液相色谱法(RPLC)、高效液相色 谱法(HPLC)和涡流液相色谱法(TFLC)、有时称为快速涡流液相色谱 法(HTLC)或高通量液相色谱法。

单独分离的代谢物然后可以使用如质谱法的技术鉴定,质谱法既具 有敏感性又具有特异性。例如,纳米结构引发剂质谱法,不需要应用基 质从而有利于代谢物鉴定的解吸/电离方法,可以如NorthenT.R,等人的 “用于质谱分析法的包合物纳米结构(Clathratenanostructuresformass spectrometry)”自然(Nature)449(7165):1033-1036(October2007) 中描述使用。还可以使用二次离子质谱法,所述二次离子质谱法使用高 能一次离子束从表面解吸并产生二次离子。二次离子质谱法的主要优点 是其高的空间分辨率(小至50nm)。然而,二次离子质谱法对分子量>500 Da的代谢物具有优先的敏感性。

在一些实施方案中,可以使用核磁共振光谱法(NMR)鉴定代谢物。 NMR具有的优点是其不需要从样品中分离代谢物。样品中的所有代谢物 可以同时测量并且还可以确定代谢物的浓度。合适的NMR法可以见于 GriffinJ.L.的“代谢组学:用于异型生物质毒性和疾病诊断的体液和组织 的核磁共振和模式识别分析(Metabonomics:NMRspectroscopyand patternrecognitionanalysisofbodyfluidsandtissuesforcharacterisationof xenobiotictoxicityanddiseasediagnosis)”Curr.Opin.Chem.Biol,7(5): 648-654,2003。

代谢物可以存在于血液、尿液、汗液、呼气、粪便和屁中。例如, 通过估计,在人类尿液中可能有超过3,000种化合物(Bouatra等人的“The 人尿代谢组(humanurinemetabolome)”PLoSONE,8栏,e73076页, (2013)。研究使用了不同的代谢物分析平台,包括NMR、GC-MS、 DFI/LC-MS/MS、ICP-MS和HPLC。作者建立了关于尿液代谢物的数据库, 该数据库包含2651种确认的人类尿液代谢物物质、其结构(共计3079种) 和浓度。数据库在http://www.urinemetabolome.ca可获得。这些尿液代谢物 中的每一种可以单独或与其他尿液代谢物组合用于本发明。

以类似于如上所讨论的使用抗体和适体检测样品中的多肽和多核苷 酸的方式,可以使用可以特异性结合到代谢物的抗体和适体检测样品中 的代谢物。

有研究表明,个体的体液中的代谢物可以与人类行为相关。例如, Kandel等人的“多民族/多种族国家样品的年轻人中尿液尼古丁代谢物和 吸烟行为(Urinenicotinemetabolitesandsmokingbehaviorina multiracial/multiethnicnationalsampleofyoungadults)”Am.J.Epidemiol., 165栏,901-910页,(2007)表明,由尼古丁代谢产生的尿液代谢产物可 以与人类吸烟行为相关。具体而言,反式-3'-羟基可替宁与可替宁 (cotinine)的比率可以与吸烟行为和尼古丁依赖性的多次测量相关。该 发现与来自基于尼古丁的静脉内输注的年长吸烟者的实验室研究的那些 发现一致。

另一个实例来自Traskman等人的“CSF和自杀行为的一元胺代谢物 (MonoaminemetabolitesinCSFandsuicidalbehavior)”Arch.Gen. Psychiatry,38栏,631-636页,(1981),其表明,脑脊液中的几种单胺代 谢物可以与自杀行为相关。这些代谢物包括5-羟基吲哚乙酸(5-HIAA)、 高香草酸(HVA)和3-甲氧基-4-羟苯基乙二醇(MHPG)。试图自杀的人 类比对照,尤其是那些已经做出更激烈尝试的人具有显著较低的5-HIAA 水平。在腰椎穿刺时在未被诊断为抑郁的自杀患者中,5-HIAA的浓度也 低于正常值,而HVA水平只是在抑郁时降低。对尿液也进行了相似的观 察(Ostroff等人的“具有自杀企图历史的病人的去甲肾上腺激素与肾上腺 激素比率(Thenorepinephrine-to-epinephrineratioinpatientswithahistory ofsuicideattempts)”Am.J.Psychiatry,142栏,224-227页,(1985)),其 中与19名没有自杀尝试的抑郁患者相比,3名有过严重自杀尝试的抑郁患 者表现出明显低的24小时尿液去甲肾上腺素与肾上腺素(EPI)的比率。

上述相关中的每一个以及相关的各种组合可以在本发明中实施。此 外,本文中未提及的其他相关可以在本发明中实施以建立可以由可以发 现这样的相关的有用性的各个同行者使用的数据库。

生物表型也可以由存在于样品中的微生物确定。微生物是包含特异 性多肽和多核苷酸的活的有机体。检测微生物的一种方式是通过检测对 微生物特异的生物分子。生物分子可以是基因组DNA(对于具有DNA 基因组的微生物)、基因组RNA(对于具有RNA基因组的微生物,如RNA 病毒)或微生物RNA如mRNA。因此,如上所述的用于检测多核苷酸的 方法也可以用于检测样品中的微生物。

微生物也可以从由微生物产生的特异性多肽检测。因此,本文所述 的用于检测多肽的方法也可以用于检测样品中的微生物。如果特异性多 肽存在于微生物内部,则微生物可能需要被裂解以释放用于检测的特异 性多肽。

常规培养也可以用于检测样品中的微生物。微生物可以在培养物上 生长并且可以通过其形态(通过显微镜观察)或表面标记分子(其可以 通过例如抗体检测)检测并鉴定。

已经发现,人类中的一些细菌改变人类的行为。在可在 http://www.theverge.com/2013/8/12/4595712/gut-feelings-the-future-of -psychiatry-may-be-inside-your-stomach可获得的科学新闻文章(“肠道感 觉:精神病学的未来可能在你的腹部中(Gutfeelings:thefutureof psychiatrymaybeinsideyourstomach)”中公开了,多项研究发现,改变 小鼠肠道中的细菌群落将显著改变小鼠的行为。此外,新闻文章还提到 医生已经使用益生菌来改变人类肠道中的微生物群落以便管理强迫症和 注意力缺陷多动障碍(ADHD)。已知益生菌增加人类肠道中的细菌或平 衡微生物群落(microbialpopulation)(微生物群落(microflora))。

还发现,人类中的细菌能够影响人类向肥胖的趋势(Greenfieldborce 的“人类肠道中与肥胖相关的肥胖细菌(FatBacteriainHumanGutsTiedto Obesity)”,在http://www.npr.org/templates/story/story.php?storyld=6654607 可获得。其表明,肥胖小鼠与瘦小鼠相比在其肠道中具有显著不同的细 菌。

据认为,人体中的微生物与其人类宿主积极相互作用。微生物的一 种生存策略是操纵宿主细胞命运并精心策划炎性反应。微生物可以通过 多种已知机制特异性影响宿主信号传导路径和宿主细胞基因表达,从而 影响人类行为和情感。

人类肠道中的微生物会在粪便中被发现,因此其可以容易地被检测 到。人类肠道中的微生物物种的数量是非常大的。据估计,哺乳动物中 可以具有32万种以上的病毒(参见“哺乳动物中全部病毒的初步评估(First estimateoftotalvirusinmammals)”http://phys.org/print297403030.html中 可获得)。

生物表型也可以通过样品中的无机化合物或离子来确定。例如,样 品的pH实际上是样品中H+的浓度。也可以鉴定并定量K+、Na+、Mg2+、 Ca2+、Mg2+、CI-、HCO3-、PO43-和OH-。适合的测定的实例描述于Wan等 人的“通过采用无触点导电检测的毛细管电泳测定血清和尿液中的主要 无机离子(Determinationofmajorinorganicionsinbloodserumandurineby capillaryelectrophoresiswithcontactlessconductivitydetection)”Analytica ChimicaActa,525栏,11-16页,2004;US2003/0045827;和Xia等人的 “使用未修饰金纳米粒子和成对聚合电解质的DNA、小分子、蛋白质和 离子的比色检测(ColorimetricdetectionofDNA,smallmolecules,proteins, andionsusingunmodifiedgoldnanoparticlesandconjugated polyelectrolytes)”PNAS,107栏10837-10841页,2010,据此通过引用 将其整体并入。此外,能够检测样品中的无机化合物或离子的本领域技 术人员已知的测定可以用于本发明。

可以收集的数据的类型以及收集和分析样品的方法的前述代表性实 例用于本发明。

在本发明中,可以以间接方法收集数据。可以进行未知状态的测量 并且可以同时测量多个生物标志物和/或行为或情感状态。测量可以使用 非侵入性方法进行。可以进行纵向测量,使能够比较用于警告和指导的 检测与用于特异性诊断的检测。

在一些实施方案中,本发明也可以收集关于测量生物表型数据的地 图定位数据。这可以基于具有安装的地图设备如谷歌地图、雅虎地图和 Mapquest的移动设备。此外,该移动设备也可以具有监测测量生物表型 数据的位置的环境因素。这些环境因素可以包括天气(温度、湿度、阳 光/下雨)、紫外线强度、花粉计数等。

在本发明的优选实施方案中,收集的数据包括来自位置(地图)的 数据和来自所述位置的任何正交数据,所述位置(地图)可以任选地与 该位置的时间相关,所述正交数据如但不限于温度、高度噪音、高度、 风、湿度、污染、氧、阳光、花粉、人群密度、具体物、草地、黑夜、 白昼、近高速公路和在那个时间的运输密度、飞机飞行、宇宙辐射水平、 氡暴露、服装和生理条件。因此,在该实施方案中,除了测量一种或多 种生物标志物以外收集并保存了其他数据使得这样的其他数据可以与生 物标志物数据相关或与生物标志物数据结合使用以预测一种或多种人类 行为和/或情感状态。

还认识到其他生物分子如肽、蛋白质、代谢物、激素和小分子影响 和/或指示有机体的活动和行为。例如,已经使雌性生殖激素与慷慨和同 情行为相关。本发明的定量身体的生物组分的输入可以包括DNA类型、 RNA水平、微RNA类型或水平、蛋白质水平、蛋白质型、代谢水平或甚 至定性或定量MRI的测量或描述。在本发明的另一个实施方案中,进行 生物分子如肽、激素和/或小分子或其任意组合的测量,以测量个体的生 物分子状态。

为了更有效地检测/分析人类的生物表型,可以利用计算机芯片直接 分析样品或将样品呈递给分析该样品的设备(例如计算机)。例如,已经 使用纳米技术生成用于测试疾病状态的设备。已经使用碳纳米管传感器 技术在设备上测量身体气体以诊断疾病。例如,将核酸固定在检测芯片 上,个体将芯片暴露于身体气体(或多种气体),核酸可变地结合到芯片 上的核酸序列,导致在检测之后生成独特的带并且使气体的存在或不存 在与疾病相关。还将蛋白质与碳纳米管传感器偶联并且所产生的设备转 换与蛋白质结合事件相关的信号,提供了使用纳米管形式的电子读书器 研究蛋白质功能的一般方法。用于收集和分析样品的方法的这些代表性 实例用于本发明。

从其收集样品的同一个人的行为表型和/或情感表型也可以通过调查 个人或已经观察该个人的第三方来确定。有不同的方式来确定个体的行 为和/或情感表型,如第三方观察和通过回答关于社会行为和情感的问题 的自我评价。在一些实施方案中,可以使用问卷评估个人的行为和情感 状态。在一些实施方案中,可以使用第三方观察和自己完成的问卷两者 来确定个人的行为和/或情感表型。数据可以通过各种网上论坛或媒体收 集。

在一些实施方案中,个体、或对另一个个体的社会行为/情感非常清 楚的个体将完成行为问卷或设计成指示或评价心情、行动、偏好、情感、 感觉、判断力或其他身体、生物、情绪、心理或精神状态的一系列问题。 例如,问题可以是“你喜欢骑摩托车吗?”、“你在过山车时恶心吗?”、 “你结婚了吗?”、“你幸福吗?”、“你是共和党人吗?”、“你更喜欢哪 种质地(显示一张图片)?”、“你更喜欢热气候还是凉爽气候?”、“你 更喜欢红颜色还是黄颜色?”、“你喜欢快速行驶吗?”和/或其他这样的 问题,其中通过回答这样的问题指示个体的心情、行为或其他状态。还 收集了关于视觉显示形式的喜欢和不喜欢的信息。例如图片可以显示为 个体关于意见如“我见过它并且我喜欢它”、“我见过它但我不喜欢它”、 “我没有见过它但我会喜欢它”、“我没有见过它但我不会喜欢它”给出 的个体和评论。

情感状态包括但不限于,基础情感如感觉温柔、或兴奋、高兴、悲 伤、生气或害怕。本领域技术人员可以设计适于具体情形的问卷以便理 解人类行为和/或情感的特定方面。

本发明预期个人的生物表型不是固定的或恒定的。生物表型会随时 间改变并且可以随时间追踪人类的社会行为和情感的变化。

因此,在本发明的方法中,将来自行为和/或情感问卷、或一系列行 为问题,即社会行为/情感的表型的答案然后与生物表型相关。有许多算 法可以用于在生物表型与行为和/或情感表型之间建立相关性。在一些实 施方案中,可以使用分类算法,如聚类(cluster)算法来建立相关性,聚 类算法发现了将数据(生物表型和行为和/或情感表型)划分为有限、不 相交和之前已知(或未知)类别的规则。在其他实施方案中,可以使用 例如其发现一套最常发生的项目分组的总结算法的关联算法来建立相关 性。

在一些实施方案中,可以用于本发明的方法的算法是发现在生物表 型与行为/情感表型之间的相关的数据分类方法。分类是发现在数据集中 一组“目标”之间的共同特性并且基于分类方案将该组“目标”分组为 不同类别的方法。分类模型首先在代表实际数据集的训练数据集上进行 训练。训练数据用于发展每个类的分类规则使得其最好地捕获每个类的 特点和特征。在训练数据上发展的规则被应用于主数据库并且基于规则 将数据划分为类别。分类规则可以在加入新数据时进行修改。

在另一个实施方案中,本发明使用基于关联规则算法的数据挖掘算 法。关联规则的数据挖掘任务可以分别为两个步骤。第一步由发现所有 大的项目集组成。第二步由在第一步中发现的大的项目集中形成具有使 用者指定的信任的蕴含规则。例如,从关于生物表型的数据集中,可以 发现关联规则如行为或情感反应是由某些生物表型引起的(或可以与某 些生物表型相关)。关联规则也可以更加复杂,需要为了调用规则而满足 两个或多个标准。

可以用于本发明的又一个数据挖掘算法是序列模式挖掘。该算法可 以用于发现在数据库发生多次的顺序模式。该分析可以用于检测时间模 式。时间序列聚类是可以用于检测不同时间序列中的相似性的另一种数 据挖掘算法。

在又一个实施方案中,本发明使用用于发现在生物表型和行为和/或 情感表型之间的相关的聚类算法。一般来说,聚类算法可以被广泛地分 类为划分聚类和分层聚类算法。

划分聚类试图确定优化某些标准功能的k划分。方差标准是跨过所有 划分的类内变化的良好测量。目标是发现使方差最小化的k划分。因而, 方差聚类试图使k聚类紧凑并尽可能分开,并且当聚类是彼此相当好地分 开的紧凑的云时运行良好。

分层聚类是其中每个划分嵌套在顺序中的下一个划分中的划分顺 序。用于分层聚类的聚集方法从聚类的分离集开始,所述分离集将每个 输入数据点置于个体聚类中。然后依次合并聚类的对直到聚类的数量减 少至k。在每个步骤,合并的聚类的对是在其之间的距离是最小值的聚类 的对。有几种测量用于确定聚类之间的距离。例如,在使用平均值作为 距离测量(dmean)的方法中合并其几何中心或平均值是最接近的聚类的 对。该方法被称为重心法。在利用最小距离作为距离测量的方法中,合 并的聚类的对是包含最近点对(dmin)的聚类的对。该方法被称为全部点 法(all-pointsapproach)。

在另一个实施方案中,本发明利用分层聚类系列连接法(Serial LinkageMethod)。这是与K-均值和模糊聚类相同意义上的监督聚类法。 这里个体点通过在输入空间中接近彼此而连接到彼此。由于这些点连接 在一起,因此其限定聚类。在算法继续时,聚类连接在一起以形成更大 的聚类。与K-均值和模糊聚类相比,分层聚类具有的优点在于,聚类可 以具有任意非预定形状并且结果正确地显示“聚类丛(clustersof clusters)”。

在再一个实施方案中,本发明利用K-均值和模糊聚类。高斯混合模 型是其普通形式。这些算法是“无监督”聚类法。其假设使用者没有输 出,但不管怎样将根据彼此类似的输入将数据分组。该想法针对每个聚 类选择模型。例如,每个聚类可以由输入空间中的一些位置中心的超球 体内部的点组成。这些方法自动确定聚类的数量,将其置于正确空间中 并确定哪个点属于哪个聚类。这些算法的优点是其可以是有效的算法并 且可以进行找到聚类的良好工作。

在再一个实施方案中,本发明利用Kohonen自组织图(Kohonenself- organizingmap)(SOM)聚类算法。这些算法在使用梯度下降调整大量 参数的意义上与神经网络相关。优点和缺点类似于神经网络。关于神经 网络,KohonenSOM聚类算法具有的优点是,尽管这样的算法不能放大 到高维,但可以更容易地解释参数,神经网络算法也可以。

在另一个实施方案中,本发明使用主成分分析(PCA)用于找到生 物表型和行为和/或情感表型之间的相关。这本身不是分类方法。PCA的 目的是通过认识类别或组,将数据集中的变化表示为更加可管理的形式。 PCA中的假定是输入具有很多规格(几十个甚至几千个变量)。PCA提取 在输入变量中覆盖大部分可变性的少数变量。作为实例,假设沿着3维空 间中的线有数据。正常地将使用3个变量指定每个数据点的坐标。事实上, 仅需要1个变量:沿着所有数据所处的线的数据点的位置。PCA是用于发 现这些降低的方法。PCA的优点是在将使用少数变量解释的数据可变性 的量最大化方面,其可以是其降低良好建立的合理有效方法。

主成分分析(PCA)涉及将许多(可能地)相关变量转化为称为主 成分的(较少)数量的不相关变量的数学程序。第一主成分占尽可能多 的数据中的可变性,并且每个连续成分占尽可能多的剩余可变性。传统 地,主成分分析在类型的平方对称矩阵上进行:SSCP(纯平方和与叉积 (puresumsofsquaresandcrossproducts))、协方差(按比例缩小的平方 和与叉积(scaledsumsofsquaresandcrossproducts))或相关(来自标准 化数据的平方和与叉积)。对于SSCP和协方差类型的矩阵的分析结果没有 差异。如果个体的差异改变很大,或者个体数据点的测量单元不同,如 当分析包含来自行为、神经学、生物化学和生理学测量数据的情况下, 优选使用相关目标(Correlationobject)。

在又一个实施方案中,本发明使用神经网(neuralnet)或神经网络 算法,用于找到在生物表型和行为和/或情感表型之间的相关性。这样的 算法可以使用进行的分类误差数量的梯度下降,即实施常规使得进行的 误差数量随迭代次数单调下降。梯度下降用于调整参数,使得其更好分 类。神经网的优点是这样的算法可以很好地处理高维、非线性、噪声数 据。

神经网可以通过将其响应分类为“正确”或“不正确”,使用“监督”, 即所述网通过其给出反馈的机制训练。其最终关注每个给定输入的正确 输出,至少有一些概率。这样的机器学习算法可以有利地用于本发明的 视觉分类组分或数据挖掘组分中的任一个或两者。

监督学习需要建立容易分类的数据集库,用于输入至神经网。尽管 就需要的数据的量而言更加经济,但监督学习意味着仅仅预定类别可以 被归类为看不见的数据。

在某些实施方案中,本发明的方法将两种类型的学习组合,即用于 发现在生物表型和行为和/或情感表型之间的相关性的学习:神经网的监 督学习,直到其正确地对基础训练集分类。然后非监督学习进一步将训 练类别再分为有意义的亚类,或完整增加新的亚类别。

在又一个实施方案中,本发明利用最近邻算法,用于发现在生物表 型和行为和/或情感表型之间的相关性。这是真正的监督学习法。存在一 套预先给定并且仅仅存储的训练数据(输入即数据点,和输出即类别)。 当新的询问到达时,搜索训练数据发现其输入最接近询问输入的单独数 据点。然后,将用于所述训练数据点的输出报告为用于询问的预测输出。 为了降低对噪音的敏感性,通常使用“k”最近邻法并且从所有其输出中 表决以便进行预测。

在再一个实施方案中,本发明使用逻辑回归算法,用于发现在生物 表型和行为和/或情感表型之间的相关。这与线性回归(将线拟合到数据) 相关,除了输出是类别而不是连续变量以外。优选是该方法提供了良好 处理噪音的统计上有原则的方法。

在又一个实施方案中,本发明利用支持向量机算法,用于发现在生 物表型和行为和/或情感表型之间的相关。其也在类别之间具有线性分离 器,但明确搜索在类别之间生成最大空间的线性分离器。这样的算法在 许多规格中工作良好。再一个实施方案依赖于贝叶斯分类器算法。最简 单的形式是朴素贝叶斯分离器。这些算法建立了来自每个类别的概率模 型。以上的非监督方法可以用于这样做。然后,基于询问,每个类别的 模型用于计算该类别将生成询问数据的概率。基于这些响应,选择最可 能的类别。

本发明的方法使用上述一种或多种算法建立在某些生物学测量(生 物表型)与行为和/或情感反应(行为表型和/或情感表型)之间的关系。

在一些实施方案中,本发明也可以与生物表型一起确定并使用个体 的生理表型,以建立与行为和/或情感表型的相关。生理表型可以包括生 理参数,如:

身体参数-运动、人体测量(例如腰部、高度和体重测量)、组织结构 和/或组成。

代谢参数-生命体征(心率、血压、呼吸速率、温度)、基础代谢率和 /或水合状态。

心血管参数/肺参数-心脏功能(ECG、心率可变性)、呼吸速率/体积、 动脉阻力/硬化、动脉阻塞、静脉回流、末梢循环和/或微细管增殖/循环。

器官参数-大小、组成和功能(例如肾功能、肝功能、脂肪组织处置、 皮肤厚度/可塑性)、瞳孔扩张和/或电反应。

肌肉/骨骼参数-电肌肉活动(如潜在的或刺激的)、强度、组成、氧 合和/或密度。

胃-肠参数-消化活动和效率。

因此,在一些实施方案中,从其收集样品的个人的生理参数(生理 表型)也可以确定并用于建立生物学/生理表型与行为和/或情感表型之间 的相关性。

在一个实施方案中,本发明提供了用于将生物表型数据与行为和/或 情感表型相关的方法,所述方法包括:从个体获得包含生物分子的样品, 从个体获得关于行为和/或情感的调查;将行为和/或情感表型数据存储在 调查数据库中;分析生物分子的样品以确定生物分子的组成(生物表型 数据);将生物组成数据存储在样品数据库中;以及使来自样品数据库的 数据与来自调查数据库的数据相关。

生物表型与行为和/或情感表型之间的相关性用于向个体提供有助于 个体的日常生活的指导。除了其他目的之外,所述关系向个体提供感染 疾病的风险的警告。因此,本发明可以向个体提供减缓风险的指导。在 另一个实施方案中,所述关系可以显示可以影响个体生活质量的情感状 态,如悲伤感,或情绪的不稳定性。本发明可以向个体提供改进这些情 感状态或使这些情感状态相关的指导。

本发明的相关性不同于医学领域中的诊断,医学领域中的诊断可以 基于生物标志物的测量用于识别患有疾病的个人以及疾病的性质和病 因。一个主要区别是,诊断需要非常低的错误率并由美国食品药品监督 管理局调节和监测,而本发明针对向个体提供有助于个体的日常生活的 指导。由于本发明不向个体提供医学治疗或疗法,因此可以比诊断容忍 更高的错误率。

此外,诊断典型地基于落入正常范围以外的生物标志物的测量。例 如,样品中的生物标志物的浓度异常低或异常高,表明存在疾病。另一 方面,本发明的生物表型基于在也可以包括正常范围的范围内的生物标 志物的测量。因此,本发明基于可以在正常范围和/或异常范围之一或两 者内的测量向个体提供指导。

在本发明的方法中,生物分子如多肽可以用作个体的情感表型或行 为表型的标记。在收集数据之后和在收集数据过程中,可以整合并分析 数据,所述数据包括关于生物分子(或多个生物分子)的存在或不存在 的数据和来自个体的行为状态或情感状态的数据。确定为与生物表型相 关的数据(例如,偏离数据)被保留,而确定为与生物表型不相关的数 据被保存用于进一步的相关性分析。存储数据并生成数据库。数据的收 集可以继续并且可以使用随时间保留的最好数据和任选消除的最低相关 性根据等级进行排序。该方法将揭示生物分子或生物分子状态与行为和/ 或情感状态的经验相关。

在一些实施方案中,两种生物标志物之间的比率可以用于与行为表 型数据和/或情感表型数据的相关。在许多情况下,与单一生物标志物相 比,两种生物标志物之间的比率可以具有与行为表型数据和/或情感表型 数据的更好的相关性。

生物标志物与管家基因产物之间的比率也可以在一些实施方案中使 用。管家基因典型地是保持基本细胞功能所需要的组成型基因并且在正 常和病理生理条件下在有机体的所有细胞中表达。一些管家基因在相对 恒定的水平下被表达。由在相对恒定水平下的这些管家基因表达的蛋白 质可以用作生物标志物相比较的内标,并且可以生成生物标志物与管家 基因产物的比率。更具体地,样品中管家基因的蛋白质表达水平被确定 并用于比较生物标志物的相对蛋白质表达水平,从而生成生物标志物与 管家基因的比率。也可以使用在基本上恒定水平下表达的其他组成型表 达基因。

在这些实施方案中,可以确定样品中一种或多种生物标志物相对于 管家基因或其他组成型表达基因的水平,从而暗示样品中生物标志物的 上调或下调。生物标志物的上调和下调可以在某种程度上反映生物条件 以及不能单独依靠生物标志物或DNA测序容易地实现的精度。该比率 可以保持在任何样品稀释度以上,因此,其可以与具有不同灵敏度的各 种测定一起使用。该比率方法可以在测量环境如厕所或尿壶中的生物分 子时特别有效,其中尿液的体积将相对于水的体积变化。

在一些实施方案中,本发明可以包括生物标志物与安慰剂效应 (placeboeffect)的相关性。在医学上,安慰剂效应是在接受被患者认为 是活性药物的安慰剂后由患者声称的积极治疗效果。如本文所使用, “安慰剂效应”是在特定治疗、事件或情况之后个体中的生物分子中测 量的有益效果或有害效果,其是由关于治疗、事件或情况的个人的期望 或信念引起的而不是由治疗、事件或情况本身引起的。在本发明的实施 方案中,本发明的相关性包括基于生物分子与安慰剂效应的共现的生物 分子与安慰剂效应的相关。一个实例可以是在与安慰剂效应同时出现、 在安慰剂效应之前或之后出现的生物分子。这样的生物分子可以被称为 “安慰剂效应生物标志物”,因为生物分子可以与安慰剂效应一起存 在。这些“安慰剂效应生物标志物”可以是信念增强的指示剂。然后这 些生物标志物可以用于评价包括食用特定的食物或补充剂的活动和行为 或活动的组合以增强这些生物标志物,从而增加安慰剂效应以提高希望 结果的可能性。这些“安慰剂效应生物标志物”也可以独立地或与其他 生物标志物组合地用作用于增强个体信念的指导或用于指导个体或销售 商。

另一方面,本发明提供了用于存储关于生物表型、生理表型和行为 表型和/或情感表型的数据的数据库。在一些实施方案中,生物表型与行 为表型和/或情感表型之间的相关以及生物/生理表型与行为表型和/或情 感表型之间的相关也可以存储在数据库中。这样的数据库(或多个数据 库)可以包括关于个体的信息的、组织成优选地在计算机中方便访问的 相关数据的一个或多个集合,该数据库用于多种目的,包括商人在预测 购买行为中的使用或用于向使用者提供关于其现有的和潜在未来偏好的 信息。

数据库可以进一步包含从其生成数据点的样品的身份。这可以在某 些分子仅存在于实例中的一些中时变得重要。例如,存在于尿液中的分 子不同于汗液中的分子。因此,数据库可以包含鉴定分子存在于其中的 样品的信息。此外,生物表型与行为表型和/或情感表型之间的相关可以 包括样品的身份。

数据库还可以包含从个体收集样品的时间。众所周知,人体活动, 尤其是代谢随时间改变并且在同一天中的不同时间改变。因此,样品的 组成也可以在一天期间变化。对于一些实施方案可能重要的是节约数据 库中的样品收集的时间以使该数据可用于相关和分析。

本发明的数据库可在更多的数据被加入至数据库中时演变 (evolve),并且数据库中的信息也可以随时间变得越来越准确和/或可 靠,原因是例如收集的数据的量增加。由于该数据库演变,可以建立新 的相关,并且向个体提供指导的新方式可以成为可能。来自个体的上传 的生物标志物数据可以与地图位置相关,即个体在地图上的位置是测量 或收集生物标志物数据的时间。基于这种关系,并随着更多的数据和信 息可用,本发明可以进一步将地图位置与其他信息,如环境因素(如花 粉计数、紫外线强度等)相关。因此,演变的数据库可以生成或包括生 物标志物与地图位置和环境因素的相关。换句话说,不同的生物标志物 可以与不同的环境因素相关。例如,生物标志物可以与作为“花粉生物 标志物”的花粉计数相关。另一生物标志物可以与作为“阳光生物标志 物”的阳光相关。

数据库可以在将更多新的不同数据加入至数据库时更进一步演变。 例如,阳光生物标志物(或多个阳光生物标志物)可能与不同的数据如 购买增加的数据相关。在一个实施方案中,如果系统检测在来自个体的 样品中的阳光生物标志物(或多个阳光生物标志物),则系统可以会推 荐不想过度购买(over-purchase)的个体食用已知减少阳光生物标志物(或 多个阳光生物标志物)的食品或补充剂,或其可以推荐广告商销售减少 阳光生物标志物(或多个阳光生物标志物)的食品或补充剂。

用于分析的数据收集和存储的许多实例已经存在。例如,HLA(人 类白细胞抗原)分型数据库收集并存储关于个体的HLA类型的信息。

对处于不同情感状态,如可能每个情感状态5、10、20、25或100 个人,可以进行生物表型分析以初步建立数据库。数据被收集并由问题 的答案生成使生物表型与行为表型和/或情感表型相关的数据库。随时间 可以修改数据库以消除与生物表型不相关的行为数据。数据可继续被收 集并且数据库演变。与生物表型匹配的行为表型和/或情感表型可以分级 并且所述分级可以在新信息输入数据库中时随时间被修改或演变。预期 新的行为和情感信息以及生物表型信息可以随时间继续被整合到数据库 中并且该信息可以用于评价、修改、改变或更新各种相关。

在本发明的一种方法中,生物学表面评估是与行为或情感相关的基 础方面以便衍生有意义或有效的“空类型(emotype)”,或与运行评估 和预测当前和未来行为的行为和情感相关的临时生物条件或状态。

在已经建立了生物表型与行为表型和/或情感表型之间的相关之后, 这些相关随后可以用作预测一个个体或一组个体的未来行为或情感状态 的“规则”。例如,如果唾液中的多肽A和代谢物B的存在与喜欢巧克 力(一种“规则”)的趋势相关,然后如果在个人的唾液中检测到多肽A 和代谢物B,则可以预测这个人处于想消费巧克力的状态。在该假设实 例中,用于巧克力的产品推荐可以通过例如响应于数据的移动设备发送 给个人。

这些“规则”也可以用于改变个体的生活环境。例如,如果尿液中 的特定代谢物X的存在与悲伤情感相关。当个体使用配备有传感器的厕 所检测代谢物并且发现该个体的尿液具有代谢物X时,则可以通过电线 或无线地发送信号以调整环境中灯光的亮度和颜色,以使个体高兴。

在本发明的方法中,判定和数据搜索结果可以与使用者的生物表型 相关,以生成用于多种应用的信息和模式。该数据搜索中的生物整合可 以有助于降低搜索效率和速度的高错误率。用于测量个体的生物分子状 态如总是存在或总是不存在的蛋白质的标记物,可以预测未来行为,因 为其存在或不存在将与对问题的响应相关。

在另一个实施方案中,本发明是用于预测消费者行为的方法,其包 括:使用加工设备;从消费者获得包含生物分子的样品;同时或在另一 个时间从消费者获得调查数据;将调查数据存储在调查数据库中;分析 生物分子的样品以确定生物分子的组成;将来自组成的数据存储在样品 数据库中;使来自样品数据库的数据与来自调查数据库的数据相关;以 及使用相关的数据预测使用加工设备的消费者行为。

在另一个实施方案中,本发明是预测个体的行为或偏好的方法,所 述方法包括:从个体获得包含生物分子的样品;同时或在另一个时间从 个体获得调查数据;将调查数据存储在调查数据库中;分析生物分子的 样品以确定生物分子的组成;将来自组成的数据存储在样品数据库中; 使来自样品数据库的数据与来自调查数据库的数据相关;以及基于样品 数据库中的生物数据与调查数据库中的调查数据之间的相关预测行为或 偏好。

在又一个实施方案中,本发明是用于预测个体的行为或偏好的方 法,所述方法包括:从个体获得包含生物分子的样品;分析生物分子的 样品以确定生物分子的组成;使来自样品的数据与来自调查数据库的数 据相关;以及基于样品中的生物数据与调查数据库中的调查数据之间的 相关预测行为或偏好。

上述段落中提及的生物分子可以包括但不限于,可以在样品中检测 到、从样品分离或在样品中定量的上述各个项目。

在另一个实施方案中,本发明是使来自先前生成的样品数据库与先 前生成的调查数据库的数据相关的方法,其包括使来自样品数据库的数 据与来自调查数据库的数据相关。在另一个实施方案中,本发明是使来 自样品数据库与调查数据库的数据相关的方法,其包括从个体获得包含 生物分子的样品;分析生物分子的样品以确定生物分子的组成;以及使 来自样品数据库的数据与来自调查数据库的数据相关。

在另一个实施方案中,本发明是预测一个或多个个体的行为或偏好 的方法,所述方法包括:从一个或多个个体获得包含生物分子的样品; 分析生物分子的样品以确定生物分子的组成;将来自组成的数据存储在 样品数据库中;使来自样品数据库的数据与来自调查数据库的数据相 关;以及基于样品数据库中的生物数据与调查数据库中的调查数据之间 的相关预测行为或偏好。

在本发明的一方面中,在测量样品中的蛋白质之后,可以确定编码 这样的蛋白质的基因。然后可能使用替代多核苷酸(如DNA或RNA) 测定以测量个体的生物分子状态。首先测量蛋白质接着使用核酸作为确 定个体的生物分子状态的替代的相反过程尚未大规模追求。一个原因可 能是相信核酸测量对于确定个体的生物分子状态是最佳的,而另一个原 因可能是与核酸测定相比,蛋白质测定成本更高。因此,在本发明的另 一个实施方案中,首先测量蛋白质,接着确定对应的DNA或RNA分 子,然后测定这样的核酸分子以测量个体的生物分子状态。

在本发明的方法中测量蛋白质是合适的。在本发明的方法中测量蛋 白质使身体的人类蛋白质与来自存在于该身体的微生物的蛋白质之间区 分。

在本发明的方法中个体包括消费者。数据库包括来自多个个体的信 息。

本发明的方法在几个应用中是有用的,其中证明或预测个体对任何 事物(例如人、电子产品、音乐、食品、时尚、游戏、书籍以及消耗品 等)的亲和力是有用的。例如,约会服务、宠物服务和供应业(用于提 供关于投票选择的信息)、政治制度(用于度假定位的营销)和旅游业 会发现由数据库提供的信息对于使生物状态与个体行为(例如,选择) 相关是有用的。

一种用于使来自样品数据库与调查数据库的数据相关的方法,其包 括:从个体获得包含生物分子的样品;同时或在另一个时间从个体获得 调查数据;将调查数据存储在调查数据库中;分析生物分子的样品以确 定生物分子的组成;将来自组成的数据存储在样品数据库中;使来自样 品数据库的数据与来自调查数据库的数据相关。

所述样品选自尿液或粪便、血液、个体的呼气、人类细胞、毛发或 指甲、唾液、粘液或眼泪。生物分子选自蛋白质、小分子、代谢物、 肽、激素、核酸及其组合。个体可以是消费者。样品的分析使用质谱仪 或其他测定进行。调查任选地包括来自生理测量的数据。生理测量是心 率、电反应、体温或瞳孔扩张。调查包括可以由消费者或与消费者类似 的个人完成的关于行为、偏好、情感、判断力或感觉的问题。

相关的数据可以用于预测消费者的行为或用于目标广告的消费者行 为。

方法还包括:从第二个体获得包含生物分子的样品;同时从第二个 体获得调查数据;将来自第二个体的新调查数据存储在调查数据库中以 生成更新的调查数据库;分析来自第二个体的生物分子的样品以确定生 物分子的第二组成;将来自第二组成的数据存储在样品数据库中以生成 更新的样品数据库;使来自更新的样品数据库的数据与来自更新的调查 数据库的数据相关。

方法还包括:从第三和更多个体获得包含生物分子的样品;同时从 第三和更多个体获得调查数据;将来自第三和更多个体的新调查数据存 储在调查数据库中以生成更新的调查数据库;分析来自第三和更多个体 的生物分子的样品以确定生物分子的第三和更多组成;将来自第三和更 多组成的数据存储在样品数据库中以生成更新的样品数据库;使来自更 新的样品数据库的数据与来自更新的调查数据库的数据相关。

数据库基于来自新个体的另外的数据演变。

用于预测消费者行为的方法,其包括:使用加工设备;从消费者获 得包含生物分子的样品;同时从消费者获得调查数据;将调查数据存储 在调查数据库中;分析生物分子的样品以确定生物分子的组成;将来自 组成的数据存储在样品数据库中;使来自样品数据库的数据与来自调查 数据库的数据相关;使用相关的数据预测使用加工设备的消费者行为。

数据库包含来自多个消费者的数据。加工设备可以是计算机或手 机。

预测个体的行为或偏好的方法,所述方法包括:从个体获得包含生 物分子的样品;同时从个体获得调查数据;将调查数据存储在调查数据 库中;分析生物分子的样品以确定生物分子的组成;将来自组成的数据 存储在样品数据库中;使来自样品数据库的数据与来自调查数据库的数 据相关;基于样品数据库中的生物数据与调查数据库中的调查数据之间 的相关性预测行为或偏好。

数据库包含来自多个个体的数据,个体可以是消费者。

一种用于预测个体的行为或偏好的方法,所述方法包括:从个体获 得包含生物分子的样品;分析生物分子的样品以确定生物分子的组成; 使来自样品的数据与来自调查数据库的数据相关;基于样品中的生物数 据与调查数据库中的调查数据之间的相关性预测行为或偏好。

一种用于使来自先前生成的样品数据库与先前生成的调查数据库的 数据相关的方法,其包括:使来自样品数据库的数据与来自调查数据库 的数据相关。

一种用于使来自样品数据库与调查数据库的数据相关的方法,其包 括:从个体获得包含生物分子的样品;分析生物分子的样品以确定生物 分子的组成;使来自样品数据库的数据与来自调查数据库的数据相关。

相关的数据揭示行为。

一种用于预测一个或多个个体的行为或偏好的方法,所述方法包 括:从一个或多个个体获得包含生物分子的样品;分析生物分子的样品 以确定生物分子的组成;将来自组成的数据存储在样品数据库中;使来 自样品数据库的数据与来自调查数据库的数据相关;基于样品数据库中 的生物数据与调查数据库中的调查数据之间的相关预测行为或偏好。

一种方法,其中所述相关的数据作为用于促进和/或销售产品或服务 的信息提供给产品供应商或服务供应商。

一种方法,其中所述相关的数据作为信息提供给产品供应商或服务 供应商并用于对生意、产品或服务分级或打分,例如特定组的个体的质 量或有用性的打分(例如1、2、3级或更高水平)。

一种方法,其中所述相关的数据作为信息提供给产品供应商或服务 供应商并且产品供应商或服务供应商据此使用数据向包括消费者的个体 提供反馈或指导。

一种方法,其中所述相关的数据作为信息提供给个体如消费者以向 个体提供反馈或指导。

以下参考文献通过引用整体并入本文:

DeRuiter,J.R.(2004)的“灵长类动物研究中的基因标记:阐明行 为及其进化(Geneticmarkersinprimatestudies:elucidatingbehaviorandits evolution)”,灵长类动物学国际期刊(Internationaljournalof primatology),25(5).pp.1173-1189。

公开题目:用于将来军事应用的神经科学的机遇(Opportunitiesin NeuroscienceforFutureArmyApplications)(2009)登于军事科学和技术 (ArmyScienceandTechnology)(BAST),用于将来军事应用的神经科 学的机遇组委会(CommitteeonOpportunitiesinNeuroscienceforFuture ArmyApplications)、工程和物理科学专区(DivisiononEngineeringand PhysicalSciences)、国家学院的国家研究委员会(NATIONAL RESEARCHCOUNCILOFTHENATIONALACADEMIES),国家学院出 版社(THENATIONALACADEMIESPRESS),华盛顿www.nap.edu。

Goldsmith等人的5栏第7,5408-5416号,2011,ACSNano;线上 公开于2011年6月22日。

SamuelM.Khamis等人的相同DNA功能化的碳纳米管化学传感器 (Homo-DNAFunctionalizedCarbonNanotubeChemicalSensors),固体的 物理化学杂志(JournalofPhysicsandChemistryofSolids)71(2010) 476-479。

S.M.Khamis等人的基于DNA装饰的碳纳米管的FET作为超灵敏化 学传感器:同源性、结构同分异构体和光学异构体(DNA-decorated carbonnanotube-basedFETsasultrasensitivechemicalsensors: Discriminationofhomologues,structuralisomers,andopticalisomers),AIP 进展(AIPAdvances)2,022110(2012);工业部(doi):10.1063/1.4705394。

Yian-BiaoZhang等人的用于检测病毒蛋白的功能化的碳纳米管 (FunctionalizedCarbonNanotubesforDetectingViralProteins),纳快报 (NanoLetters),2007第7栏,第103086-3091号。

在不细化的情况下,使用之前的描述认为本领域技术人员可以最大 限度地利用本发明。

然而,将理解的是,虽然本发明的许多特征和优点连同本发明的结 构和功能的细节已在前面的描述中阐明,但是其公开内容仅仅是说明性 的,并且可以在所附权利要求书所表达的术语的广泛的一般含义最大程 度地表示的本发明的原理内在细节上,尤其是在部件的形状、大小和布 置的方面进行改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号