首页> 中国专利> 序列数据分析装置、DNA分析系统以及序列数据分析方法

序列数据分析装置、DNA分析系统以及序列数据分析方法

摘要

序列数据分析装置(1)具有:读取字典生成部(21),其基于利用结合字符连接作为从样本DNA片段的两端分别定序的对的左方序列(11a)和右方序列(11b)之间而得的结合字符串,生成读取序列字典(14);样本重构部(25),其提取位于读取序列字典(14)内的查询序列(16)的命中位置(17a)周围的直至出现结束字符为止的字符串,作为样本序列(17),并提取样本序列(17)内不存在命中位置(17a)一侧的直至出现结束字符为止的左方序列(11a)或者右方序列(11b),作为伴侣序列(17b)。

著录项

  • 公开/公告号CN106104541A

    专利类型发明专利

  • 公开/公告日2016-11-09

    原文格式PDF

  • 申请/专利权人 株式会社日立高新技术;

    申请/专利号CN201580014840.6

  • 发明设计人 木村宏一;

    申请日2015-03-12

  • 分类号G06F19/22;

  • 代理机构北京银龙知识产权代理有限公司;

  • 代理人范胜杰

  • 地址 日本东京都

  • 入库时间 2023-06-19 00:48:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-09-11

    授权

    授权

  • 2016-12-07

    实质审查的生效 IPC(主分类):G06F19/22 申请日:20150312

    实质审查的生效

  • 2016-11-09

    公开

    公开

说明书

本申请主张2014年4月3日提交申请的日本特许申请第2014-77278号的优先权,其内容通过参照援引至本申请中。

技术领域

本发明涉及序列数据分析装置、DNA分析系统以及序列数据分析方法。

背景技术

基因组DNA的碱基序列在DNA整体中已经被定序(读取),其碱基字符串被因特网上的服务器等公开。研究人员以该基因组DNA为样板(参照数据),通过进行与由定序器装置读取的被测者的样本DNA片段之间的碱基位置对照(基因组作图),检测样本DNA内的变异。所谓变异,例如为单核苷酸多态性(SNP:Single Nucleotide Polymorphism,单核苷酸多态性)、SV(结构变异)等基因组DNA的碱基字符串与样本DNA片段的碱基字符串的相异部位。需要说明的是,样本DNA片段是一个样本DNA经定序器装置内的碎片处理而分割为多个断片而得到的。

此处,由于定序器装置只能读取有限长度的DNA序列,因此下述的双端方法为人所知,即处理的是从以基本一定长度对齐的样本DNA片段各自的两端读取了有限长度(只是样本DNA片段的一部分)的两个(一对)读取序列。即,在双端方法中,在样本DNA片段的中央部存在哪一对读取序列也不属于的、不被定序的区间。

因此,在将利用双端方法所读取的对的读取序列向基因组DNA内的碱基位置进行基因组作图时,相比只对对中一方的读取序列进行位置对照,通过对另一方读取序列也一并进行位置对照,能够将一个样本DNA片段高精度地向基因组DNA内作图。

基因组DNA、样本DNA片段的碱基字符串的数据量庞大,因此在利用如上所说明那样的双端方法将两个(一对)读取序列向基因组DNA内作图时,要求处理的高效化、数据的压缩化。于是,如下所示,提出了各种基因组作图的高效化技术。

已知以下方法:在全基因组转录谱中,进行维持了全长cDNA上从5’末端朝向3’末端顺序的双端双标签的定序,高效检测与指定的间隔序列相邻的双标签序列(专利文献1)。

为了将由新型DNA定序器得到的大量短读取与参照基因组序列高速且高精度地比对,生成将基因组序列进行BW(Burrows-Wheeler,伯罗斯-惠勒)转换后的数据,并使用其高速鉴定与短读取的起始几十个碱基的种子序列一致的序列在参照基因组内出现的位置,这种技术通常被广泛使用(例如非专利文献1)。

另外,此时,为了减少存在多个能够比对的候补位置的暧昧性,成对的短读取的作图也在广泛进行(例如非专利文献1)。通常,表示一对中存在两个短读取,因此对它们赋予同一名称(例如,在非专利文献1中,QNAME)。

为了进行变异分析,通常广泛进行利用将大量短读取向参照基因组作图而得到的大量数据的方法(例如非专利文献3)。另外,为了不进行需要很大计算成本的作图的计算就能进行变异分析,可想到利用参照基因组序列的BW转换和短读取序列的BW转换的方法(专利文献2、非专利文献4)。

现有技术文献

专利文献

专利文献1:日本特表2008-547080号公报

专利文献2:日本特愿2013-038919号公报

非专利文献

非专利文献1:Li H.,HandsakerB.,Wysoker A.,Fennell T.,RuanJ.,Homer N.,Marth G.,AbecasisG.,Durbin R.and 1000Genome Project Data Processing Subgroup:The Sequence alignment/map(SAM)format and SAMtools.Bioinformatics,25,2078-9(2009).

非专利文献2:Li H.and Durbin R.Fast and accurate short read alignment with Burrows-Wheeler Transform.Bioinformatics,25:1754-60(2009).

非专利文献3:M.A.DePristo,et al.,A framework for variation discovery and genotyping using next-generation DNA sequencing data.Nature Genetetics 43(5):491-498(2011).

非专利文献4:K.Kimura and A.Koike:A new approach to DNA sequence variation analysis using Burrows-Wheeler transform of massive short-read data,in Proceedings of Advances in Genome Biology&Technology Conferenece(AGBT)2013,Marco Island,p.202.

发明内容

发明所要解决的课题

对于由双端方法定序的大量读取序列数据,为了由计算机处理对关系的信息,需要用于将对中一方的读取序列与另一方的读取序列关联起来的标识符(或者指示信息)。这些标识符必须能唯一确定对的对方,因此需要大量的字节数。因此,标识符的数据大小增大,成为招致计算效率下降的主要原因。例如,在长度为100个碱基的短读取有80亿个的情况下,需要40亿种标识符,每个标识符至少需要4字节,针对所有读取的标识符数据的大小高达4GB(千兆字节)。

于是,本发明的主要课题为,根据从样本DNA片段的两端而定序的对中的一方读取序列高效地求出另一方读取序列。

用于解决课题的方法

为了解决上述课题,本发明的序列数据分析装置具有:

读取字典生成部,针对每个样本DNA片段,生成将从上述样本DNA片段的两端分别定序的对、即左方序列和右方序列之间利用结合字符连接而得的结合字符串,并基于各上述样本DNA片段的上述结合字符串由结束字符结合而得的字符串来生成读取序列字典;

查询检索部,其检索出现由基因组DNA的碱基字符串生成的查询序列的上述读取序列字典内的碱基字符坐标、即命中位置;

样本重构部,其以上述读取序列字典内的上述命中位置为起点,提取位于其周围的上述结束字符出现为止的字符串作为样本序列,并且,以上述样本序列内的上述命中位置为起点,检查位于其周围的上述结合字符,提取从检查到的上述结合字符到不存在上述命中位置一侧的上述结束字符出现为止的上述左方序列或者上述右方序列作为伴侣序列;

作图部,其检索出现上述伴侣序列的上述基因组DNA内的碱基字符串的碱基字符坐标。

其他方法在下文记载。

发明效果

根据本发明,能够根据从样本DNA片段的两端定序的对中的一方读取序列高效地求出另一方读取序列。

附图说明

图1是表示本发明一种实施方式涉及的DNA分析系统的结构图。

图2是表示本发明一种实施方式涉及的序列数据分析装置的结构图。

图3是表示本发明一种实施方式涉及的各字典的生成处理的流程说明图。

图4是表示本发明一种实施方式涉及的字典生成处理中BW字符串生成处理的说明图,图4(a)表示由读取序列生成结合字符串的处理,图4(b)表示由结合字符串生成BW字符串的处理。

图5是表示本发明一种实施方式涉及的字典生成处理中向小波树(Wavelet Tree)形式的转换处理的说明图,图5(a)表示为了转换为小波树形式所参照的二叉树,图5(b)表示将BW字符串转换为小波树形式的处理。

图6是表示本发明一种实施方式涉及的SNP分析处理的流程说明图。

图7是表示本发明一种实施方式涉及的SNP分析处理中各数据的说明图,图7(a)表示SNP信息,图7(b)表示由SNP信息和基因组序列字典生成的查询序列,图7(c)表示由读取序列字典检索查询序列的情形,图7(d)表示SNP的分析结果。

图8是表示本发明一种实施方式涉及的结构变异分析处理的流程说明图。

图9是表示本发明一种实施方式涉及的结构变异分析处理中各数据的说明图,图9(a)表示结构变异信息,图9(b)表示由结构变异信息和基因组序列字典生成的查询序列,图9(c)表示由读取序列字典检索查询序列的情形,图9(d)表示结构变异分析结果。

具体实施方式

以下,参照附图详细说明本发明的一种实施方式。

图1是表示DNA分析系统的结构图。

序列数据分析装置1由具有通常的计算机的结构的服务器等计算机实现。

序列数据分析装置1具备以下结构:中央处理部(CPU:中央处理单元)201、作为存储程序等的存储部的存储器202、显示用于操作的GUI(图形用户界面)、分析结果等的显示部203、作为存储序列字典(图2的读取序列字典14、基因组序列字典15)等的存储部发挥功能的硬盘驱动器(HDD)204、进行SNP等变异信息或参数输入等的键盘等输入部205、用于与因特网等连接的网络接口(NIF)206与总线207连接。

存储在HDD204中的序列字典可以存储在设置在序列数据分析装置1外部的存储装置,也可以经由网络存储在数据中心等。

在以下所说明的各种的流程图通过CPU201的程序执行等实现。

基因组服务器8和定序器9经由网络与序列数据分析装置1的NIF 206连接。

针对各样本DNA片段,定序器9对其两端(5’末端的读取序列和3’末端的读取序列)的对进行定序(读取),并将其结果提供给序列数据分析装置1。

需要说明的是,作为读取序列(碱基序列)的表述方法,通常的方法是将5’末端的碱基字符记载于左侧,将3’末端的碱基字符记载于右侧,因此在以下设5’末端为“左方”,设3’末端为“右方”。

定序器9构成为超级并列型(所谓下一代型)DNA定序器,能够对多个(例如一亿个)样本DNA片段并列进行定序。

同样地,基因组服务器8将对基因组DNA定序的结果、即基因组序列提供给序列数据分析装置1。

需要说明的是,替代以对基因组DNA定序得到的基因组序列为参照序列而以样本DNA片段为分析对象,而是以mRNA序列为参照序列且以cDNA样本的双端定序数据为分析对象,由此能够进行剪接变体的检测。这是因为,由于剪接变体导致外显子丢失这相当于结构变异的“缺失”,导入新的外显子相当于结构变异的“插入”。

图2是表示序列数据分析装置1的结构图。在该图2的说明中,说明各结构要素的概要,关于各结构要素的细节,则通过以下记载的说明予以明确。

序列数据分析装置1由定序器9接受读取序列集合11(左方序列11a和右方序列11b)的输入。

读取序列集合11是由定序器9定序的每个样本DNA片段的读取序列(左方序列11a和右方序列11b)的集合。

左方序列11a是以样本DNA片段中的5’末端的端点为起点,朝向3’末端定序的读取序列。

右方序列11b是以样本DNA片段中的3’末端的端点为起点,朝向5’末端定序的读取序列。

此处,左方序列11a以及右方序列11b的长度为例如100个碱基左右,如果样本DNA片段为300个碱基左右,则中央的100个碱基左右是既不包含于左方序列11a也不包含于右方序列11b的定序对象外的部位。或者,在2万个碱基左右长度的样本DNA片段的情况下,定序对象外的部位为19800个碱基左右。

作为DNA分析处理的前期准备,读取字典生成部21由读取序列集合11生成读取序列字典14。基因组字典生成部22由参照基因组序列12生成基因组序列字典15。

需要说明的是,参照基因组序列12针对作为分析对象的每种物种设定,是各染色体的全长的序列的集合。

序列数据分析装置1接受SNP信息13a或者结构变异信息13b的输入,作为表示成为本次分析对象的变异的分析用信息13。所谓SNP,即特定部位上样本DNA片段的碱基内容与基因组DNA的相同部位的碱基内容不同。所谓结构变异,即连续多个碱基的排列的插入或缺失。

查询生成部23参照基因组序列字典15生成包括分析用信息13所示变异的查询序列16。

查询检索部24在读取序列字典14内检索作图到查询序列16的(出现查询序列16的)碱基位置坐标,即命中位置17a。

样本重构部25重构包括命中位置17a的样本DNA片段的读取序列(样本序列17)。此处,命中位置17a包含在左方序列11a或者右方序列11b的任一个中,因此将不包括命中位置17a一方的读取序列作为伴侣序列17b。

作图部26参照基因组序列字典15来确定(基因组作图)样本DNA片段的伴侣序列17b所源自的基因组DNA内的位置。

样本判定部27根据伴侣序列17b的作图成败来判定伴侣序列17a的样本DNA片段是否包括分析用信息13所示的变异。然后,样本判定部27输出分析用信息13的判定结果。

图3是表示各字典的生成处理的流程说明图。首先,说明读取字典生成部21根据读取序列集合11生成读取序列字典14的读取字典生成处理(S101~S105)。

在S101中,序列数据分析装置1由定序器9接受读取序列集合11(左方序列11a和右方序列11b)的输入。

在图4(a)中,为了使说明简单易懂,举例表示了样本DNA片段301、305这2个片段,样本DNA片段301的左方序列11a为“GA”这2个碱基,右方序列11b为“T”这1个碱基,样本DNA片段305的左方序列11a为“C”这2个碱基,右方序列11b为“TA”这2个碱基。

定序器9将所读取的读取序列集合11如表示左方序列11a的符号361、表示右方序列11b的符号362那样以FASTQ形式通知给序列数据分析装置1。符号361、符号362中,列举了两个样本DNA片段301、305的读取序列,针对每个读取序列记载了4行信息。

FASTQ形式的第一行“@Seq1、@Seq2”是样本DNA片段的标识符(ID),第二行“GA、T、C、TA”是读取序列。例如,符号361的第一行“@Seq1”与符号362的第一行“@Seq1”一致,因此可知是从同一样本DNA片段301读取的对。

在图3的S102中,读取字典生成部21通过将成对的左方序列11a的碱基字符与右方序列11b的碱基字符利用结合字符“&”而结合,由此生成表示一个样本DNA片段的结合字符串。需要说明的是,所谓碱基字符,即分别表示四种碱基的“A、C、G、T”和表示不明碱基的“N”。

在图4(a)中,通过将同一样本DNA片段301的对、即左方序列11a“GA”和右方序列11b“T”利用结合字符“&”302而结合,并在末尾附加结束字符“$”303,从而得到结合字符串304“GA&T$”。同样地,由样本DNA片段305的对,得到结合字符串306“C&TA$”。

需要说明的是,可以根据样本DNA片段的长度区分使用多种结合字符。例如,由大约300个碱基的样本DNA片段生成的结合字符串内的结合字符可使用“&”,由大约20000个碱基的样本DNA片段生成结合字符串内的结合字符可使用“#”。由此,根据结合字符,不仅能够获取样本DNA片段的成对对方,还能够获取样本DNA片段的长度。

在图3的S103中,读取字典生成部21对结合字符串304、306进行BW转换,生成BW字符串311。

在图4(b)中,例如通过以下的进度生成BW字符串311。在该计算过程中,从起始开始逐一字符进行比较来进行字符串比较时,比较到各自的$则比较结束,比较到各自的&则比较继续。

(进度1)对结合字符串304进行循环移位(cyclic shift)从而得到字符串的列表307,并且对结合字符串306也进行循环移位,得到字符串的列表308。

(进度2)通过合并两个列表307、308,得到合并完毕列表309。

(进度3)对合并完毕列表309以英文字母顺序进行分类,得到分类完毕列表310。此时,字符的分类顺位例如为“$<#<&<A<C<G<T<N”。

(进度4)将分类完毕列表310各行末端的字符连接,得到BW字符串311。

这样得到的BW字符串311为分类完毕字符串,因此同一字符连续的频度高。因此,通过对BW字符串311进行行程长度压缩,能够压缩数据量。

在图3的S105中,读取字典生成部21通过将BW字符串311转换为小波树形式,生成用于高效进行检索的读取序列字典14。

图5(a)表示转换为小波树形式所参照的二叉树320。该二叉树320中,字符串中所使用的所有字符($、&、A、C、G、T、N)321为根。

二叉树320是表示以下分类方法的二叉树:将字符串中所使用的所有字符($、&、A、C、G、T、N)321以递归式分为两类,使分类的末端至多只包括两种字符。

在二叉树320的根,将所有字符321分类为A、T(W)324、以及它们之外的(S)325。分类为S的字符($、&、C、G、N)325也同样地分为M和K两类。以下,对其以递归式重复,使得分类的末端至多只包括两种字符。但是,表示对的符号&(302)和结束记号$(303)分类为在分类的末端331中一同出现。

图5(b)的小波树340是表示BW字符串311的二叉树。小波树340的根为,依照二叉树320分为W和S两类,将BW字符串311转换为二进制字符串341。读取字典生成部21生成抽出分类为W的字符而得到的部分字符串342、以及抽出分类为S的字符而得到的部分字符串343。

读取字典生成部21将(只包括A和T这两种字符的)部分字符串342转换为0和1的二进制字符串344。

读取字典生成部21将部分字符串343也同样地依照分类为S的字符分为M和K两类(由二叉树320表示)而生成二进制字符串345。

读取字典生成部21生成抽出分类为M的字符得到的部分字符串346、以及抽出分类为K的字符得到的部分字符串347。

通过反复进行以上说明的生成各部分字符串的处理,能得到图示的6个二进制字符串。在分解的末端351,由表示对的符号&(302)和结束记号$(303)构成的字符串350由二进制字符串351表示。二进制字符串351的长度(比特数)与读取的总数(对的总数的2倍)相等。

因此,小波树340是对BW字符串311进行可逆转换而得到的,能从小波树340重构BW字符串311。

在图3的S106中,读取字典生成部21将由小波树340生成的读取序列字典14输出到存储单元。此处,不仅仅是小波树340,读取字典生成部21还可以在读取序列字典14中附加用于计算该小波树340的rank函数、select函数的极少量(相对于BW字符串311为3.5%左右数据量的)辅助数据。

rank(p,c)是返回序列要素0~p中的字符“c”的出现次数的函数。

select(i,c)是返回第(i+1)个字符“c”出现的序列位置的函数。

辅助数据例如为参考文献“Kouichi Kimura,Yutaka Suzuki,Sumio Sugano,and Asako Koike.Journal of Computational Biology.November 2009,16(11):1601-1613.”中记载的“hierarchical binary string”。该辅助数据是用于高效进行由BW字符串311求出全部与任意给出的碱基序列一致的读取序列片段等检索的数据。

在BW转换后的字符串上被赋予了用于高效计算rank函数和select函数的辅助数据,因此利用使用了$和&这两种划分字符的BW转换的特征,相对于任意给出的字符串s,能够高效求出与s一致的所有读取片段序列,另外,进一步能够相对于各读取片段序列高效地进行将位于其左方和右方的序列(延长至出现$)进行重构的计算。

以上,参照图3~图5说明了读取字典生成处理(S101~S105)。而基因组字典生成处理(图3的S101b~S105b)也能与读取字典生成处理(S101~S105)同样地生成。

在S101b中,基因组字典生成部22接受参照基因组序列12的输入,而非S101的读取序列集合11。

在S102b中,基因组字典生成部22将参照基因组序列12所示多个基因组DNA的染色体序列(碱基字符串)直接利用结束字符“$”连接,从而生成一个字符串。此处,参照基因组序列12不是对形式,因此不需要S102那样的基于结合字符“&”的对连接处理。

在S105b中,基因组字典生成部22输出基因组序列字典15,而非S105的读取序列字典14。

图6是表示SNP分析处理的流程说明图。

在S121中,序列数据分析装置1接受SNP信息13a的输入,作为表示本次分析对象的变异的分析用信息13。

在图7(a)中,举例示出表示SNP信息13a的表400。如表400的各行所示,针对每个SNP,包括染色体名、染色体上的碱基位置坐标、参照基因组序列内的碱基种类(标准碱基)、作为SNP出现的碱基种类(变异碱基)的信息。

表400的第一行表示:SNP位于七号染色体上的第123456个碱基的位置,参照基因组的碱基“A”变异为了碱基“G”。

在图6的S122中,查询生成部23参照基因组序列字典15生成包含SNP信息13a所示的SNP的查询序列16。

图7(b)的说明栏420是S122的示例,横轴421是染色体上的碱基位置坐标。首先,查询生成部23参照基因组序列字典15求取表400的第一行所示SNP的位置424周边(例如,左右为10碱基左右)的碱基序列422。查询生成部23在SNP的位置424生成碱基序列422的碱基变异后的序列423,将其作为查询序列16。或者,查询生成部23通过替代包含变异的碱基序列423而设不包含变异的碱基序列422作为查询序列16,能够检测出现在SNP的位置424的标准碱基。

在图6的S123中,查询检索部24在读取序列字典14内检索作图到查询序列16的(碱基字符串的排序一致的)碱基位置坐标,即命中位置17a。

需要说明的是,在基于BW转换后的读取序列字典14进行计算的过程中,在对2个字符串(读取序列字典14、查询序列16)从起始开始逐一字符进行比较时,在各自的结束字符“$”被比较的情况下,比较结束,在各自的结合字符串“&”被比较的情况下,比较继续。

在S131~S139中,序列数据分析装置1执行在S123中求出的各命中位置17a的环处理。

在S132中,样本重构部25在从S131开始的环中重构包括当前所选择的命中位置17a的样本DNA片段的读取序列(样本序列17)。在该重构处理中,从通过BW转换所生成的读取序列字典14,使用rank函数和select函数,从而以命中位置17a为起点,在读取序列字典14内延长扫描直至结束字符“$”出现,从而获取到被左右的结束字符“$”夹在其中的样本序列17。

这样的使用rank函数和select函数的方法在例如下述文献中有记载:Ferragina,P.and Manzini,G著,"Opportunistic data structures with applications",In 41st IEEE Symposium on Foundations of Computer Science,FOCS,pages390-398。

如结合字符串304、306那样,样本序列17包括结合字符“&”以及结束字符“$”。通过将该样本序列17在结合字符串“&”处分离,不使用每个样本DNA片段的标识符就能得到成对的两个读取序列(左方序列11a、右方序列11b)。

在S133中,样本重构部25通过如下所示从样本序列17起进行扫描(检查)直至发现结合字符“&”,从而获得伴侣序列17b(S134)。

如图7(c)的[1]的情况那样,在从命中位置17a的序列423向右方延长的前方出现结合字符“&”,因此获得的伴侣序列17b是结合字符“&”右侧的右方序列11b。

如图7(c)的[2]的情况那样,在从命中位置17a的序列423向左方延长的前方出现结合字符“&”,因此获得的伴侣序列17b是结合字符“&”左侧的左方序列11a。

如图7(c)的[3]的情况那样,在无论从命中位置17a的序列423向右方延长还是向左方延长都不出现结合字符“&”的情况下,样本序列17是不存在构成对的对方的单独的读取序列。这样的单独的读取序列视为可信度低,可以忽略。

或者,在限于向基因组序列字典15询问要导入变异之前的序列423,并确认了序列423在基因组内的出现部位只有一处的情况下,(虽然可信度低,但是)可判定检测到了SNP。

在S135中,作图部26参照基因组序列字典15确定(基因组作图)在S134中获取的伴侣序列17b所源自的基因组DNA内的位置。作图部26例如从伴侣序列17b中切取短的(例如20个碱基左右的)部分序列,向基因组序列字典15询问该部分序列是否在基因组内只出现在一处。

如果连一处也不出现的情况下,可认为该部分序列中包含定序错误、多态,因此作图部26再次以其他的部分序列进行询问。

另外,如果在多处出现的情况下,作图部26使部分序列的长度增长,或者,使用其他的部分序列再次进行询问。这样,在确定了短的部分序列在基因组内的位置的情况下,包含其的伴侣序列17b在基因组上的位置也能够确定(换言之,作图成功)。另一方面,在不能确定的情况下,作图失败。

在S135中,若为“是”,则进入S136,若为“否”,则结束本次的环(S139),为了选择下一个命中位置,返回S131。

在S136中,样本判定部27如下所述地根据距离是否正常(整合)来判定S132的序列17a的样本DNA片段是否包含分析用信息13所示SNP变异。例如,如果作图成功的伴侣序列17b的作图位置与SNP信息13a所示SNP的位置(命中位置17a)之间的距离基本等于样本DNA片段的长度,则视为构成样本序列17的左方序列11a和右方序列11b发生了整合,样本判定部27判定为“检测出SNP”(即,与SNP信息13a整合)。

在S136中,若为“是”则进入S137,若为“否”则进入S138。

在S137中,样本判定部27使判定为“检测出SNP”的SNP信息13a的检测数计数值加1。

在S138中,由于判定为“未检测出SNP”,样本判定部27不进行检测数计数值的增加。

在执行S131~S139的环之后,在S141中,样本判定部27输出(向用户报告)将SNP信息13a与其检测数计数值(检测出SNP的样本DNA片段的个数)对应起来的分析用信息13的判定结果。

图7(d)的表460是在S141中输出的信息的一个例子。在表460中,针对图7(a)的表400所示的每一个SNP,从检测数计数值读取并写入在SNP位置424检测出变异碱基(SNP)的读取片段的个数(变异碱基检测数)、以及检测出标准碱基的读取片段的个数(标准碱基检测数)。

图8是表示结构变异分析处理的流程说明图。着眼于与图6的SNP分析处理的不同之处,在以下对图8进行说明。

在S121b中,作为表示本次分析对象的变异的分析用信息13,序列数据分析装置1接受结构变异信息13b的输入,而非SNP信息13a的输入。

图9(a)的结构变异信息13b中,如表600的各行中所示,对于各变异,包括染色体名、染色体上的碱基位置坐标、变异的类型(插入或缺失)、变异长度的信息。

表600的第一行表示:结构变异位于三号染色体上的第654321个碱基的位置,与标准基因组相比发生了丢失连续500个碱基的排列的缺失。

在图8的S122b中,查询生成部23参照基因组序列字典15生成结构变异信息13b所示结构变异的周边的查询序列16。

图9(b)的说明栏620表示S122b的查询序列16的生成方法。横轴421是染色体上的碱基位置坐标。首先,参照基因组序列字典15,求出发生结构变异的位置624的周边(例如,在左方和右方离开几十个碱基左右的位置)的短的(例如20个碱基左右的)碱基序列622和623,将它们分别作为查询序列16。即,查询序列16是位于发生结构变异的位置624(左方或者右方)附近的短序列。

在图8的S133b中,执行S133的处理(图8中省略图示)之后,判定是否为结构变异分析对象外(得不到变异信息)。在S133b中,若为“是”,则本次的环结束(S139),若为“否”,则进入S134。以下,关于S133b的判定处理,参照图9(c)的说明栏640进行说明。

如图9(c)的[1]的情况那样,从位于命中位置17a、即位置624左方的查询序列622向右方延长而重构得到的样本序列17内出现结合字符“&”的情况下,查询序列622包含于左方序列11a。

因此,结合字符“&”右方的序列641(右方序列11b)作为伴侣序列17b而重构。进而,在查询序列622与序列641之间有可能包括发生结构变异的位置624。

另一方面,在向查询序列622左方延长而重构得到的字符串内出现结合字符“&”的情况下,由于没有结构变异的可能性,因此判定为对象外(得不到变异信息),该情况的图示省略。

如图9(c)的[2]的情况那样,对于位于命中位置17a、即位置624右方的查询序列623,相对于图9(c)的[1]左右反转,也进行同样的判定。在从查询序列623向左方延长而重构得到的样本序列17内出现结合字符“&”的情况下,查询序列623包含于右方序列11b。

因此,结合字符“&”左方的序列642(左方序列11a)作为伴侣序列17b而重构。进而,在查询序列623与序列642之间,有可能包括发生结构变异的位置624。

另一方面,在向查询序列623右方延长而重构的字符串内出现结合字符“&”的情况下,由于没有结构变异的可能性,因此判定为对象外(得不到变异信息),该情况的图示省略。

以上,针对S133b的判定处理进行了说明。

在替代S136而进行的S136b中,在伴侣序列17b与其提取源的样本序列17中成对的读取序列之间的对间距离基本等于样本DNA片段长度的情况下,样本判定部27评价距离为正常值(S136b,“是”)。

S136b中若为“否”,则检测出结构变异,因此,样本判定部27使相应的结构变异信息13b的“检测有变异数”的计数值加1(S137b)。

此处,样本判定部27可按照“缺失”的变异类型和“插入”的变异类型分别统计检测数。因此,在对间的距离长于根据样本DNA片段长度所预想的长度的情况下,判定为发生了(对应于相差部分的长度的)缺失,相反,在对间的距离短于根据样本DNA片段长度所预想的长度的情况下,可判定为发生了(对应于相差部分的长度的)插入。

S136b中若为“是”,则为未检测出结构变异,因此,样本判定部27使相应的结构变异信息13b的“检测无变异数”的计数值加1(S138b)。

在S141b中,序列数据分析装置1将S137b以及S138b的计数值作为结构变异的检测结果进行报告,因此输出图9(d)的表660所示的信息。

该表660中,对于表600中所示的各结构变异,判定为有变异的读取片段数以及判定为无变异(即,与标准基因组一致)的读取片段数作为检测有变异数以及检测无变异数进行报告。

在以上说明的本实施方式中,读取字典生成部21通过将样本DNA片段的对、即左方序列11a与右方序列11b之间利用结合字符连接,将样本DNA片段的对间利用结束字符连接,从而生成结合字符串。然后,读取字典生成部21生成对结合字符串进行BW转换后小波树化的读取序列字典14。

样本重构部25在从读取序列字典14内的查询序列16的命中位置17a重构包括该命中位置17a的样本DNA片段的对(伴侣序列17b)时,能够以嵌入读取序列字典14内的结合字符为线索来重构伴侣序列17b。因此,不需要每个样本DNA片段的标识符,因此能够高效计算相对于任意的读取序列成对的伴侣序列17b。

需要说明的是,由于不使用每个样本DNA片段的标识符,如下所示,能够削减序列数据分析装置1所负担的数据量以及处理量。

作为对比例,在如图4的符号361的“@Seq1”那样使用每个样本DNA片段的标识符的情况下,在从样本DNA片段读取的读取序列集合11的左方序列11a和右方序列11b共存在10亿个的情况下,需要5亿种标识符。每一个标识符的数据大小为4字节,则所有标识符数据的大小需要4千兆字节。进而,在使用每个样本DNA片段的标识符的情况下,以命中的读取序列的标识符作为检索关键字,用于检索与其成对的伴侣序列17b的负担很大。

另一方面,在本实施方式中,关于嵌入读取序列字典14内的控制用字符(结合字符、结束字符)的数据大小,每一个样本DNA片段只要1字节,因此所有样本DNA片段的合计为10亿字节(=0.125千兆字节),仅为使用标识符情况下的数据大小的三十二分之一左右。进而,由于命中的读取序列和与其成对的伴侣序列17b隔着结合字符在读取序列字典14内相邻配置,因此能够将伴侣序列17b的检索负荷抑制得很低。

需要说明的是,本发明不限定为上述的实施例,还包含各种变形例。例如,上述的实施例是为了易于理解地说明本发明而详细说明的例子,并非一定限定为具备所说明的所有结构的情形。

另外,某一实施例的部分结构能够置换为其他实施例的结构,另外,也能够在某一实施例的结构中追加其他实施例的结构。

另外,对于各实施例的部分结构,能够进行其他结构的追加、删除、置换。另外,上述各结构、功能、处理部、处理单元等的一部分或者全部可以通过在例如集成电路中进行设计等由硬件来实现。

另外,上述各结构、功能等可以通过由处理器解释并执行实现各自功能的程序从而由软件来实现。

实现各功能的程序、表、文件等信息能够存储在存储器或者硬盘、SSD(固态硬盘)等存储装置,或者存储在IC(集成电路)卡、SD卡、DVD(数字影音光盘)等存储介质。

另外,示出了在进行说明时认为有必要的控制线、信息线,并非示出作为制品所具有的所有控制线、信息线。实际上可认为几乎所有的结构相互连接。

符号说明

1:序列数据分析装置;

8:基因组服务器;

9:定序器;

11:读取序列集合;

11a:左方序列;

11b:右方序列;

12:参照基因组序列;

13:分析用信息;

13a:SNP信息;

13b:结构变异信息;

14:读取序列字典;

15:基因组序列字典;

16:查询序列;

17:样本序列;

17a:命中位置;

17b:伴侣序列;

21:读取字典生成部;

22:基因组字典生成部;

23:查询生成部;

24:查询检索部;

25:样本重构部;

26:作图部;

27:样本判定部。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号